주제에 benchmark 태그가 달렸습니다

글	조회수	활동
[2026/01/05 ~ 11] 이번 주에 살펴볼 만한 AI/ML 논문 모음 읽을거리&정보공유 paper , ai-security , small-llm , benchmark , world-model , ai-ml-papers-of-the-week , dlcm , relayllm , photon , robust-r1 , infiagent , mmgr , datbench , deepresearch , dynamic-large-concept-models , spo , dynamic-reasoning-depth-scaling , 4-δ-bound , multi-modal-generative-reasoning , artemis	759	1월 11, 2026
The LLM Evaluation Guidebook: Hugging Face가 공개한 LLM 평가를 위한 종합적이고 실질적인 안내서 읽을거리&정보공유 huggingface , guide , llm-evaluation , benchmark , evaluation-framework , evaluation-tool , llm-benchmark , llm-evaluation-guidebook , evaluation-datasets	657	12월 9, 2025
[2025/10/20 ~ 26] 이번 주에 살펴볼 만한 AI/ML 논문 모음 읽을거리&정보공유 paper , benchmark , ai-ml-papers-of-the-week , brain-rot , beyond-seeing , optpipe , pipeline-parallelism , dragon-hatchling , hybrid-reinforcement , hybrid-ensemble-reward-optimization , reasoning-over-task-execution , chunkllm , diffusion-llm , parallel-decoding , fast-dllm , elastic-cache , visualtoolbench , the-space-of-ai , ais-impact-on-developers	4335	10월 26, 2025
FutureBench: AI 에이전트의 미래 예측 능력을 평가하기 위한 벤치마크 (feat. Hugging Face) 읽을거리&정보공유 huggingface , agentbench , benchmark , smolagents , leaderboard	272	8월 3, 2025
[2025/07/21 ~ 27] 이번 주에 살펴볼 만한 AI/ML 논문 모음 읽을거리&정보공유 paper , seal , survey-paper , continual-learning , benchmark , reinforcement-learning , rl-with-verifiable-rewards , grpo , ai-ml-papers-of-the-week , inverse-scaling , ttd-dr , pt-moe , one-shot-rlvr , tree-rl , absencebench , verbalization-finetuning , multimodal-multilingual-model	3360	7월 28, 2025
ScreenSuite: GUI Agent를 구성하는 MLLM의 성능 평가를 위한 통합 벤치마크 (feat. Hugging Face) 읽을거리&정보공유 huggingface , benchmark , mllm , mllm-benchmark , screensuite	262	7월 8, 2025
WebBench: 현실적인 웹 환경을 반영한 AI 브라우저 에이전트 벤치마크 읽을거리&정보공유 benchmark , skyvern , webvoyager , browser-use , webbench , halluminate	236	6월 2, 2025
SELECT: 이미지 인식을 위한 대규모 데이터 큐레이션 전략 벤치마크에 대한 연구 읽을거리&정보공유 dataset , benchmark , data-curation , select , imagenet-plus-plus , image-classification , out-of-distribution	229	11월 7, 2024
CAPTURE: Multimodal LLM(LVLM)의 이미지 캡션 생성 성능 평가 지표 (벤치마크 & 평가 데이터셋) 읽을거리&정보공유 multimodal , vision-language , large-vision-language-model , benchmark , capture , evaluation , mllm-benchmark , lvlm , image-captioning	702	9월 5, 2024
VLMs are blind: 시각-언어 모델이 실패하는 (인간에게는 쉬운) 시각적 작업들에 대한 연구 (feat. BlindTest) 읽을거리&정보공유 dataset , multimodal , vision-language , paper , large-vision-language-model , benchmark , blindtest	1264	7월 13, 2024
대규모 언어 모델(LLM) 기반 합성 데이터(Synthetic Data)의 생성, 큐레이션 및 평가에 대한 종합적인 연구(Survey) 읽을거리&정보공유 paper , synthetic-data , survey-paper , benchmark , llm-benchmark , data-generation , data-curation , data-evaluation	2752	7월 5, 2024
ARC-AGI 벤치마크: AGI 개발에 필요한 새로운 벤치마크 (feat. 규모가 아니라 새로운 아이디어가 필요합니다) 읽을거리&정보공유 agi , benchmark , arc-agi , arc-prize , ai-benchmark , françois-chollet , sequia , mike-knoop	1697	7월 5, 2024
MMLU-Pro, LLM 성능 평가를 위한 벤치마크인 MMLU의 개선된 버전 읽을거리&정보공유 dataset , llm-evaluation , benchmark , mmlu , mmlu-pro , llm-benchmark	3108	5월 21, 2024
Meta, 현실 세계에서의 문제 해결 능력을 시험하는 Open-Vocabulary Embodied QA 벤치마크 OpenEQA 공개 읽을거리&정보공유 meta , benchmark , openeqa , world-model , open-vocabulary , embodied-question-answering	319	4월 18, 2024
[GN] 인텔 Gaudi 2 칩, Diffusion Transformer 벤치마크에서 Nvidia H100을 능가 읽을거리&정보공유 intel , stability-ai , nvidia-h100 , benchmark , diffusion-transformer , gaudi-2	415	3월 12, 2024
VLM(Vision-Language Model)과 시각 연역 추론에 대한 Apple의 연구 읽을거리&정보공유 apple , multimodal , vision-language , benchmark , visual-reasoning	1546	3월 12, 2024
벤치마크가 목표가 될 때: LLM 리더보드의 민감성에 대한 논문 읽을거리&정보공유 llm , paper , llm-evaluation , benchmark , leaderboard	1130	3월 5, 2024
OpenToM: 사람의 정신 상태를 이해하는 이론적 마음(Theory-of-Mind) 평가를 위한 벤치마크 읽을거리&정보공유 dataset , llm-evaluation , benchmark , theory-of-mind , opentom , n-tom-benchmark	339	2월 22, 2024
[GN] Whisper 모델로 비교한 Nvidia 4090과 M1/M2/M3에서의 MLX 성능 비교 읽을거리&정보공유 geeknews , apple-silicon , mlx , benchmark	1647	12월 14, 2023

[2026/01/05 ~ 11] 이번 주에 살펴볼 만한 AI/ML 논문 모음

paper , ai-security , small-llm , benchmark , world-model , ai-ml-papers-of-the-week , dlcm , relayllm , photon , robust-r1 , infiagent , mmgr , datbench , deepresearch , dynamic-large-concept-models , spo , dynamic-reasoning-depth-scaling , 4-δ-bound , multi-modal-generative-reasoning , artemis

0

759

1월 11, 2026

The LLM Evaluation Guidebook: Hugging Face가 공개한 LLM 평가를 위한 종합적이고 실질적인 안내서