|
FrontierCode: 정확성을 넘어 "병합 가능한 코드 품질"을 측정하는 벤치마크 (feat. Cognition)
|
|
0
|
69
|
6월 12, 2026
|
|
Apodex-1.0: 검증하는 에이전트 팀으로 딥리서치 SotA를 달성한 헤비듀티 솔버 (feat. Qwen3.5)
|
|
0
|
128
|
6월 11, 2026
|
|
AgingBench: 배포된 AI 에이전트의 노화를 측정하는 종단 신뢰성 벤치마크에 대한 연구 (feat. UT Austin)
|
|
0
|
141
|
6월 1, 2026
|
|
Artificial Analysis가 공개한 코딩 에이전트 벤치마크: 모델 + 하네스의 조합으로 평가한 벤치마크 결과
|
|
0
|
2298
|
5월 13, 2026
|
|
ProgramBench: 컴파일된 바이너리만 보고 코드베이스를 처음부터 재구축하도록 평가하는 Meta의 LLM 벤치마크
|
|
0
|
198
|
5월 11, 2026
|
|
LLM의 초전도체 연구 질문 응답 능력 평가: 선별된 데이터 소스의 중요성 (feat. Google Research, Cornell, Harvard)
|
|
0
|
166
|
3월 26, 2026
|
|
Prompt-Dump: LLM의 메타인지 벤치마크 평가를 위한, 수만대 규모의 AI NPC 자율 트레이딩 시뮬레이션 환경
|
|
0
|
467
|
2월 25, 2026
|
|
EVMbench: OpenAI와 Paradigm이 공개한, 이더리움 스마트 컨트랙트 보안 벤치마크
|
|
0
|
168
|
2월 19, 2026
|
|
KO-VLM-Benchmark: Marker AI가 공개한, 한국어 문서 및 시각 요소(도해, 표 등) 이해 능력 벤치마크
|
|
0
|
510
|
2월 13, 2026
|
|
[2026/01/05 ~ 11] 이번 주에 살펴볼 만한 AI/ML 논문 모음
|
|
0
|
838
|
1월 11, 2026
|
|
The LLM Evaluation Guidebook: Hugging Face가 공개한 LLM 평가를 위한 종합적이고 실질적인 안내서
|
|
0
|
935
|
12월 9, 2025
|
|
[2025/10/20 ~ 26] 이번 주에 살펴볼 만한 AI/ML 논문 모음
|
|
0
|
4409
|
10월 26, 2025
|
|
FutureBench: AI 에이전트의 미래 예측 능력을 평가하기 위한 벤치마크 (feat. Hugging Face)
|
|
0
|
307
|
8월 3, 2025
|
|
[2025/07/21 ~ 27] 이번 주에 살펴볼 만한 AI/ML 논문 모음
|
|
0
|
3388
|
7월 28, 2025
|
|
ScreenSuite: GUI Agent를 구성하는 MLLM의 성능 평가를 위한 통합 벤치마크 (feat. Hugging Face)
|
|
0
|
321
|
7월 8, 2025
|
|
WebBench: 현실적인 웹 환경을 반영한 AI 브라우저 에이전트 벤치마크
|
|
0
|
305
|
6월 2, 2025
|
|
SELECT: 이미지 인식을 위한 대규모 데이터 큐레이션 전략 벤치마크에 대한 연구
|
|
0
|
259
|
11월 7, 2024
|
|
CAPTURE: Multimodal LLM(LVLM)의 이미지 캡션 생성 성능 평가 지표 (벤치마크 & 평가 데이터셋)
|
|
0
|
750
|
9월 5, 2024
|
|
VLMs are blind: 시각-언어 모델이 실패하는 (인간에게는 쉬운) 시각적 작업들에 대한 연구 (feat. BlindTest)
|
|
0
|
1323
|
7월 13, 2024
|
|
대규모 언어 모델(LLM) 기반 합성 데이터(Synthetic Data)의 생성, 큐레이션 및 평가에 대한 종합적인 연구(Survey)
|
|
0
|
2988
|
7월 5, 2024
|
|
ARC-AGI 벤치마크: AGI 개발에 필요한 새로운 벤치마크 (feat. 규모가 아니라 새로운 아이디어가 필요합니다)
|
|
0
|
1839
|
7월 5, 2024
|
|
MMLU-Pro, LLM 성능 평가를 위한 벤치마크인 MMLU의 개선된 버전
|
|
0
|
3481
|
5월 21, 2024
|
|
Meta, 현실 세계에서의 문제 해결 능력을 시험하는 Open-Vocabulary Embodied QA 벤치마크 OpenEQA 공개
|
|
0
|
338
|
4월 18, 2024
|
|
[GN] 인텔 Gaudi 2 칩, Diffusion Transformer 벤치마크에서 Nvidia H100을 능가
|
|
0
|
428
|
3월 12, 2024
|
|
VLM(Vision-Language Model)과 시각 연역 추론에 대한 Apple의 연구
|
|
0
|
1598
|
3월 12, 2024
|
|
벤치마크가 목표가 될 때: LLM 리더보드의 민감성에 대한 논문
|
|
0
|
1155
|
3월 5, 2024
|
|
OpenToM: 사람의 정신 상태를 이해하는 이론적 마음(Theory-of-Mind) 평가를 위한 벤치마크
|
|
0
|
378
|
2월 22, 2024
|
|
[GN] Whisper 모델로 비교한 Nvidia 4090과 M1/M2/M3에서의 MLX 성능 비교
|
|
0
|
1682
|
12월 14, 2023
|