SELECT: 이미지 인식을 위한 대규모 데이터 큐레이션 전략 벤치마크에 대한 연구
|
|
0
|
186
|
11월 7, 2024
|
CAPTURE: Multimodal LLM(LVLM)의 이미지 캡션 생성 성능 평가 지표 (벤치마크 & 평가 데이터셋)
|
|
0
|
485
|
9월 5, 2024
|
VLMs are blind: 시각-언어 모델이 실패하는 (인간에게는 쉬운) 시각적 작업들에 대한 연구 (feat. BlindTest)
|
|
0
|
1014
|
7월 13, 2024
|
대규모 언어 모델(LLM) 기반 합성 데이터(Synthetic Data)의 생성, 큐레이션 및 평가에 대한 종합적인 연구(Survey)
|
|
0
|
1792
|
7월 5, 2024
|
ARC-AGI 벤치마크: AGI 개발에 필요한 새로운 벤치마크 (feat. 규모가 아니라 새로운 아이디어가 필요합니다)
|
|
0
|
1120
|
7월 5, 2024
|
MMLU-Pro, LLM 성능 평가를 위한 벤치마크인 MMLU의 개선된 버전
|
|
0
|
1956
|
5월 21, 2024
|
Meta, 현실 세계에서의 문제 해결 능력을 시험하는 Open-Vocabulary Embodied QA 벤치마크 OpenEQA 공개
|
|
0
|
287
|
4월 18, 2024
|
[GN] 인텔 Gaudi 2 칩, Diffusion Transformer 벤치마크에서 Nvidia H100을 능가
|
|
0
|
387
|
3월 12, 2024
|
VLM(Vision-Language Model)과 시각 연역 추론에 대한 Apple의 연구
|
|
0
|
1446
|
3월 12, 2024
|
벤치마크가 목표가 될 때: LLM 리더보드의 민감성에 대한 논문
|
|
0
|
1035
|
3월 5, 2024
|
OpenToM: 사람의 정신 상태를 이해하는 이론적 마음(Theory-of-Mind) 평가를 위한 벤치마크
|
|
0
|
277
|
2월 22, 2024
|
[GN] Whisper 모델로 비교한 Nvidia 4090과 M1/M2/M3에서의 MLX 성능 비교
|
|
0
|
1539
|
12월 14, 2023
|