leaderboard
| 글 | 댓글 | 조회수 | 활동 | |
|---|---|---|---|---|
| Prompt-Dump: LLM의 메타인지 벤치마크 평가를 위한, 수만대 규모의 AI NPC 자율 트레이딩 시뮬레이션 환경 |
|
0 | 356 | 2월 25, 2026 |
| ClawWork: 토큰 비용 이상의 수익 창출 능력을 겨루는 AI 에이전트 경제성 평가 플랫폼 |
|
0 | 355 | 2월 18, 2026 |
| FutureBench: AI 에이전트의 미래 예측 능력을 평가하기 위한 벤치마크 (feat. Hugging Face) |
|
0 | 277 | 8월 3, 2025 |
| Salesforce, CRM을 위한 LLM 벤치마크와 리더보드 공개 |
|
0 | 420 | 6월 27, 2024 |
| W&B, 한국어 LLM 리더보드 'Horangi(호랑이)' 공개 |
|
0 | 1314 | 4월 2, 2024 |
| 벤치마크가 목표가 될 때: LLM 리더보드의 민감성에 대한 논문 |
|
0 | 1134 | 3월 5, 2024 |