OpenLLM Leaderboard κ°μ μ μ κΈ μκ°
Open-LLM leaderboardλ λ€μν μΈμ΄ λͺ¨λΈμ μ±λ₯μ λΉκ΅νκ³ νκ°νλ νλ«νΌμΌλ‘, μ°κ΅¬μλ€κ³Ό κ°λ°μλ€μ΄ μ΅μ λͺ¨λΈμ μ±λ₯μ κ°κ΄μ μΌλ‘ νμ ν μ μλ μ€μν μν μ ν©λλ€. κ·Έλ¬λ μ΅κ·Ό λͺ λ κ° λ¦¬λ보λμ λ±λ‘λ λͺ¨λΈλ€μ μ±λ₯μ΄ μΌμ μμ€μ λλ¬ν μ΄νλ‘ λ μ΄μμ λμ λλ ν₯μμ΄ μμμ΅λλ€. μ΄λ λͺ¨λΈ μ±λ₯μ νκ³λ₯Ό 극볡νκΈ° μν μλ‘μ΄ μ κ·Ό λ°©λ²μ΄ νμν¨μ μλ―Έν©λλ€. OpenLLM 리λ보λλ μ΄λ¬ν μν©μ νκ°νκΈ° μν΄ λ€μν κ°μ λ°©μμ μ μνκ³ μμΌλ©°, μ΄λ₯Ό ν΅ν΄ λͺ¨λΈ κ°λ°μλ€μ΄ λ λμ μ±λ₯μ λͺ¨λΈμ λ§λ€ μ μλλ‘ λκ³ μ ν©λλ€.
νμ¬ Open-LLM 리λ보λμλ μλ§μ μΈμ΄ λͺ¨λΈμ΄ λ±λ‘λμ΄ μμΌλ©°, μ΄λ€ λͺ¨λΈμ νΉμ κΈ°μ€μ λ°λΌ μ±λ₯μ΄ νκ°λκ³ μμκ° λ§€κ²¨μ§λλ€. μ΅κ·Ό λͺ λ λμ λλΆλΆμ λͺ¨λΈμ΄ λμ μ μλ₯Ό κΈ°λ‘νλ©° μμκΆμ μ°¨μ§νκ³ μμ§λ§, μμκΆ λͺ¨λΈλ€ κ°μ μ±λ₯ μ°¨μ΄κ° λ―Έλ―Έν΄μ§κ³ μμ΅λλ€. μ΄λ μλ‘μ΄ λͺ¨λΈμ΄ κΈ°μ‘΄ λͺ¨λΈμ λΉν΄ νμ μ μΈ μ±λ₯μ 보μ¬μ£Όμ§ λͺ»νκ³ μμμ μμ¬ν©λλ€. μ΄λ¬ν νμμ λͺ¨λΈ κ°λ°μλ€μκ² λ ν° λμ κ³Όμ λ₯Ό μ겨주며, 리λ보λμ μ λ’°μ±κ³Ό μ μ©μ±μ μ μ§νκΈ° μν΄μλ νκ° λ°©μμ κ°μ κ³Ό μλ‘μ΄ λ°μ΄ν°μ μ λμ μ΄ νμν©λλ€.
νμ¬ Open-LLM 리λ보λμ κ°μ νμ μ¬νλ€
λͺ¨λΈμ νκ³
νμ¬ λ¦¬λ보λμ λ±λ‘λ λͺ¨λΈλ€μ GPT-3, BERTμ κ°μ λν μΈμ΄ λͺ¨λΈλ€λ‘ ꡬμ±λμ΄ μμΌλ©°, μ΄λ€ λͺ¨λΈμ μ΄λ―Έ μ΅μ νλ μνμ λλ€. μ΄λ¬ν λͺ¨λΈλ€μ μ΄λ―Έ μλ°±μ΅ κ°μ 맀κ°λ³μλ₯Ό μ¬μ©νμ¬ νμ΅λμκΈ° λλ¬Έμ, μΆκ°μ μΈ μ±λ₯ ν₯μμ μν΄μλ μμ²λ μμ λ°μ΄ν°μ μ°μ° μμμ΄ νμν©λλ€. κ·Έλ¬λ μ΄λ¬ν μ κ·Ό λ°©μμ μμ μλͺ¨κ° ν¬κ³ , νκ²½μ μΈ λΆλ΄μ μ΄λν μ μμ΅λλ€. λ°λΌμ μλ‘μ΄ λͺ¨λΈ κ°λ° λ°©λ²λ‘ κ³Ό μν€ν μ²μ λμ μ΄ νμν©λλ€.
λ°μ΄ν° λΆμ‘±
κ³ νμ§μ νμ΅ λ°μ΄ν°κ° λΆμ‘±ν κ²λ ν° λ¬Έμ μ λλ€. νμ¬ μ¬μ©λλ λ°μ΄ν°μ μ μ£Όλ‘ μμ΄λ‘ λ ν μ€νΈμ΄λ©°, λ€μν μΈμ΄μ λλ©μΈμ ν¬κ΄νμ§ λͺ»νκ³ μμ΅λλ€. μ΄λ λͺ¨λΈμ νμ΅ λ²μλ₯Ό μ ννλ©°, λ€μν μΈμ΄μ λ¬Ένμ λ°°κ²½μ κ°μ§ μ¬μ©μλ€μκ² μ΅μ νλ μλΉμ€λ₯Ό μ 곡νλ λ° μ΄λ €μμ μ΄λν©λλ€. λ°λΌμ λ€μν μΈμ΄μ λλ©μΈμ ν¬ν¨νλ λ°μ΄ν°μ μ ꡬμΆμ΄ μκΈν©λλ€.
νκ° κΈ°μ€μ λ¬Έμ
νμ¬μ νκ° λ°©λ²μ λͺ¨λΈμ μ€μ μ±λ₯μ μΆ©λΆν λ°μνμ§ λͺ»ν μ μμ΅λλ€. μλ₯Ό λ€μ΄, λͺ¨λΈμ΄ νΉμ ν μ€νΈ λ°μ΄ν°μ μμ λμ μ±λ₯μ 보μ΄λλΌλ μ€μ μ¬μ© νκ²½μμλ κΈ°λμ λ―ΈμΉμ§ λͺ»ν μ μμ΅λλ€. μ΄λ νκ° κΈ°μ€μ΄ μ€μ μμ© μ¬λ‘λ₯Ό μΆ©λΆν λ°μνμ§ λͺ»νκ³ μκΈ° λλ¬Έμ λλ€. λ°λΌμ λ³΄λ€ νμ€μ μΈ νκ° κΈ°μ€κ³Ό λ°©λ²μ λμ νμ¬ λͺ¨λΈμ μ€μ§μ μΈ μ±λ₯μ νκ°νλ κ²μ΄ μ€μν©λλ€.
리λ보λ κ°μ μ μ
μλ‘μ΄ λͺ¨λΈ μν€ν μ² λμ
κΈ°μ‘΄μ νκ³λ₯Ό λμ΄μ€ μ μλ μλ‘μ΄ λͺ¨λΈ ꡬ쑰λ₯Ό μ°κ΅¬νκ³ λμ ν΄μΌ ν©λλ€. μλ₯Ό λ€μ΄, νμ΄λΈλ¦¬λ λͺ¨λΈμ΄λ λ©ν°λͺ¨λ¬ λͺ¨λΈκ³Ό κ°μ μλ‘μ΄ μ κ·Ό λ°©μμ ν΅ν΄ μ±λ₯ ν₯μμ λλͺ¨ν μ μμ΅λλ€. μ΄λ¬ν λͺ¨λΈλ€μ ν μ€νΈλΏλ§ μλλΌ μ΄λ―Έμ§, μ€λμ€ λ±μ λ€μν λ°μ΄ν°λ₯Ό λμμ μ²λ¦¬ν μ μμ΄ λ νλΆν μ 보λ₯Ό νμ΅ν μ μμ΅λλ€. μ΄λ₯Ό ν΅ν΄ λͺ¨λΈμ μ΄ν΄λ ₯κ³Ό μλ΅ νμ§μ ν₯μμν¬ μ μμ΅λλ€.
λ°μ΄ν° λ€μμ± ν보
λ€μν λλ©μΈκ³Ό μΈμ΄λ₯Ό ν¬ν¨νλ λ°μ΄ν°μ μ ꡬμΆνμ¬ λͺ¨λΈ νμ΅μ νμ λνμΌ ν©λλ€. μ΄λ₯Ό μν΄ μ μΈκ³ λ€μν μΈμ΄μ λ¬ΈνκΆμμ μμ§λ λ°μ΄ν°λ₯Ό ν¬ν¨νλ λκ·λͺ¨ λ°μ΄ν°μ μ ꡬμΆν νμκ° μμ΅λλ€. μ΄λ¬ν λ°μ΄ν°μ μ λͺ¨λΈμ΄ λ€μν μν©μμ λμ μ±λ₯μ λ°νν μ μλλ‘ λμ΅λλ€. λν, λ°μ΄ν° μμ§ κ³Όμ μμ μ€λ¦¬μ λ¬Έμ μ κ°μΈμ 보 보νΈλ₯Ό μ² μ ν μ€μνμ¬ λ°μ΄ν°μ μ λ’°μ±κ³Ό λ²μ λ¬Έμ λ₯Ό ν΄κ²°νλ κ²μ΄ μ€μν©λλ€.
νκ° λ°©λ² κ°μ
μ€μ νμ© μ¬λ‘μ λ κ°κΉμ΄ νκ° λ°©λ²μ λμ νμ¬ λͺ¨λΈμ μ€μ§μ μΈ μ±λ₯μ νκ°ν΄μΌ ν©λλ€. μλ₯Ό λ€μ΄, μ€μ μ¬μ©μμμ μνΈμμ©μ ν΅ν΄ λͺ¨λΈμ μ±λ₯μ νκ°νλ λ°©λ²μ λμ ν μ μμ΅λλ€. μ΄λ λͺ¨λΈμ΄ μ€μ νκ²½μμ μΌλ§λ ν¨κ³Όμ μΌλ‘ μλνλμ§λ₯Ό μ§μ μ μΌλ‘ νμΈν μ μλ λ°©λ²μ λλ€. λν, λ€μν μμ© λΆμΌμμμ μ±λ₯μ νκ°νλ κΈ°μ€μ λ§λ ¨νμ¬ λͺ¨λΈμ μ λ°μ μΈ μ±λ₯μ μ’ ν©μ μΌλ‘ νκ°ν νμκ° μμ΅λλ€.
μλ‘μ΄ λ²€μΉλ§ν¬ λμ
μ€μΌλμ§ μμ κ³ νμ§ λ°μ΄ν°μ μ μ¬μ©νλ©° μ λ’°ν μ μλ μ§νλ₯Ό ν΅ν΄ λͺ¨λΈμ λ₯λ ₯μ μΈ‘μ ν μ μλ μλ‘μ΄ λ²€μΉλ§ν¬λ₯Ό μ°ΎκΈ° μμνμ΅λλ€. μ΄ κ³Όμ μμ μ£Όμ νκ° κ³Όμ λ λ€μκ³Ό κ°μ΅λλ€:
- μ§μ ν μ€νΈ()
- 짧μ λ° κΈ΄ λ¬Έλ§₯μμμ μΆλ‘ ()
- 볡μ‘ν μνμ λ₯λ ₯
- μΈκ° μ νΈμ μ λ§λ κ³Όμ ()
μ΄λ¬ν νκ° κ³Όμ λ₯Ό κΈ°λ°μΌλ‘ μ μ ν 6κ°μ§ μλ‘μ΄ λ²€μΉλ§ν¬λ€μ μ μ νμμ΅λλ€. μλ‘μ΄ νκ° κ³Όμ λ λͺ¨λΈμ λ€μν λ₯λ ₯μ μΈ‘μ νλ κ²μ λͺ©νλ‘ ν©λλ€. μ§μ ν μ€νΈλ λͺ¨λΈμ μΌλ°μ μΈ μ 보 μ΄ν΄λλ₯Ό νκ°νκ³ , λ¬Έλ§₯ μΆλ‘ μ λͺ¨λΈμ΄ μ£Όμ΄μ§ ν μ€νΈλ₯Ό κΈ°λ°μΌλ‘ μΆλ‘ νλ λ₯λ ₯μ νκ°ν©λλ€. 볡μ‘ν μνμ λ₯λ ₯ νκ°λ₯Ό ν΅ν΄ λͺ¨λΈμ΄ κ³ μ°¨μμ μΈ μν λ¬Έμ λ₯Ό ν΄κ²°νλ λ₯λ ₯μ μΈ‘μ νκ³ , μΈκ° μ νΈμ μΌμΉνλ κ³Όμ λ λͺ¨λΈμ΄ μ¬μ©μ μ§μλ₯Ό μ νν λ°λ₯΄λ λ₯λ ₯μ νκ°ν©λλ€.
MMLU-Pro (Massive Multitask Language Understanding - Pro version)
MMLU-Proλ MMLU λ°μ΄ν°μ μ κ°μ νμΌλ‘, κΈ°μ‘΄ MMLU λ°μ΄ν°μ μ΄ λ무 μ½κ³ μμμ΄ λ§λ€λ λ¬Έμ λ₯Ό ν΄κ²°νμ΅λλ€. MMLU-Proλ λͺ¨λΈμκ² 4κ°μ§κ° μλ 10κ°μ§ μ νμ§λ₯Ό μ 곡νλ©°, λ λ§μ μ§λ¬Έμμ μΆλ‘ μ μꡬν©λλ€. μ λ¬Έκ°μ κ²ν λ₯Ό κ±°μ³ μμμ μ€μκ³ , κΈ°μ‘΄ λ°μ΄ν°μ λ³΄λ€ λ λμ νμ§κ³Ό λμ΄λλ₯Ό μλν©λλ€.
GPQA (Google-Proof Q&A Benchmark)
GPQAλ λλ©μΈ μ λ¬Έκ°λ€μ μν΄ μ€κ³λ λ§€μ° μ΄λ €μ΄ μ§μ λ°μ΄ν°μ μ λλ€. μλ¬Όν, 물리ν, νν λ± κ° λΆμΌμ λ°μ¬κΈ μ λ¬Έκ°λ€μ΄ μ€κ³ν μ§λ¬Έλ€λ‘ ꡬμ±λμ΄ μμ΄, μΌλ°μΈμ΄ λ΅νκΈ° μ΄λ ΅μ§λ§ μ λ¬Έκ°μκ²λ λΉκ΅μ μ¬μ΄ λ¬Έμ λ€μ λλ€. μ¬λ¬ κ²μ¦ λ¨κ³λ₯Ό κ±°μ³ λμ΄λμ μ¬μ€μ±μ 보μ₯νλ©°, μ€μΌ μνμ μ€μ΄κΈ° μν΄ κ²μ΄ν λ©μ»€λμ¦μ ν΅ν΄ μ κ·Όν μ μμ΅λλ€.
MuSR (Multistep Soft Reasoning)
MuSRμ μκ³ λ¦¬μ¦μ μΌλ‘ μμ±λ μ½ 1,000λ¨μ΄ κΈΈμ΄μ 볡μ‘ν λ¬Έμ λ€λ‘ ꡬμ±λ μ¬λ―Έμλ μλ‘μ΄ λ°μ΄ν°μ μ λλ€. λ¬Έμ λ μ΄μΈ λ―Έμ€ν°λ¦¬, 물체 λ°°μΉ λ¬Έμ , ν ν λΉ μ΅μ ν λ¬Έμ λ±μΌλ‘ ꡬμ±λμ΄ μμΌλ©°, λͺ¨λΈμ μ΄λ₯Ό ν΄κ²°νκΈ° μν΄ μΆλ‘ κ³Ό κΈ΄ λ¬Έλ§₯ λΆμ λ₯λ ₯μ κ²°ν©ν΄μΌ ν©λλ€. λλΆλΆμ λͺ¨λΈμ΄ λλ€ μ±λ₯λ³΄λ€ λμ μ±μ μ λ΄μ§ λͺ»νκ³ μμ΅λλ€.
MATH (Mathematics Aptitude Test of Heuristics)
MATHλ μ¬λ¬ μΆμ²μμ μμ§ν κ³ λ±νκ΅ μμ€μ κ²½μ λ¬Έμ λ€λ‘ ꡬμ±λμ΄ μμΌλ©°, λ°©μ μμ μν΄ Latex, λνμ μν΄ Asymptoteλ₯Ό μ¬μ©νμ¬ μΌκ΄λκ² νμνλμ΄ μμ΅λλ€. μμ±λ κ²°κ³Όλ λ§€μ° νΉμ ν μΆλ ₯ νμμ λ§μΆ°μΌ νλ©°, μ°λ¦¬λ κ°μ₯ μ΄λ €μ΄ μ§λ¬Έλ€λ§μ μ μ§ν©λλ€.
IFEval (Instruction Following Evaluation)
IFEvalμ λͺ μμ μΈ μ§μλ₯Ό λͺ νν λ°λ₯΄λ λͺ¨λΈμ λ₯λ ₯μ ν μ€νΈνλ λ§€μ° ν₯λ―Έλ‘μ΄ λ°μ΄ν°μ μ λλ€. μλ₯Ό λ€μ΄ "ν€μλ x ν¬ν¨" λλ "νμ y μ¬μ©"κ³Ό κ°μ μ§μλ₯Ό λ°λ₯΄λ λ₯λ ₯μ νκ°ν©λλ€. λͺ¨λΈμ μ€μ μμ±λ λ΄μ©λ³΄λ€λ νμ μ§μλ₯Ό μ격ν λ°λ₯΄λ λ₯λ ₯μ λν΄ ν μ€νΈλλ©°, μ격νκ³ μ νν μ§νλ₯Ό μ¬μ©ν μ μμ΅λλ€.
BBH (Big Bench Hard)
BBHλ BigBench λ°μ΄ν°μ μμ μ μ λ 23κ°μ λμ μ μΈ κ³Όμ λ‘ κ΅¬μ±λ μλΈμ μ λλ€. μ΄ κ³Όμ λ€μ 1) κ°κ΄μ μΈ μ§νλ₯Ό μ¬μ©νκ³ , 2) λͺ¨λΈμ΄ μΈκ° κΈ°μ€λ³΄λ€ μ°μν μ±λ₯μ 보μ΄μ§ λͺ»νμΌλ©°, 3) ν΅κ³μ μΌλ‘ μ μλ―Έν μνμ ν¬ν¨ν©λλ€. λ€λ¨κ³ μ°μ λ° μκ³ λ¦¬μ¦ μΆλ‘ (λΆ νν μ΄ν΄, κΈ°ννμ λνμ λν SVG λ±), μΈμ΄ μ΄ν΄(νμ κ°μ§, μ΄λ¦ μλ³ λ±), κ·Έλ¦¬κ³ μΌλΆ μΈκ³ μ§μμ ν¬ν¨ν©λλ€. BBHμ μ±λ₯μ νκ· μ μΌλ‘ μΈκ° μ νΈμ μ μΌμΉνλ κ²½ν₯μ΄ μμ΅λλ€.
μ κ· λ¦¬λ보λ κ²°κ³Ό
μλ‘μ΄ λ¦¬λ보λμ λ°λΌ μλ‘κ² λ§€κ²¨μ§ μμ 10κ°μ OpenLLM λͺ¨λΈλ€μ λλ€. (Mixtral-8x22B-Instruct κ²°κ³Όλ μμ§ ν¬ν¨λμ§ μμμ΅λλ€)
Rank | New Leaderboard Ranking |
---|---|
Qwen/Qwen2-72B-Instruct | |
2 | meta-llama/Meta-Llama-3-70B-Instruct |
3 | microsoft/Phi-3-medium-4k-instruct |
4 | 01-ai/Yi-1.5-34B-Chat |
5 | CohereForAI/c4ai-command-r-plus |
6 | abacusai/Smaug-72B-v0.1 |
7 | Qwen/Qwen1.5-110B |
8 | Qwen/Qwen1.5-110B-Chat |
9 | microsoft/Phi-3-small-128k-instruct |
10 | 01-ai/Yi-1.5-9B-Chat |
λν, OpenLLM Leaderboard v2μμμ μ£Όμν μμ λ³νλ λ€μκ³Ό κ°μ΅λλ€. (v1->v2 ranking changes)
μ΄μ 리λ보λ(v1)μ μ΄λ²μ μλ‘ κ°μ ν 리λ보λ(v2)μμμ λͺ¨λΈ ν¬κΈ°λ³ μ±λ₯μ λΉκ΅ν΄λ³΄μμ΅λλ€:
OpenLLM Leaderboard v2 μκ°
μ΄ κΈμ GPT λͺ¨λΈλ‘ μ 리ν κΈμ λ°νμΌλ‘ ν κ²μΌλ‘, μλ¬Έμ λ΄μ© λλ μλμ λ€λ₯΄κ² μ 리λ λ΄μ©μ΄ μμ μ μμ΅λλ€. κ΄μ¬μλ λ΄μ©μ΄μλΌλ©΄ μλ¬Έλ ν¨κ» μ°Έκ³ ν΄μ£ΌμΈμ! μ½μΌμλ©΄μ μ΄μνκ±°λ μλͺ»λ λ΄μ©μ λ°κ²¬νμλ©΄ λ§κΈλ‘ μλ €μ£ΌμκΈ°λ₯Ό λΆνλ립λλ€.
νμ΄ν μΉ νκ΅ μ¬μ©μ λͺ¨μμ΄ μ 리ν μ΄ κΈμ΄ μ μ©νμ ¨λμ? νμμΌλ‘ κ°μ νμλ©΄ μ£Όμ κΈλ€μ μ΄λ©μΌλ‘ 보λ΄λ립λλ€! (κΈ°λ³Έμ Weeklyμ§λ§ Dailyλ‘ λ³κ²½λ κ°λ₯ν©λλ€.)
μλμͺ½μ μ’μμλ₯Ό λλ¬μ£Όμλ©΄ μλ‘μ΄ μμλ€μ μ 리νκ³ κ³΅μ νλλ° νμ΄ λ©λλ€~