πŸ€— Hugging Face의 OpenLLM λ¦¬λ”λ³΄λ“œ κ°œμ„ : Open-LLM Leaderboard v2

OpenLLM Leaderboard κ°œμ„  μ œμ•ˆ κΈ€ μ†Œκ°œ

Open-LLM leaderboardλŠ” λ‹€μ–‘ν•œ μ–Έμ–΄ λͺ¨λΈμ˜ μ„±λŠ₯을 λΉ„κ΅ν•˜κ³  ν‰κ°€ν•˜λŠ” ν”Œλž«νΌμœΌλ‘œ, μ—°κ΅¬μžλ“€κ³Ό κ°œλ°œμžλ“€μ΄ μ΅œμ‹  λͺ¨λΈμ˜ μ„±λŠ₯을 κ°κ΄€μ μœΌλ‘œ νŒŒμ•…ν•  수 μžˆλŠ” μ€‘μš”ν•œ 역할을 ν•©λ‹ˆλ‹€. κ·ΈλŸ¬λ‚˜ 졜근 λͺ‡ λ…„κ°„ λ¦¬λ”λ³΄λ“œμ— λ“±λ‘λœ λͺ¨λΈλ“€μ˜ μ„±λŠ₯이 일정 μˆ˜μ€€μ— λ„λ‹¬ν•œ μ΄ν›„λ‘œ 더 μ΄μƒμ˜ λˆˆμ— λ„λŠ” ν–₯상이 μ—†μ—ˆμŠ΅λ‹ˆλ‹€. μ΄λŠ” λͺ¨λΈ μ„±λŠ₯의 ν•œκ³„λ₯Ό κ·Ήλ³΅ν•˜κΈ° μœ„ν•œ μƒˆλ‘œμš΄ μ ‘κ·Ό 방법이 ν•„μš”ν•¨μ„ μ˜λ―Έν•©λ‹ˆλ‹€. OpenLLM λ¦¬λ”λ³΄λ“œλŠ” μ΄λŸ¬ν•œ 상황을 νƒ€κ°œν•˜κΈ° μœ„ν•΄ λ‹€μ–‘ν•œ κ°œμ„  λ°©μ•ˆμ„ μ œμ‹œν•˜κ³  있으며, 이λ₯Ό 톡해 λͺ¨λΈ κ°œλ°œμžλ“€μ΄ 더 λ‚˜μ€ μ„±λŠ₯의 λͺ¨λΈμ„ λ§Œλ“€ 수 μžˆλ„λ‘ λ•κ³ μž ν•©λ‹ˆλ‹€.

ν˜„μž¬ Open-LLM λ¦¬λ”λ³΄λ“œμ—λŠ” μˆ˜λ§Žμ€ μ–Έμ–΄ λͺ¨λΈμ΄ λ“±λ‘λ˜μ–΄ 있으며, 이듀 λͺ¨λΈμ€ νŠΉμ • 기쀀에 따라 μ„±λŠ₯이 ν‰κ°€λ˜κ³  μˆœμœ„κ°€ λ§€κ²¨μ§‘λ‹ˆλ‹€. 졜근 λͺ‡ λ…„ λ™μ•ˆ λŒ€λΆ€λΆ„μ˜ λͺ¨λΈμ΄ 높은 점수λ₯Ό κΈ°λ‘ν•˜λ©° μƒμœ„κΆŒμ„ μ°¨μ§€ν•˜κ³  μžˆμ§€λ§Œ, μƒμœ„κΆŒ λͺ¨λΈλ“€ κ°„μ˜ μ„±λŠ₯ 차이가 미미해지고 μžˆμŠ΅λ‹ˆλ‹€. μ΄λŠ” μƒˆλ‘œμš΄ λͺ¨λΈμ΄ κΈ°μ‘΄ λͺ¨λΈμ— λΉ„ν•΄ ν˜μ‹ μ μΈ μ„±λŠ₯을 보여주지 λͺ»ν•˜κ³  μžˆμŒμ„ μ‹œμ‚¬ν•©λ‹ˆλ‹€. μ΄λŸ¬ν•œ ν˜„μƒμ€ λͺ¨λΈ κ°œλ°œμžλ“€μ—κ²Œ 더 큰 λ„μ „κ³Όμ œλ₯Ό μ•ˆκ²¨μ£Όλ©°, λ¦¬λ”λ³΄λ“œμ˜ μ‹ λ’°μ„±κ³Ό μœ μš©μ„±μ„ μœ μ§€ν•˜κΈ° μœ„ν•΄μ„œλŠ” 평가 λ°©μ‹μ˜ κ°œμ„ κ³Ό μƒˆλ‘œμš΄ λ°μ΄ν„°μ…‹μ˜ λ„μž…μ΄ ν•„μš”ν•©λ‹ˆλ‹€.

ν˜„μž¬ Open-LLM λ¦¬λ”λ³΄λ“œμ˜ κ°œμ„  ν•„μš” 사항듀

λͺ¨λΈμ˜ ν•œκ³„

ν˜„μž¬ λ¦¬λ”λ³΄λ“œμ— λ“±λ‘λœ λͺ¨λΈλ“€μ€ GPT-3, BERT와 같은 λŒ€ν˜• μ–Έμ–΄ λͺ¨λΈλ“€λ‘œ κ΅¬μ„±λ˜μ–΄ 있으며, 이듀 λͺ¨λΈμ€ 이미 μ΅œμ ν™”λœ μƒνƒœμž…λ‹ˆλ‹€. μ΄λŸ¬ν•œ λͺ¨λΈλ“€μ€ 이미 μˆ˜λ°±μ–΅ 개의 λ§€κ°œλ³€μˆ˜λ₯Ό μ‚¬μš©ν•˜μ—¬ ν•™μŠ΅λ˜μ—ˆκΈ° λ•Œλ¬Έμ—, 좔가적인 μ„±λŠ₯ ν–₯상을 μœ„ν•΄μ„œλŠ” μ—„μ²­λ‚œ μ–‘μ˜ 데이터와 μ—°μ‚° μžμ›μ΄ ν•„μš”ν•©λ‹ˆλ‹€. κ·ΈλŸ¬λ‚˜ μ΄λŸ¬ν•œ μ ‘κ·Ό 방식은 μžμ› μ†Œλͺ¨κ°€ 크고, ν™˜κ²½μ μΈ 뢀담을 μ΄ˆλž˜ν•  수 μžˆμŠ΅λ‹ˆλ‹€. λ”°λΌμ„œ μƒˆλ‘œμš΄ λͺ¨λΈ 개발 방법둠과 μ•„ν‚€ν…μ²˜μ˜ λ„μž…μ΄ ν•„μš”ν•©λ‹ˆλ‹€.

데이터 λΆ€μ‘±

κ³ ν’ˆμ§ˆμ˜ ν•™μŠ΅ 데이터가 λΆ€μ‘±ν•œ 것도 큰 λ¬Έμ œμž…λ‹ˆλ‹€. ν˜„μž¬ μ‚¬μš©λ˜λŠ” 데이터셋은 주둜 μ˜μ–΄λ‘œ 된 ν…μŠ€νŠΈμ΄λ©°, λ‹€μ–‘ν•œ 언어와 도메인을 ν¬κ΄„ν•˜μ§€ λͺ»ν•˜κ³  μžˆμŠ΅λ‹ˆλ‹€. μ΄λŠ” λͺ¨λΈμ˜ ν•™μŠ΅ λ²”μœ„λ₯Ό μ œν•œν•˜λ©°, λ‹€μ–‘ν•œ 언어와 문화적 배경을 가진 μ‚¬μš©μžλ“€μ—κ²Œ μ΅œμ ν™”λœ μ„œλΉ„μŠ€λ₯Ό μ œκ³΅ν•˜λŠ” 데 어렀움을 μ΄ˆλž˜ν•©λ‹ˆλ‹€. λ”°λΌμ„œ λ‹€μ–‘ν•œ 언어와 도메인을 ν¬ν•¨ν•˜λŠ” λ°μ΄ν„°μ…‹μ˜ ꡬ좕이 μ‹œκΈ‰ν•©λ‹ˆλ‹€.

평가 κΈ°μ€€μ˜ 문제

ν˜„μž¬μ˜ 평가 방법은 λͺ¨λΈμ˜ μ‹€μ œ μ„±λŠ₯을 μΆ©λΆ„νžˆ λ°˜μ˜ν•˜μ§€ λͺ»ν•  수 μžˆμŠ΅λ‹ˆλ‹€. 예λ₯Ό λ“€μ–΄, λͺ¨λΈμ΄ νŠΉμ • ν…ŒμŠ€νŠΈ λ°μ΄ν„°μ…‹μ—μ„œ 높은 μ„±λŠ₯을 보이더라도 μ‹€μ œ μ‚¬μš© ν™˜κ²½μ—μ„œλŠ” κΈ°λŒ€μ— λ―ΈμΉ˜μ§€ λͺ»ν•  수 μžˆμŠ΅λ‹ˆλ‹€. μ΄λŠ” 평가 기쀀이 μ‹€μ œ μ‘μš© 사둀λ₯Ό μΆ©λΆ„νžˆ λ°˜μ˜ν•˜μ§€ λͺ»ν•˜κ³  있기 λ•Œλ¬Έμž…λ‹ˆλ‹€. λ”°λΌμ„œ 보닀 ν˜„μ‹€μ μΈ 평가 κΈ°μ€€κ³Ό 방법을 λ„μž…ν•˜μ—¬ λͺ¨λΈμ˜ μ‹€μ§ˆμ μΈ μ„±λŠ₯을 ν‰κ°€ν•˜λŠ” 것이 μ€‘μš”ν•©λ‹ˆλ‹€.

λ¦¬λ”λ³΄λ“œ κ°œμ„  μ œμ•ˆ

μƒˆλ‘œμš΄ λͺ¨λΈ μ•„ν‚€ν…μ²˜ λ„μž…

기쑴의 ν•œκ³„λ₯Ό λ„˜μ–΄μ„€ 수 μžˆλŠ” μƒˆλ‘œμš΄ λͺ¨λΈ ꡬ쑰λ₯Ό μ—°κ΅¬ν•˜κ³  λ„μž…ν•΄μ•Ό ν•©λ‹ˆλ‹€. 예λ₯Ό λ“€μ–΄, ν•˜μ΄λΈŒλ¦¬λ“œ λͺ¨λΈμ΄λ‚˜ λ©€ν‹°λͺ¨λ‹¬ λͺ¨λΈκ³Ό 같은 μƒˆλ‘œμš΄ μ ‘κ·Ό 방식을 톡해 μ„±λŠ₯ ν–₯상을 도λͺ¨ν•  수 μžˆμŠ΅λ‹ˆλ‹€. μ΄λŸ¬ν•œ λͺ¨λΈλ“€μ€ ν…μŠ€νŠΈλΏλ§Œ μ•„λ‹ˆλΌ 이미지, μ˜€λ””μ˜€ λ“±μ˜ λ‹€μ–‘ν•œ 데이터λ₯Ό λ™μ‹œμ— μ²˜λ¦¬ν•  수 μžˆμ–΄ 더 ν’λΆ€ν•œ 정보λ₯Ό ν•™μŠ΅ν•  수 μžˆμŠ΅λ‹ˆλ‹€. 이λ₯Ό 톡해 λͺ¨λΈμ˜ 이해λ ₯κ³Ό 응닡 ν’ˆμ§ˆμ„ ν–₯μƒμ‹œν‚¬ 수 μžˆμŠ΅λ‹ˆλ‹€.

데이터 λ‹€μ–‘μ„± 확보

λ‹€μ–‘ν•œ 도메인과 μ–Έμ–΄λ₯Ό ν¬ν•¨ν•˜λŠ” 데이터셋을 κ΅¬μΆ•ν•˜μ—¬ λͺ¨λΈ ν•™μŠ΅μ˜ 폭을 λ„“ν˜€μ•Ό ν•©λ‹ˆλ‹€. 이λ₯Ό μœ„ν•΄ μ „ 세계 λ‹€μ–‘ν•œ 언어와 λ¬Έν™”κΆŒμ—μ„œ μˆ˜μ§‘λœ 데이터λ₯Ό ν¬ν•¨ν•˜λŠ” λŒ€κ·œλͺ¨ 데이터셋을 ꡬ좕할 ν•„μš”κ°€ μžˆμŠ΅λ‹ˆλ‹€. μ΄λŸ¬ν•œ 데이터셋은 λͺ¨λΈμ΄ λ‹€μ–‘ν•œ μƒν™©μ—μ„œ 높은 μ„±λŠ₯을 λ°œνœ˜ν•  수 μžˆλ„λ‘ λ•μŠ΅λ‹ˆλ‹€. λ˜ν•œ, 데이터 μˆ˜μ§‘ κ³Όμ •μ—μ„œ 윀리적 λ¬Έμ œμ™€ κ°œμΈμ •λ³΄ 보호λ₯Ό μ² μ €νžˆ μ€€μˆ˜ν•˜μ—¬ λ°μ΄ν„°μ˜ μ‹ λ’°μ„±κ³Ό 법적 문제λ₯Ό ν•΄κ²°ν•˜λŠ” 것이 μ€‘μš”ν•©λ‹ˆλ‹€.

평가 방법 κ°œμ„ 

μ‹€μ œ ν™œμš© 사둀에 더 κ°€κΉŒμš΄ 평가 방법을 λ„μž…ν•˜μ—¬ λͺ¨λΈμ˜ μ‹€μ§ˆμ μΈ μ„±λŠ₯을 평가해야 ν•©λ‹ˆλ‹€. 예λ₯Ό λ“€μ–΄, μ‹€μ œ μ‚¬μš©μžμ™€μ˜ μƒν˜Έμž‘μš©μ„ 톡해 λͺ¨λΈμ˜ μ„±λŠ₯을 ν‰κ°€ν•˜λŠ” 방법을 λ„μž…ν•  수 μžˆμŠ΅λ‹ˆλ‹€. μ΄λŠ” λͺ¨λΈμ΄ μ‹€μ œ ν™˜κ²½μ—μ„œ μ–Όλ§ˆλ‚˜ 효과적으둜 μž‘λ™ν•˜λŠ”μ§€λ₯Ό μ§μ ‘μ μœΌλ‘œ 확인할 수 μžˆλŠ” λ°©λ²•μž…λ‹ˆλ‹€. λ˜ν•œ, λ‹€μ–‘ν•œ μ‘μš© λΆ„μ•Όμ—μ„œμ˜ μ„±λŠ₯을 ν‰κ°€ν•˜λŠ” 기쀀을 λ§ˆλ ¨ν•˜μ—¬ λͺ¨λΈμ˜ μ „λ°˜μ μΈ μ„±λŠ₯을 μ’…ν•©μ μœΌλ‘œ 평가할 ν•„μš”κ°€ μžˆμŠ΅λ‹ˆλ‹€.

μƒˆλ‘œμš΄ 벀치마크 λ„μž…

μ˜€μ—Όλ˜μ§€ μ•Šμ€ κ³ ν’ˆμ§ˆ 데이터셋을 μ‚¬μš©ν•˜λ©° μ‹ λ’°ν•  수 μžˆλŠ” μ§€ν‘œλ₯Ό 톡해 λͺ¨λΈμ˜ λŠ₯λ ₯을 μΈ‘μ •ν•  수 μžˆλŠ” μƒˆλ‘œμš΄ 벀치마크λ₯Ό μ°ΎκΈ° μ‹œμž‘ν–ˆμŠ΅λ‹ˆλ‹€. 이 κ³Όμ •μ—μ„œ μ£Όμš” 평가 κ³Όμ œλŠ” λ‹€μŒκ³Ό κ°™μŠ΅λ‹ˆλ‹€:

  • 지식 ν…ŒμŠ€νŠΈ(:books:)
  • 짧은 및 κΈ΄ λ¬Έλ§₯μ—μ„œμ˜ μΆ”λ‘ (:thought_balloon:)
  • λ³΅μž‘ν•œ μˆ˜ν•™μ  λŠ₯λ ₯
  • 인간 μ„ ν˜Έμ™€ 잘 λ§žλŠ” 과제(:handshake:)

μ΄λŸ¬ν•œ 평가 과제λ₯Ό 기반으둜 μ„ μ •ν•œ 6가지 μƒˆλ‘œμš΄ λ²€μΉ˜λ§ˆν¬λ“€μ„ μ„ μ •ν•˜μ˜€μŠ΅λ‹ˆλ‹€. μƒˆλ‘œμš΄ 평가 κ³Όμ œλŠ” λͺ¨λΈμ˜ λ‹€μ–‘ν•œ λŠ₯λ ₯을 μΈ‘μ •ν•˜λŠ” 것을 λͺ©ν‘œλ‘œ ν•©λ‹ˆλ‹€. 지식 ν…ŒμŠ€νŠΈλŠ” λͺ¨λΈμ˜ 일반적인 정보 이해도λ₯Ό ν‰κ°€ν•˜κ³ , λ¬Έλ§₯ 좔둠은 λͺ¨λΈμ΄ 주어진 ν…μŠ€νŠΈλ₯Ό 기반으둜 μΆ”λ‘ ν•˜λŠ” λŠ₯λ ₯을 ν‰κ°€ν•©λ‹ˆλ‹€. λ³΅μž‘ν•œ μˆ˜ν•™μ  λŠ₯λ ₯ 평가λ₯Ό 톡해 λͺ¨λΈμ΄ 고차원적인 μˆ˜ν•™ 문제λ₯Ό ν•΄κ²°ν•˜λŠ” λŠ₯λ ₯을 μΈ‘μ •ν•˜κ³ , 인간 μ„ ν˜Έμ™€ μΌμΉ˜ν•˜λŠ” κ³Όμ œλŠ” λͺ¨λΈμ΄ μ‚¬μš©μž μ§€μ‹œλ₯Ό μ •ν™•νžˆ λ”°λ₯΄λŠ” λŠ₯λ ₯을 ν‰κ°€ν•©λ‹ˆλ‹€.

:books: MMLU-Pro (Massive Multitask Language Understanding - Pro version)

MMLU-ProλŠ” MMLU λ°μ΄ν„°μ…‹μ˜ κ°œμ •νŒμœΌλ‘œ, κΈ°μ‘΄ MMLU 데이터셋이 λ„ˆλ¬΄ 쉽고 μ†ŒμŒμ΄ λ§Žλ‹€λŠ” 문제λ₯Ό ν•΄κ²°ν–ˆμŠ΅λ‹ˆλ‹€. MMLU-ProλŠ” λͺ¨λΈμ—κ²Œ 4가지가 μ•„λ‹Œ 10가지 선택지λ₯Ό μ œκ³΅ν•˜λ©°, 더 λ§Žμ€ μ§ˆλ¬Έμ—μ„œ 좔둠을 μš”κ΅¬ν•©λ‹ˆλ‹€. μ „λ¬Έκ°€μ˜ κ²€ν† λ₯Ό 거쳐 μ†ŒμŒμ„ μ€„μ˜€κ³ , κΈ°μ‘΄ 데이터셋보닀 더 높은 ν’ˆμ§ˆκ³Ό λ‚œμ΄λ„λ₯Ό μžλž‘ν•©λ‹ˆλ‹€.

:books: GPQA (Google-Proof Q&A Benchmark)

GPQAλŠ” 도메인 전문가듀에 μ˜ν•΄ μ„€κ³„λœ 맀우 μ–΄λ €μš΄ 지식 λ°μ΄ν„°μ…‹μž…λ‹ˆλ‹€. 생물학, 물리학, ν™”ν•™ λ“± 각 λΆ„μ•Όμ˜ 박사급 전문가듀이 μ„€κ³„ν•œ μ§ˆλ¬Έλ“€λ‘œ κ΅¬μ„±λ˜μ–΄ μžˆμ–΄, 일반인이 λ‹΅ν•˜κΈ° μ–΄λ ΅μ§€λ§Œ μ „λ¬Έκ°€μ—κ²ŒλŠ” 비ꡐ적 μ‰¬μš΄ λ¬Έμ œλ“€μž…λ‹ˆλ‹€. μ—¬λŸ¬ 검증 단계λ₯Ό 거쳐 λ‚œμ΄λ„μ™€ 사싀성을 보μž₯ν•˜λ©°, μ˜€μ—Ό μœ„ν—˜μ„ 쀄이기 μœ„ν•΄ κ²Œμ΄νŒ… λ©”μ»€λ‹ˆμ¦˜μ„ 톡해 μ ‘κ·Όν•  수 μžˆμŠ΅λ‹ˆλ‹€.

:thought_balloon: MuSR (Multistep Soft Reasoning)

MuSR은 μ•Œκ³ λ¦¬μ¦˜μ μœΌλ‘œ μƒμ„±λœ μ•½ 1,000단어 길이의 λ³΅μž‘ν•œ λ¬Έμ œλ“€λ‘œ κ΅¬μ„±λœ μž¬λ―ΈμžˆλŠ” μƒˆλ‘œμš΄ λ°μ΄ν„°μ…‹μž…λ‹ˆλ‹€. λ¬Έμ œλŠ” 살인 λ―ΈμŠ€ν„°λ¦¬, 물체 배치 문제, νŒ€ ν• λ‹Ή μ΅œμ ν™” 문제 λ“±μœΌλ‘œ κ΅¬μ„±λ˜μ–΄ 있으며, λͺ¨λΈμ€ 이λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄ μΆ”λ‘ κ³Ό κΈ΄ λ¬Έλ§₯ 뢄석 λŠ₯λ ₯을 κ²°ν•©ν•΄μ•Ό ν•©λ‹ˆλ‹€. λŒ€λΆ€λΆ„μ˜ λͺ¨λΈμ΄ 랜덀 μ„±λŠ₯보닀 λ‚˜μ€ 성적을 내지 λͺ»ν•˜κ³  μžˆμŠ΅λ‹ˆλ‹€.

:abacus: MATH (Mathematics Aptitude Test of Heuristics)

MATHλŠ” μ—¬λŸ¬ μΆœμ²˜μ—μ„œ μˆ˜μ§‘ν•œ 고등학ꡐ μˆ˜μ€€μ˜ 경쟁 λ¬Έμ œλ“€λ‘œ κ΅¬μ„±λ˜μ–΄ 있으며, 방정식을 μœ„ν•΄ Latex, λ„ν˜•μ„ μœ„ν•΄ Asymptoteλ₯Ό μ‚¬μš©ν•˜μ—¬ μΌκ΄€λ˜κ²Œ ν˜•μ‹ν™”λ˜μ–΄ μžˆμŠ΅λ‹ˆλ‹€. μƒμ„±λœ κ²°κ³ΌλŠ” 맀우 νŠΉμ •ν•œ 좜λ ₯ ν˜•μ‹μ— λ§žμΆ°μ•Ό ν•˜λ©°, μš°λ¦¬λŠ” κ°€μž₯ μ–΄λ €μš΄ μ§ˆλ¬Έλ“€λ§Œμ„ μœ μ§€ν•©λ‹ˆλ‹€.

:handshake: IFEval (Instruction Following Evaluation)

IFEval은 λͺ…μ‹œμ μΈ μ§€μ‹œλ₯Ό λͺ…ν™•νžˆ λ”°λ₯΄λŠ” λͺ¨λΈμ˜ λŠ₯λ ₯을 ν…ŒμŠ€νŠΈν•˜λŠ” 맀우 ν₯미둜운 λ°μ΄ν„°μ…‹μž…λ‹ˆλ‹€. 예λ₯Ό λ“€μ–΄ "ν‚€μ›Œλ“œ x 포함" λ˜λŠ” "ν˜•μ‹ y μ‚¬μš©"κ³Ό 같은 μ§€μ‹œλ₯Ό λ”°λ₯΄λŠ” λŠ₯λ ₯을 ν‰κ°€ν•©λ‹ˆλ‹€. λͺ¨λΈμ€ μ‹€μ œ μƒμ„±λœ λ‚΄μš©λ³΄λ‹€λŠ” ν˜•μ‹ μ§€μ‹œλ₯Ό μ—„κ²©νžˆ λ”°λ₯΄λŠ” λŠ₯λ ₯에 λŒ€ν•΄ ν…ŒμŠ€νŠΈλ˜λ©°, μ—„κ²©ν•˜κ³  μ •ν™•ν•œ μ§€ν‘œλ₯Ό μ‚¬μš©ν•  수 μžˆμŠ΅λ‹ˆλ‹€.

:abacus: :handshake: BBH (Big Bench Hard)

BBHλŠ” BigBench λ°μ΄ν„°μ…‹μ—μ„œ μ„ μ •λœ 23개의 도전적인 과제둜 κ΅¬μ„±λœ μ„œλΈŒμ…‹μž…λ‹ˆλ‹€. 이 κ³Όμ œλ“€μ€ 1) 객관적인 μ§€ν‘œλ₯Ό μ‚¬μš©ν•˜κ³ , 2) λͺ¨λΈμ΄ 인간 기쀀보닀 μš°μˆ˜ν•œ μ„±λŠ₯을 보이지 λͺ»ν–ˆμœΌλ©°, 3) ν†΅κ³„μ μœΌλ‘œ μœ μ˜λ―Έν•œ μƒ˜ν”Œμ„ ν¬ν•¨ν•©λ‹ˆλ‹€. 닀단계 μ‚°μˆ  및 μ•Œκ³ λ¦¬μ¦˜ μΆ”λ‘ (뢈 ν‘œν˜„ 이해, κΈ°ν•˜ν•™μ  λ„ν˜•μ— λŒ€ν•œ SVG λ“±), μ–Έμ–΄ 이해(ν’μž 감지, 이름 식별 λ“±), 그리고 일뢀 세계 지식을 ν¬ν•¨ν•©λ‹ˆλ‹€. BBH의 μ„±λŠ₯은 ν‰κ· μ μœΌλ‘œ 인간 μ„ ν˜Έμ™€ 잘 μΌμΉ˜ν•˜λŠ” κ²½ν–₯이 μžˆμŠ΅λ‹ˆλ‹€.

μ‹ κ·œ λ¦¬λ”λ³΄λ“œ κ²°κ³Ό

μƒˆλ‘œμš΄ λ¦¬λ”λ³΄λ“œμ— 따라 μƒˆλ‘­κ²Œ 맀겨진 μƒμœ„ 10개의 OpenLLM λͺ¨λΈλ“€μž…λ‹ˆλ‹€. (Mixtral-8x22B-Instruct κ²°κ³ΌλŠ” 아직 ν¬ν•¨λ˜μ§€ μ•Šμ•˜μŠ΅λ‹ˆλ‹€)

Rank New Leaderboard Ranking
:star: Qwen/Qwen2-72B-Instruct
2 meta-llama/Meta-Llama-3-70B-Instruct
3 microsoft/Phi-3-medium-4k-instruct
4 01-ai/Yi-1.5-34B-Chat
5 CohereForAI/c4ai-command-r-plus
6 abacusai/Smaug-72B-v0.1
7 Qwen/Qwen1.5-110B
8 Qwen/Qwen1.5-110B-Chat
9 microsoft/Phi-3-small-128k-instruct
10 01-ai/Yi-1.5-9B-Chat

λ˜ν•œ, OpenLLM Leaderboard v2μ—μ„œμ˜ μ£Όμš”ν•œ μˆœμœ„ λ³€ν™”λŠ” λ‹€μŒκ³Ό κ°™μŠ΅λ‹ˆλ‹€. (v1->v2 ranking changes)

이전 λ¦¬λ”λ³΄λ“œ(v1)와 μ΄λ²ˆμ— μƒˆλ‘œ κ°œμ„ ν•œ λ¦¬λ”λ³΄λ“œ(v2)μ—μ„œμ˜ λͺ¨λΈ 크기별 μ„±λŠ₯을 λΉ„κ΅ν•΄λ³΄μ•˜μŠ΅λ‹ˆλ‹€:

OpenLLM Leaderboard v2 μ†Œκ°œ




이 글은 GPT λͺ¨λΈλ‘œ μ •λ¦¬ν•œ 글을 λ°”νƒ•μœΌλ‘œ ν•œ κ²ƒμœΌλ‘œ, μ›λ¬Έμ˜ λ‚΄μš© λ˜λŠ” μ˜λ„μ™€ λ‹€λ₯΄κ²Œ μ •λ¦¬λœ λ‚΄μš©μ΄ μžˆμ„ 수 μžˆμŠ΅λ‹ˆλ‹€. κ΄€μ‹¬μžˆλŠ” λ‚΄μš©μ΄μ‹œλΌλ©΄ 원문도 ν•¨κ»˜ μ°Έκ³ ν•΄μ£Όμ„Έμš”! μ½μœΌμ‹œλ©΄μ„œ μ–΄μƒ‰ν•˜κ±°λ‚˜ 잘λͺ»λœ λ‚΄μš©μ„ λ°œκ²¬ν•˜μ‹œλ©΄ λ§κΈ€λ‘œ μ•Œλ €μ£Όμ‹œκΈ°λ₯Ό λΆ€νƒλ“œλ¦½λ‹ˆλ‹€. :hugs:

:pytorch:νŒŒμ΄ν† μΉ˜ ν•œκ΅­ μ‚¬μš©μž λͺ¨μž„:kr:이 μ •λ¦¬ν•œ 이 글이 μœ μš©ν•˜μ…¨λ‚˜μš”? νšŒμ›μœΌλ‘œ κ°€μž…ν•˜μ‹œλ©΄ μ£Όμš” 글듀을 이메일:love_letter:둜 λ³΄λ‚΄λ“œλ¦½λ‹ˆλ‹€! (기본은 Weeklyμ§€λ§Œ Daily둜 변경도 κ°€λŠ₯ν•©λ‹ˆλ‹€.)

:gift: μ•„λž˜:arrow_lower_right:μͺ½μ— μ’‹μ•„μš”:+1:λ₯Ό λˆŒλŸ¬μ£Όμ‹œλ©΄ μƒˆλ‘œμš΄ μ†Œμ‹λ“€μ„ μ •λ¦¬ν•˜κ³  κ³΅μœ ν•˜λŠ”λ° 힘이 λ©λ‹ˆλ‹€~ :star_struck: