🐻 LLM Pretraining의 μƒˆλ‘œμš΄ μ‹œκ·Έλ„, Gumini-1B & 1.5B μ˜€ν”ˆμ†ŒμŠ€ 곡개

:bear: LLM Pretraining의 μƒˆλ‘œμš΄ μ‹œκ·Έλ„, Gumini-1B & 1.5B μ˜€ν”ˆμ†ŒμŠ€ 곡개

μ•ˆλ…•ν•˜μ„Έμš”.
AI Research Engineer κΆŒκ΅¬λ―Όμž…λ‹ˆλ‹€.

ν•œκ΅­μ–΄β€“μ˜μ–΄ 이쀑언어 LLM, Guminiλ₯Ό μ˜€ν”ˆμ†ŒμŠ€λ‘œ κ³΅κ°œν•©λ‹ˆλ‹€.
수쑰 개 토큰 규λͺ¨μ˜ 데이터셋이 μžˆμ–΄μ•Όλ§Œ 경쟁λ ₯ μžˆλŠ” μ–Έμ–΄ λͺ¨λΈμ„ λ§Œλ“€ 수 μžˆλŠ” 것은 μ•„λ‹™λ‹ˆλ‹€.

Gumini-1.5BλŠ” 단 3.14B ν† ν°μœΌλ‘œ ν”„λ¦¬νŠΈλ ˆμ΄λ‹λ˜μ—ˆμœΌλ©°, 5,700λ°° 더 λ§Žμ€ λ°μ΄ν„°λ‘œ ν•™μŠ΅λœ λͺ¨λΈλ“€λ³΄λ‹€ 더 λ‚˜μ€ μ„±λŠ₯을 λ³΄μ˜€μŠ΅λ‹ˆλ‹€.

μ™œ 이 ν”„λ‘œμ νŠΈλ₯Ό μ‹œμž‘μ„κΉŒμš”?
ν˜„μž¬ LLM κ°œλ°œμ€ 사싀상 λΉ…ν…Œν¬μ˜ κ²Œμž„μž…λ‹ˆλ‹€.
β€’ 수쑰 토큰 규λͺ¨μ˜ 데이터
β€’ λŒ€κ·œλͺ¨ GPU ν΄λŸ¬μŠ€ν„°
β€’ 수백 λͺ… λ‹¨μœ„μ˜ μ—°κ΅¬Β·μ—”μ§€λ‹ˆμ–΄λ§ νŒ€

μ—°κ΅¬μžλ‘œμ„œ, μ €λŠ” 이것이 μœ μΌν•œ κΈΈμ΄λΌλŠ” 생각을 받아듀이고 μ‹Άμ§€ μ•Šμ•˜μŠ΅λ‹ˆλ‹€.
λ¬΄μ‹ν•œ μŠ€μΌ€μΌλ§λ³΄λ‹€, λ˜‘λ˜‘ν•œ μ•„ν‚€ν…μ²˜μ™€ ν•™μŠ΅ 섀계가 더 μ€‘μš”ν•˜λ‹€λŠ” 것을 증λͺ…ν•˜κ³  μ‹Άμ—ˆμŠ΅λ‹ˆλ‹€.

κ·Έ κ²°κ³Ό
β€’ Gumini-1.5B (1.54B) β†’ 벀치마크((kobest_boolq) μ’…ν•© 3μœ„

μ•„λž˜ λͺ¨λΈλ“€λ³΄λ‹€ μš°μˆ˜ν•©λ‹ˆλ‹€:
β€’ Qwen-2.5-1.5B (18T 토큰 ν•™μŠ΅) β†’ 5,732λ°° 더 높은 데이터 효율
β€’ Llama-3.2-3B (2λ°° 더 큰 λͺ¨λΈ) β†’ 2,866λ°° 더 높은 데이터 효율
β€’ EXAONE-3.5-2.4B (~6T 토큰, LG AI Research) β†’ μ•½ 2,070λ°° 더 높은 데이터 효율

λͺ¨λ“  κ²°κ³ΌλŠ” 단 3.14B ν† ν°μœΌλ‘œ λ‹¬μ„±λ˜μ—ˆμŠ΅λ‹ˆλ‹€.
μ΄λŠ” Qwen의 전체 ν•™μŠ΅ 데이터 λŒ€λΉ„ 0.017%에 λΆˆκ³Όν•©λ‹ˆλ‹€.
적은 μ—°μ‚° μžμ›κ³Ό λ°μ΄ν„°λ‘œλ„ μ–΄λ””κΉŒμ§€ κ°€λŠ₯ν•œμ§€λ₯Ό λ³΄μ—¬μ£ΌλŠ” λΆ„λͺ…ν•œ μ‹ ν˜ΈλΌκ³  μƒκ°ν•©λ‹ˆλ‹€.

더 μžμ„Έν•œ λ‚΄μš©κ³Ό ν•™μŠ΅ 방법, 벀치마크 ꡬ성, 상세 뢄석은 λ¦¬ν¬νŠΈμ— λͺ¨λ‘ κ³΅κ°œλ˜μ–΄ μžˆμŠ΅λ‹ˆλ‹€.

Report:
:point_right: Gumini (κ΅¬λ―Έλ‹ˆ) - Data-Efficient Korean-English LLM
Models:
:hugging: Gumini-1.5B: GuminiResearch/Gumini-1.5B-Base Β· Hugging Face
:hugging: Gumini-1B: GuminiResearch/Gumini-1B-Base Β· Hugging Face
:hugging: GGUF (Quantized): Gumini Quantization - a GuminiResearch Collection

ν”„λ‘œμ νŠΈ λ°°κ²½ & 이야기 (LinkedIn)

:envelope_with_arrow: o3omoomin@gmail.com or o3ogumini@gmail.com

8개의 μ’‹μ•„μš”

정말 λ©‹μ§€μ‹­λ‹ˆλ‹€. 저도 λΉ„μŠ·ν•œ 관심 κ°€μ§€κ³  μžˆμ—ˆλŠ”λ°, μ»΄ν“¨νŒ… λ¦¬μ†ŒμŠ€ λΉ„μš© 문제 λ•Œλ¬Έμ— ν¬κΈ°ν•˜κ³  μžˆμ—ˆλ„€μš”.

μš°μ™€, κ΅¬λ―Όλ‹˜ λ©‹μ§€μ‹­λ‹ˆλ‹€!!! :+1: