LLM Pretrainingμ μλ‘μ΄ μκ·Έλ, Gumini-1B & 1.5B μ€νμμ€ κ³΅κ°
μλ
νμΈμ.
AI Research Engineer κΆκ΅¬λ―Όμ
λλ€.
νκ΅μ΄βμμ΄ μ΄μ€μΈμ΄ LLM, Guminiλ₯Ό μ€νμμ€λ‘ 곡κ°ν©λλ€.
μμ‘° κ° ν ν° κ·λͺ¨μ λ°μ΄ν°μ
μ΄ μμ΄μΌλ§ κ²½μλ ₯ μλ μΈμ΄ λͺ¨λΈμ λ§λ€ μ μλ κ²μ μλλλ€.
Gumini-1.5Bλ λ¨ 3.14B ν ν°μΌλ‘ ν리νΈλ μ΄λλμμΌλ©°, 5,700λ°° λ λ§μ λ°μ΄ν°λ‘ νμ΅λ λͺ¨λΈλ€λ³΄λ€ λ λμ μ±λ₯μ 보μμ΅λλ€.
μ μ΄ νλ‘μ νΈλ₯Ό μμμκΉμ?
νμ¬ LLM κ°λ°μ μ¬μ€μ λΉ
ν
ν¬μ κ²μμ
λλ€.
β’ μμ‘° ν ν° κ·λͺ¨μ λ°μ΄ν°
β’ λκ·λͺ¨ GPU ν΄λ¬μ€ν°
β’ μλ°± λͺ
λ¨μμ μ°κ΅¬Β·μμ§λμ΄λ§ ν
μ°κ΅¬μλ‘μ, μ λ μ΄κ²μ΄ μ μΌν κΈΈμ΄λΌλ μκ°μ λ°μλ€μ΄κ³ μΆμ§ μμμ΅λλ€.
무μν μ€μΌμΌλ§λ³΄λ€, λλν μν€ν
μ²μ νμ΅ μ€κ³κ° λ μ€μνλ€λ κ²μ μ¦λͺ
νκ³ μΆμμ΅λλ€.
κ·Έ κ²°κ³Ό
β’ Gumini-1.5B (1.54B) β λ²€μΉλ§ν¬((kobest_boolq) μ’
ν© 3μ
μλ λͺ¨λΈλ€λ³΄λ€ μ°μν©λλ€:
β’ Qwen-2.5-1.5B (18T ν ν° νμ΅) β 5,732λ°° λ λμ λ°μ΄ν° ν¨μ¨
β’ Llama-3.2-3B (2λ°° λ ν° λͺ¨λΈ) β 2,866λ°° λ λμ λ°μ΄ν° ν¨μ¨
β’ EXAONE-3.5-2.4B (~6T ν ν°, LG AI Research) β μ½ 2,070λ°° λ λμ λ°μ΄ν° ν¨μ¨
λͺ¨λ κ²°κ³Όλ λ¨ 3.14B ν ν°μΌλ‘ λ¬μ±λμμ΅λλ€.
μ΄λ Qwenμ μ 체 νμ΅ λ°μ΄ν° λλΉ 0.017%μ λΆκ³Όν©λλ€.
μ μ μ°μ° μμκ³Ό λ°μ΄ν°λ‘λ μ΄λκΉμ§ κ°λ₯νμ§λ₯Ό 보μ¬μ£Όλ λΆλͺ
ν μ νΈλΌκ³ μκ°ν©λλ€.
λ μμΈν λ΄μ©κ³Ό νμ΅ λ°©λ², λ²€μΉλ§ν¬ ꡬμ±, μμΈ λΆμμ 리ν¬νΈμ λͺ¨λ 곡κ°λμ΄ μμ΅λλ€.
Report:
Gumini (ꡬ미λ) - Data-Efficient Korean-English LLM
Models:
Gumini-1.5B: GuminiResearch/Gumini-1.5B-Base Β· Hugging Face
Gumini-1B: GuminiResearch/Gumini-1B-Base Β· Hugging Face
GGUF (Quantized): Gumini Quantization - a GuminiResearch Collection
νλ‘μ νΈ λ°°κ²½ & μ΄μΌκΈ° (LinkedIn)