🐻 LLM Pretraining의 새로운 시그널, Gumini-1B & 1.5B 오픈소스 공개

Gumini · 12월 17, 2025, 10:28오전

LLM Pretraining의 새로운 시그널, Gumini-1B & 1.5B 오픈소스 공개

안녕하세요.
AI Research Engineer 권구민입니다.

한국어–영어 이중언어 LLM, Gumini를 오픈소스로 공개합니다.
수조 개 토큰 규모의 데이터셋이 있어야만 경쟁력 있는 언어 모델을 만들 수 있는 것은 아닙니다.

Gumini-1.5B는 단 3.14B 토큰으로 프리트레이닝되었으며, 5,700배 더 많은 데이터로 학습된 모델들보다 더 나은 성능을 보였습니다.

왜 이 프로젝트를 시작을까요?
현재 LLM 개발은 사실상 빅테크의 게임입니다.
• 수조 토큰 규모의 데이터
• 대규모 GPU 클러스터
• 수백 명 단위의 연구·엔지니어링 팀

연구자로서, 저는 이것이 유일한 길이라는 생각을 받아들이고 싶지 않았습니다.
무식한 스케일링보다, 똑똑한 아키텍처와 학습 설계가 더 중요하다는 것을 증명하고 싶었습니다.

그 결과
• Gumini-1.5B (1.54B) → 벤치마크((kobest_boolq) 종합 3위

아래 모델들보다 우수합니다:
• Qwen-2.5-1.5B (18T 토큰 학습) → 5,732배 더 높은 데이터 효율
• Llama-3.2-3B (2배 더 큰 모델) → 2,866배 더 높은 데이터 효율
• EXAONE-3.5-2.4B (~6T 토큰, LG AI Research) → 약 2,070배 더 높은 데이터 효율

모든 결과는 단 3.14B 토큰으로 달성되었습니다.
이는 Qwen의 전체 학습 데이터 대비 0.017%에 불과합니다.
적은 연산 자원과 데이터로도 어디까지 가능한지를 보여주는 분명한 신호라고 생각합니다.

더 자세한 내용과 학습 방법, 벤치마크 구성, 상세 분석은 리포트에 모두 공개되어 있습니다.

Report:
Gumini (구미니) - Data-Efficient Korean-English LLM
Models:
Gumini-1.5B: GuminiResearch/Gumini-1.5B-Base · Hugging Face
Gumini-1B: GuminiResearch/Gumini-1B-Base · Hugging Face
GGUF (Quantized): Gumini Quantization - a GuminiResearch Collection

프로젝트 배경 & 이야기 (LinkedIn)

o3omoomin@gmail.com or o3ogumini@gmail.com

crlotwhite · 12월 17, 2025, 11:00오전

정말 멋지십니다. 저도 비슷한 관심 가지고 있었는데, 컴퓨팅 리소스 비용 문제 때문에 포기하고 있었네요.

9bow · 12월 17, 2025, 2:26오후

우와, 구민님 멋지십니다!!!