한국 초지능 연구 스타트업 Trillion Labs, 한국어로 처음부터 학습한 Tri Series의 중간 체크포인트 공개

Tri-LLM 시리즈 소개

한국 초지능 연구 스타트업 Trillion Labs에서는 최근 Open Source Month의 일환으로 Tri 시리즈의 **중간 체크포인트(intermediate checkpoints)**를 공개하였습니다. Tri Series는 Trillion Labs의 대규모 언어 모델군(LLM Family)를 지칭하며, 0.5B, 1.9B, 7B, 70B 모델들로 구성되어 있습니다. 이번 공개가 특히 의미 있는 이유는, 2025년 9월 기준으로 한국에서 처음으로 대규모 언어 모델을 처음부터(from scratch) 직접 학습한 후 중간 체크포인트를 배포한 사례라는 점입니다. 이는 국내 AI 연구 생태계에 있어 매우 중요한 이정표라 할 수 있습니다.

중간 체크포인트란 모델이 최종 완성되기 전에 일정 단계별로 저장된 학습 상태를 의미합니다. 보통 완성된 모델만 공개되는 경우가 많지만, 중간 단계의 데이터를 제공하면 학습이 어떻게 진행되는지, 어떤 지점에서 성능이 크게 변하는지, 그리고 스케일링과 수렴(convergence) 과정이 어떤 양상을 보이는지 연구할 수 있습니다. 따라서 연구자들이 학습 과정 전반을 정밀하게 분석할 수 있는 귀중한 자원이 되는 셈입니다.

Trillion Labs는 이 공개를 통해 연구자들에게 훈련 동역학(training dynamics) 을 살펴볼 수 있는 기회를 제공하려 합니다. 특히 한국 AI 연구 커뮤니티가 글로벌 수준의 모델 연구와 비교 실험을 진행하는 데 있어 좋은 기반이 될 것으로 기대됩니다.

지금까지 대부분의 대규모 언어 모델은 최종 결과물만 배포되었고, 그 과정에서 어떤 학습 곡선을 그렸는지는 연구자들에게 공개되지 않는 경우가 많았습니다. OpenAI, Anthropic, Meta 등이 공개한 모델들도 비슷한 형태를 따릅니다. 반면 Trillion Labs는 고정된 토큰 단위(steps) 에서 체크포인트를 제공하여 학습 궤적을 직접 추적할 수 있게 했습니다.

예를 들어:

  • Tri-0.5B 모델은 약 200억 토큰 단위로 저장
  • Tri-1.9B 모델은 약 400억 토큰 단위로 저장
  • Tri-7B 및 Tri-70B 모델은 약 1,600억 토큰 단위로 저장

이러한 방식 덕분에 연구자들은 모델이 어느 시점에서 급격히 수렴하는지, 성능이 어떤 지점에서 비약적으로 향상되는지, 혹은 성능 정체 구간이 발생하는지를 세밀하게 분석할 수 있습니다.

특히 작은 모델인 Tri-0.5B와 Tri-1.9B는 시스템 초기 구동(bring-up) 과정에서 만들어진 시험 실행(test-run) 체크포인트로, 완성도가 높은 최종 버전은 아니지만 스케일링 법칙(scaling law)학습 단계별 전이 현상(phase transition) 을 연구하는 데 가치가 있습니다.

Trillion Labs 소개

Trillion Labs는 한국을 중심으로 초지능(superintelligence) 을 목표로 하는 AI 연구 기업으로, 차세대 대규모 언어 모델(LLM)을 독자적으로 개발하고 있습니다. 단순히 글로벌 AI 트렌드를 따라가는 것이 아니라, 한국과 아시아 언어권에 특화된 독자적 파운데이션 모델(Foundation Model) 을 구축하는 데 집중하고 있습니다. 이는 영어 중심으로 발전해온 기존 AI 생태계에서 벗어나, 한국어와 아시아 언어 사용자들이 세계적인 AI 기술을 동등하게 활용할 수 있도록 하기 위한 전략적 선택입니다.

글로벌 AI 패권 경쟁이 치열해지는 가운데, 해외 모델에만 의존할 경우 데이터 보안, 언어적 정확성, 정책적 독립성에서 한계가 발생할 수 있습니다. Trillion Labs는 이러한 문제를 극복하기 위해 자체 연구 역량과 독립적인 학습 인프라를 갖춘다는 점에서 주목할 만합니다. 최근 공개한 Tri 시리즈 중간 체크포인트 역시 이러한 비전의 일환으로, 국내외 연구자들에게 학습 과정을 투명하게 공유하고 한국어 모델의 발전 가능성을 실질적으로 입증한 사례라고 할 수 있습니다.

주요 공개 내용

이번에 공개한 중간 체크 포인트를 학습한 상세 내역(Training Details) 다음과 같습니다:

0.5B 1.9B 7B 70B
batch size (tokens) 1M 2M 2M 8M
learning rate 6e-3 3e-3 2e-4 1.5e-4
optimizer AdamW AdamW AdamW AdamW
beta1 0.9 0.9 0.9 0.9
beta2 0.95 0.95 0.95 0.95
learning rate scheduler WSD WSD WSD WSD
total tokens seen 1.26T 1.88T 2T 1.5T
  • 중간 체크포인트 제공: Trillion Labs는 Tri 모델 전 시리즈(0.5B, 1.9B, 7B, 70B)의 중간 단계 체크포인트를 공개했습니다. 이 덕분에 연구자들은 모델 크기에 따른 훈련 패턴 차이를 실험적으로 비교할 수 있습니다.

  • 연구적 가치: 이 체크포인트들은 단순히 모델을 재사용하기 위함이 아니라, 훈련 과정 자체를 탐구할 수 있는 데이터셋으로 의미가 큽니다. 예를 들어, 연구자는 다음과 같은 질문에 답할 수 있습니다:

    • 작은 모델과 큰 모델은 동일한 데이터에서 어떻게 다른 수렴 곡선을 그릴까?

    • 특정 시점에서 성능이 급격히 향상되거나 정체되는 이유는 무엇일까?

    • 토큰 수 대비 모델 크기에 따른 효율적 학습 패턴은 어떻게 다를까?

  • 한국 연구 생태계의 첫 시도: 이번 공개가 더욱 주목받는 이유는 한국에서 독자적으로 학습한 LLM의 중간 체크포인트가 공개된 첫 사례라는 점입니다. 이는 국내 연구자들이 해외 연구 결과에만 의존하지 않고 직접적인 학습 궤적 분석을 할 수 있는 기회를 열었다는 점에서 의미가 있습니다.

:house: Trillion Labs 홈페이지

:scroll: Tri 시리즈 중간 체크포인트 공개 블로그

:hugs: Tri 시리즈 중간 체크포인트 다운로드

Tri-0.5B

Tri-1.9B

Tri-7B

Tri-70B

전체 Tri 시리즈




이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. :hugs:

:pytorch:파이토치 한국 사용자 모임:south_korea:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:wrapped_gift: 아래:down_right_arrow:쪽에 좋아요:+1:를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~ :star_struck:

2개의 좋아요

중간 체크포인트 제공은 처음보는것 같네요!

네네, 제 기억으로는 AMD가 MI300X로 처음부터 학습했던 Instella 3B 모델을 공개하면서 함께 공개했던 것 밖에 없었습니다. +_+ 한국어로는 최초인 것 같습니다 ㅎㅎ