Open Thoughts: 추론(reasoning) 모델을 위한 양질의 데이터셋 및 모델 프로젝트 (feat. Bespoke Labs & DataComp)

Open Thoughts 프로젝트 소개

Open Thoughts는 Bespoke Labs와 DataComp 커뮤니티(Stanford, UC Berkeley, UT Austin, UCLA, UNC, LAION 등)가 주도하는 오픈소스 추론 데이터셋 구축 프로젝트입니다. 최근 DeepSeek-R1, SkyT1, STILL-2 등의 모델이 복잡한 문제를 해결하는 추론(reasoning) 능력은 데이터 품질에 크게 좌우되며, 수십만 개의 추론 데이터만으로도 놀라운 성능 향상을 이룰 수 있음을 보여주었습니다. 하지만 이러한 데이터셋은 대부분 비공개이며, 공개된 데이터 생성 전략도 많지 않습니다.

Open Thoughts 프로젝트는 이 문제를 해결하기 위해 출발했으며, 최고 수준의 오픈소스 추론 데이터셋을 구축하고 공개하는 것을 목표로 합니다. 추론 능력이 강한 AI 모델을 연구하거나, 자체적인 데이터셋을 구축하려는 개발자라면 이 프로젝트를 주목할 필요가 있습니다.

이 프로젝트의 주요 목표는 다음과 같습니다:

  • 고품질의 오픈소스 추론 데이터셋 구축
  • 데이터 생성 전략을 공개 및 공유
  • 추론 능력이 뛰어난 소형 AI 모델 개발

Open Thoughts 프로젝트의 데이터셋 :open_book:

Open Thoughts 프로젝트의 첫 번째 목표는 추론 데이터 세트를 선정 및 생성하는 것입니다. 여기에는 수학(Math), 코드(Code), 과학(Science), 퍼즐(Puzzle)의 4가지 도메인이 포함되어 있습니다. 현재까지 Bespoke-Stratos-17k 데이터셋 및 이를 더 큰 규모로 확장한 Open-Thoughts-114k 데이터셋이 공개되었습니다. 확장 시에는 DeepSeek-R1 모델을 기반으로 합성 데이터(synthetic data)를 대규모 생성하여 만들어졌습니다.

각 데이터셋은 다음에서 확인할 수 있습니다:

Open Thoughts 프로젝트의 공개 모델 :package:

Open Thoughts 프로젝트의 주요 목표 중 하나는 수학 및 코드 추론 벤치마크에서 DeepSeek-R1-Distill-Qwen-32B 및 DeepSeek-R1-Distill-Qwen-7B를 능가하는 최첨단 소규모 추론 모델을 학습하는 것입니다.

이를 위해 Bespoke-Stratos-17k 데이터셋으로 학습한 Bespoke-Stratos-32B model 모델과 OpenThoughts-114k 데이터셋으로 학습한 OpenThinker-7B model 모델이 공개되었습니다. 이 모델들의 성능을 최신 평가 도구인 Evalchemy를 통해 검증한 결과는 다음과 같습니다:

모델 AIME24 MATH500 GPQA-Diamond LCBv2 Easy LCBv2 Medium LCBv2 Hard LCBv2 All
OpenThinker-7B 43.3 83.0 42.4 75.3 28.6 6.5 39.9
Bespoke-Stratos-7B 16.6 79.6 38.9 71.4 25.2 0.8 35.8
DeepSeek-R1-Distill-Qwen-7B 60 88.2 46.9 79.7 45.1 14.6 50.1
gpt-4o-0513 10 75.8 46.5 87.4 42.7 8.9 50.5
o1-mini 63 85.6 60 92.8 74.7 39.8 72.8

Open-Thinker-7B는 특히 MATH500과 LCB Easy 같은 특정 벤치마크에서 우수한 성능을 기록하며, 특정 영역에서는 DeepSeek-R1-Distill-Qwen-7B와 경쟁할 수 있는 모델임을 보여주고 있습니다.

오픈소스

Open Thoughts 프로젝트는 단순한 데이터셋 공개를 넘어, AI 연구자들이 자유롭게 활용할 수 있는 고품질 데이터와 데이터 생성 전략을 공유하는 것을 목표로 합니다.

현재 대부분의 고품질 AI 학습 데이터는 대형 기업이 독점하고 있으며, 오픈소스 커뮤니티에서 활용할 수 있는 데이터는 제한적입니다. Open Thoughts는 이러한 장벽을 허물고, 누구나 고성능 AI 모델을 개발할 수 있도록 지원하는 것이 핵심 가치입니다.

Open Weights Open Data Open Code
OpenThinker-7B :white_check_mark: :white_check_mark: :white_check_mark:
Bespoke-Stratos-7B :white_check_mark: :white_check_mark: :white_check_mark:
DeepSeek-R1-Distill-Qwen-7B :white_check_mark: :x: :x:
gpt-4o-0513 :x: :x: :x:
o1-mini :x: :x: :x:

라이선스

Open Thoughts 프로젝트는 Apache-2.0 라이선스로 공개되었습니다.

:house: Open Thoughts 홈페이지

:github: Open Thoughts GitHub 저장소

:hugs: OpenThoughts-114k 데이터셋 및 OpenThinker-7B 모델

:hugs: Bespoke-Stratos-17k 데이터셋 및 Bespoke-Stratos 모델군




이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. :hugs:

:pytorch:파이토치 한국 사용자 모임:kr:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:gift: 아래:arrow_lower_right:쪽에 좋아요:+1:를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~ :star_struck: