Open Thoughts: 추론(reasoning) 모델을 위한 양질의 데이터셋 및 모델 프로젝트 (feat. Bespoke Labs & DataComp)

9bow · 1월 29, 2025, 11:00오후

Open Thoughts 프로젝트 소개

Open Thoughts는 Bespoke Labs와 DataComp 커뮤니티(Stanford, UC Berkeley, UT Austin, UCLA, UNC, LAION 등)가 주도하는 오픈소스 추론 데이터셋 구축 프로젝트입니다. 최근 DeepSeek-R1, SkyT1, STILL-2 등의 모델이 복잡한 문제를 해결하는 추론(reasoning) 능력은 데이터 품질에 크게 좌우되며, 수십만 개의 추론 데이터만으로도 놀라운 성능 향상을 이룰 수 있음을 보여주었습니다. 하지만 이러한 데이터셋은 대부분 비공개이며, 공개된 데이터 생성 전략도 많지 않습니다.

Open Thoughts 프로젝트는 이 문제를 해결하기 위해 출발했으며, 최고 수준의 오픈소스 추론 데이터셋을 구축하고 공개하는 것을 목표로 합니다. 추론 능력이 강한 AI 모델을 연구하거나, 자체적인 데이터셋을 구축하려는 개발자라면 이 프로젝트를 주목할 필요가 있습니다.

이 프로젝트의 주요 목표는 다음과 같습니다:

고품질의 오픈소스 추론 데이터셋 구축
데이터 생성 전략을 공개 및 공유
추론 능력이 뛰어난 소형 AI 모델 개발

Open Thoughts 프로젝트의 데이터셋

Open Thoughts 프로젝트의 첫 번째 목표는 추론 데이터 세트를 선정 및 생성하는 것입니다. 여기에는 수학(Math), 코드(Code), 과학(Science), 퍼즐(Puzzle)의 4가지 도메인이 포함되어 있습니다. 현재까지 Bespoke-Stratos-17k 데이터셋 및 이를 더 큰 규모로 확장한 Open-Thoughts-114k 데이터셋이 공개되었습니다. 확장 시에는 DeepSeek-R1 모델을 기반으로 합성 데이터(synthetic data)를 대규모 생성하여 만들어졌습니다.

각 데이터셋은 다음에서 확인할 수 있습니다:

Open Thoughts 프로젝트의 공개 모델

Open Thoughts 프로젝트의 주요 목표 중 하나는 수학 및 코드 추론 벤치마크에서 DeepSeek-R1-Distill-Qwen-32B 및 DeepSeek-R1-Distill-Qwen-7B를 능가하는 최첨단 소규모 추론 모델을 학습하는 것입니다.

이를 위해 Bespoke-Stratos-17k 데이터셋으로 학습한 Bespoke-Stratos-32B model 모델과 OpenThoughts-114k 데이터셋으로 학습한 OpenThinker-7B model 모델이 공개되었습니다. 이 모델들의 성능을 최신 평가 도구인 Evalchemy를 통해 검증한 결과는 다음과 같습니다:

모델	AIME24	MATH500	GPQA-Diamond	LCBv2 Easy	LCBv2 Medium	LCBv2 Hard	LCBv2 All
OpenThinker-7B	43.3	83.0	42.4	75.3	28.6	6.5	39.9
Bespoke-Stratos-7B	16.6	79.6	38.9	71.4	25.2	0.8	35.8
DeepSeek-R1-Distill-Qwen-7B	60	88.2	46.9	79.7	45.1	14.6	50.1
gpt-4o-0513	10	75.8	46.5	87.4	42.7	8.9	50.5
o1-mini	63	85.6	60	92.8	74.7	39.8	72.8

Open-Thinker-7B는 특히 MATH500과 LCB Easy 같은 특정 벤치마크에서 우수한 성능을 기록하며, 특정 영역에서는 DeepSeek-R1-Distill-Qwen-7B와 경쟁할 수 있는 모델임을 보여주고 있습니다.

오픈소스

Open Thoughts 프로젝트는 단순한 데이터셋 공개를 넘어, AI 연구자들이 자유롭게 활용할 수 있는 고품질 데이터와 데이터 생성 전략을 공유하는 것을 목표로 합니다.

현재 대부분의 고품질 AI 학습 데이터는 대형 기업이 독점하고 있으며, 오픈소스 커뮤니티에서 활용할 수 있는 데이터는 제한적입니다. Open Thoughts는 이러한 장벽을 허물고, 누구나 고성능 AI 모델을 개발할 수 있도록 지원하는 것이 핵심 가치입니다.

	Open Weights	Open Data	Open Code
OpenThinker-7B
Bespoke-Stratos-7B
DeepSeek-R1-Distill-Qwen-7B
gpt-4o-0513
o1-mini

라이선스

Open Thoughts 프로젝트는 Apache-2.0 라이선스로 공개되었습니다.

Open Thoughts 홈페이지

Open Thoughts GitHub 저장소

https://github.com/open-thoughts/open-thoughts?tab=readme-ov-file

OpenThoughts-114k 데이터셋 및 OpenThinker-7B 모델

Bespoke-Stratos-17k 데이터셋 및 Bespoke-Stratos 모델군

이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.

파이토치 한국 사용자 모임이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

아래쪽에 좋아요를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~