s1: 테스트 시점 스케일링(Test-Time Scaling)을 단순하게 구현하는 방법에 대한 연구

9bow · 2월 6, 2025, 10:30오후

s1: Simple Test-Time Scaling 연구 배경

최근 인공지능(AI) 기술이 급속도로 발전하면서, 대형 언어 모델(Large Language Model, LLM)의 활용이 점점 더 확대되고 있습니다. GPT-4o, Claude, Gemini와 같은 최신 모델들은 방대한 양의 데이터를 학습한 후, 복잡한 자연어 처리(NLP) 작업을 수행할 수 있으며, 점차 인간과 유사한 수준의 언어 이해 및 생성 능력을 보이고 있습니다. 이러한 모델들은 기계 번역, 문서 요약, 질의응답 시스템 등 다양한 영역에서 사용되며, AI 기반 애플리케이션의 핵심 요소로 자리 잡고 있습니다.

이러한 언어 모델의 성능을 높이는 전통적인 접근 방식은 훈련 시점(Train-time)에서의 확장입니다. 즉, 더 많은 데이터를 학습하고, 모델의 크기를 키우며, 학습 시간을 늘리는 방식이 일반적으로 사용됩니다. 하지만 이 접근 방식은 높은 연산 비용과 많은 자원을 필요로 하며, 일정 규모 이상으로 모델을 확장하는 것이 현실적으로 어렵다는 한계를 가집니다. 특히, 수천억 개의 파라미터를 가진 모델을 학습하고 운영하는 것은 엄청난 하드웨어 리소스를 요구하며, 모델을 지속적으로 개선하는 데 있어서도 비용과 효율성의 문제에 직면하게 됩니다.

이러한 한계를 극복하기 위한 대안으로 **테스트 시점 스케일링(Test-time Scaling)**이 주목받고 있습니다. 이는 모델을 훈련하는 과정에서가 아니라, 테스트(추론) 시점에서 추가적인 연산을 수행하여 성능을 향상시키는 기법을 의미합니다. OpenAI의 o1 모델이 이 방법을 통해 강력한 추론 성능을 달성한 것이 대표적인 사례입니다. 하지만 o1 모델의 구체적인 구현 방법이 공개되지 않았기 때문에, 이를 복제하려는 다양한 연구 시도가 있었습니다. 기존의 접근 방식들은 강화 학습(Reinforcement Learning, RL), 몬테카를로 트리 탐색(Monte Carlo Tree Search, MCTS) 등을 활용하여 o1 수준의 성능을 재현하려 했지만, 여전히 높은 연산 비용과 방대한 훈련 데이터가 필요하다는 문제점이 있었습니다.

이 연구에서는 가장 단순하면서도 효과적인 테스트 시점 스케일링 기법을 탐색하는 것을 목표로 하였습니다. 연구팀은 Budget Forcing이라는 개념을 도입하여, 최소한의 데이터와 연산량으로도 모델의 성능을 크게 향상시킬 수 있는지를 검증하였습니다. 특히, s1-32B 모델을 개발하여 단 1,000개의 고품질의 데이터로 구성된 s1K 데이터셋만을 사용하여 기존 모델보다 뛰어난 추론 성능을 기록하였습니다. 이는 소규모 데이터셋만으로도 테스트 시점 조정을 통해 성능을 극대화할 수 있음을 보여줍니다. 즉, 이 연구에서는 테스트 시점에서 연산량을 조절하여 모델의 성능을 최적화하는 전략이 실제로 효과적인지를 검증하고, 향후 모델 개발에 미칠 영향을 분석하고자 합니다.

추론 데이터셋 s1K 소개 및 생성 방법

s1 연구에서는 학습 데이터를 최소화하면서도 강력한 추론 능력을 학습할 수 있는가라는 질문을 중심으로 데이터셋을 설계하였습니다. 이를 위해 연구팀은 s1K라는 새로운 데이터셋을 구축하였으며, 이는 1,000개의 고품질 데이터로 이루어진 소규모 데이터셋입니다. 일반적으로 대형 언어 모델의 학습에는 수백만 개의 데이터가 필요하다고 알려져 있지만, 본 연구에서는 소량의 데이터를 효과적으로 선별하여 훈련하면 강력한 추론 능력을 학습할 수 있는지 검증하는 것을 목표로 하였습니다.

s1K 데이터셋을 구축하기 위해 연구팀은 먼저 다양한 분야에서 59,029개의 문제를 수집하였습니다. 이 데이터는 수학, 과학, 논리, 언어학, 확률 등 다양한 도메인을 포함하며, 문제의 난이도와 유형도 광범위하게 분포되어 있습니다. 이후 연구팀은 **품질(Quality), 난이도(Difficulty), 다양성(Diversity)**이라는 세 가지 기준을 설정하여 데이터를 필터링하였습니다.

먼저 품질(Quality) 기준을 적용하여, 잘못된 형식의 데이터나 의미가 명확하지 않은 문제들을 제거하였습니다. 이후 난이도(Difficulty) 기준을 적용하여, 문제 해결을 위해 깊은 추론이 필요한 문제들을 선별하였습니다. 마지막으로 다양성(Diversity) 기준을 적용하여, 특정 유형의 문제에 치우치지 않도록 다양한 주제의 문제들을 균형 있게 포함하도록 구성하였습니다. 이러한 과정을 거쳐 최종적으로 1,000개의 고품질 문제(s1K)가 선정되었습니다.

본 연구에서 중요한 점은, s1K 데이터셋이 기존 대형 데이터셋보다 훨씬 적은 양의 데이터를 포함하고 있음에도 불구하고, 효과적인 테스트 시점 조정을 통해 모델의 성능을 크게 향상시킬 수 있다는 점 입니다. 이는 향후 AI 모델을 개발하는 과정에서 데이터 수집과 모델 훈련 비용을 줄이는 데 중요한 시사점을 제공합니다.

테스트 시점 스케일링(Test-Time Scaling)과 Budget Forcing

기존의 대형 언어 모델은 주어진 입력에 대해 즉각적인 응답을 생성하도록 설계되어 있습니다. 하지만 복잡한 문제를 해결할 때는 한 번의 계산만으로 최적의 답을 도출하는 것이 어렵기 때문에, 모델이 더 깊이 사고하고 다각적인 검토를 수행할 수 있도록 유도하는 방법이 필요합니다. 이러한 접근 방식 중 하나가 **테스트 시점 스케일링(Test-time Scaling)**이며, 이는 모델을 훈련하는 과정에서가 아니라, 테스트(추론) 시점에서 추가적인 연산을 수행하여 성능을 향상시키는 방법론을 의미합니다.

테스트 시점 스케일링에는 크게 두 가지 방식이 있습니다:

첫 번째는 **병렬 방식(Parallel Scaling)**으로, 모델이 여러 개의 독립적인 출력을 생성한 후 가장 적절한 답을 선택하는 방법입니다. 이는 다수의 출력을 비교하고 다수결 방식(Majority Voting)이나 후처리 알고리즘을 활용하여 최종 답을 결정하는 방식으로, 테스트 과정에서 여러 번의 독립적인 추론을 수행하는 것이 특징입니다. 하지만 이 방식은 계산량이 증가하며, 반드시 최적의 답을 도출하는 것은 아니기 때문에 한계가 존재합니다 .

두 번째 방식은 **순차 방식(Sequential Scaling)**으로, 모델이 하나의 답을 생성하는 과정에서 이전 사고 과정(Reasoning Trace)을 활용하여 점진적으로 더 나은 답을 찾아가는 방식입니다. 이 접근법은 단계적인 사고 과정이 필요한 문제에서 유용하게 작용할 수 있으며, 연구진은 이를 최적화하기 위해 Budget Forcing 기법을 도입하였습니다 .

Budget Forcing은 모델의 사고 과정(Thinking Phase)을 인위적으로 조절하는 기법입니다. 일반적으로 언어 모델은 최대한 빨리 답을 생성하려는 경향이 있으며, 이는 복잡한 문제를 해결하는 데 있어 충분한 사고를 거치지 않고 성급한 결론을 내리는 문제를 초래할 수 있습니다. 연구팀은 이 문제를 해결하기 위해 두 가지 기법을 적용하였습니다. 첫째, 모델이 일정한 토큰 수 이상을 생성할 때까지 사고 과정을 유지하도록 설정하여, 모델이 충분한 사고를 거친 후 답을 생성하도록 유도하였습니다. 둘째, 모델이 답을 생성하려고 할 때 "Wait"이라는 추가적인 신호를 입력하여, 모델이 지금까지의 출력을 한 번 더 검토할 기회를 제공하였습니다 .

이러한 방법을 통해, 모델이 문제를 더 철저히 분석하고 중간 과정에서 오류를 수정하는 능력이 향상되었습니다. 특히, Budget Forcing을 적용한 모델은 문제를 해결하는 과정에서 보다 체계적으로 사고하는 경향을 보였으며, 최종적으로 높은 정확도를 달성할 수 있었습니다. 연구팀은 Budget Forcing이 적용된 s1-32B 모델이 기존의 o1-preview 모델보다 더 나은 성능을 보이며, 특히 수학적 추론과 과학 문제 해결에서 뛰어난 성능을 발휘했음을 실험을 통해 확인하였습니다 .

실험 결과 및 성능 정리, Ablation

본 연구에서는 Budget Forcing을 적용한 s1-32B 모델을 다양한 벤치마크 데이터셋을 활용하여 평가하였습니다. 실험에 사용된 데이터셋은 다음과 같습니다. 첫째, AIME24는 미국 수학 올림피아드(AIME) 문제들로 구성된 데이터셋으로, 복잡한 수학적 사고가 요구되는 고난이도 문제들로 이루어져 있습니다. 둘째, MATH500은 다양한 수학 문제들을 포함한 일반적인 평가용 데이터셋입니다. 셋째, GPQA Diamond는 박사 수준의 과학 문제들을 포함한 데이터셋으로, 고난이도 질문들에 대한 모델의 성능을 측정하는 데 사용되었습니다.

실험 결과, s1-32B 모델은 기존의 OpenAI o1-preview 모델보다 높은 성능을 기록하였습니다 . 특히 Budget Forcing을 적용한 경우, AIME24 문제에서 성능이 50%에서 56.7%로 상승하였으며, 이는 단순한 기법만으로도 테스트 시점에서 성능을 극대화할 수 있음을 보여줍니다 . 또한 MATH500과 GPQA Diamond에서도 기존 모델보다 뛰어난 성능을 보였으며, 이는 1,000개 샘플만을 사용한 미세 조정만으로도 모델의 추론 능력을 강화할 수 있음을 시사합니다.

추가적인 Ablation 연구를 통해, 데이터의 양과 다양성이 모델 성능에 미치는 영향을 분석하였습니다. 연구팀은 모델을 훈련할 때 데이터의 수를 달리하여 실험을 진행하였으며, 이를 통해 적절한 난이도와 다양성을 가진 소규모 데이터셋(s1K)이 효과적인 모델 학습에 중요한 역할을 한다는 사실을 발견하였습니다 . 또한 Budget Forcing을 사용하지 않은 경우보다 사용한 경우에 더 높은 성능을 달성하였으며, 이는 모델이 충분한 사고 과정을 거칠 수 있도록 유도하는 것이 매우 중요하다는 것을 보여줍니다 .

본 연구는 또한 Budget Forcing이 다른 테스트 시점 스케일링 기법들과 비교하여 어떤 이점을 가지는지 평가하였습니다. 다수결 방식(Majority Voting)과 같은 병렬 스케일링 기법과 비교한 결과, Budget Forcing을 활용한 순차적(Sequential) 스케일링 방식이 더 효과적인 것으로 나타났습니다. 이는 모델이 여러 번 생각하고 답을 수정하는 과정이 최종적인 성능 향상에 중요한 역할을 한다는 것을 의미합니다 .

논의, 향후 과제 및 결론

본 연구는 소규모 데이터 환경에서도 테스트 시점 스케일링을 활용하여 강력한 AI 모델을 개발할 수 있음을 입증하였습니다. 특히, 1,000개의 고품질 데이터셋(s1K)만을 활용하여도 효과적인 학습이 가능하며, 이를 통해 모델의 연산량을 최적화하면서도 높은 성능을 유지할 수 있음을 보였습니다. 이는 향후 AI 모델을 최적화하는 데 있어 중요한 시사점을 제공합니다.

하지만 본 연구에서도 몇 가지 한계점이 존재합니다:

첫째, Budget Forcing 기법이 모든 유형의 문제에서 동일한 효과를 발휘하는지에 대한 추가적인 연구가 필요합니다. 예를 들어, 특정한 도메인에서는 모델이 추가적인 사고 과정을 거친다고 해서 반드시 더 좋은 답을 생성하는 것이 아닐 수도 있습니다.
둘째, 더 긴 문맥을 다룰 수 있도록 모델을 확장하는 방법에 대한 연구가 필요합니다. 현재의 접근 방식은 일정한 토큰 수 내에서 사고 과정을 조정하는 것이기 때문에, 보다 긴 문맥을 다룰 수 있도록 설계된 새로운 모델 아키텍처가 필요할 가능성이 있습니다 .

향후 연구에서는 Budget Forcing을 더욱 정교하게 설계하여, 다양한 도메인에서의 적용 가능성을 넓히는 방향으로 확장될 수 있을 것입니다. 또한, 강화 학습과의 결합을 통해 Budget Forcing을 보다 효과적으로 활용하는 방법을 탐색할 수도 있습니다. 이러한 연구가 진행된다면, 보다 효율적인 테스트 시점 스케일링 기법이 개발될 가능성이 있으며, 이는 향후 인공지능 모델의 성능을 향상시키는 중요한 기술적 돌파구가 될 것입니다.

s1: Simple Test-Time Scaling 논문

s1: Simple Test-Time Scaling GitHub 저장소

s1-32B 모델

s1K 데이터셋

s1-prob: simplescaling/s1-prob · Datasets at Hugging Face
s1-teasers: simplescaling/s1-teasers · Datasets at Hugging Face

이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.

파이토치 한국 사용자 모임이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

아래쪽에 좋아요를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~

9bow · 2월 6, 2025, 10:30오후

추가로, Budget Forcing 시 Wait 대신 Hmm이나 Alternatively를 넣었을 때의 실험 결과(Table 4)도 인상적(?)이네요 ㅎㅎ