OpenAI, 더 빠르고 더 저렴한 STEM 특화 모델 o3-mini 공개

OpenAI의 o3-mini 모델 소개

OpenAI가 새로운 소형 추론 모델인 o3-mini를 공개했습니다. 이 모델은 STEM(Science/과학, Technology/기술, Engineering/공학, Math/수학) 영역에 특화된 모델로, 수학, 코딩, 과학 분야에서 강력한 성능을 제공하면서도 낮은 비용과 짧은 응답 시간을 유지하는 것이 특징입니다.

특히, o3-mini 모델은 이전 모델인 o1-mini보다 응답 속도가 24%가량 빨라지고, 첫 번째 토큰 출력 속도도 2,500ms 향상되어 더욱 빠른 AI 경험을 제공합니다. 함수 호출, 구조화된 출력, 개발자 메시지 등의 기능을 지원해 실무에서 활용하기 좋습니다.

o3-mini 모델의 주요한 특징은 다음과 같습니다:

  • STEM(수학, 과학, 코딩) 특화 성능
  • 빠른 응답 속도 (o1-mini 대비 24% 향상)
  • 저렴한 비용 & 낮은 지연 시간
  • 함수 호출, 구조화된 출력, 개발자 메시지 지원
  • 세 가지 추론 모드 (Low/Medium/High) 지원

ChatGPT에서는 o3-mini의 추론 모드(Reasoning Effort Option)을 중간(Medium)로 설정되어 속도와 정확도의 균형을 맞추며, o3-mini-high 옵션을 선택하면 더 깊이 있는 답변을 얻을 수 있습니다.

또한, 무료 사용자도 Reason 모드를 선택하면 사용할 수 있어, 누구나 OpenAI의 최신 소형 모델을 경험해볼 수 있습니다.

o3-mini 성능 비교

o3-mini의 3가지 추론 모드(Reasoning Effort Option)에 대해서 기존 모델인 o1-minio1에 대해서 성능을 비교해보았습니다. 수학(AIME 2024, FrontierMath), 과학(GPQA Diamond), 공학(Codeforces, SWE-bench, LiveBench Coding)을 비롯한 일반 지식(MMLU, MGSM, SimpleQA) 등에서 추론 모드에 따라 o1과 비슷하거나 더 나은 성능을 보였습니다. 일부 벤치마크 결과는 아래와 같으며, 전체 결과는 OpenAI의 o3-mini 공개 블로그를 참고해주세요.

수학(Math) 성능 비교: AIME 2024

추론 모드(Reasoning Effort Option)를 낮음(Low)으로 설정한 경우, OpenAI o3-mini는 OpenAI o1-mini와 비슷한 성능을 보입니다. 기본값인 추론 모드가 중간(Medium)인 경우에는 o3-minio1과 비슷한 성능을 보입니다. 반면 추론 모드가 높음(Hight)인 경우, o3-mini는 이전의 o1o1-mini보다 더 나은 성능을 보이며, 위 표의 회색 음영 영역은 64개 샘플의 다수결(합의) 성능을 나타냅니다.

박사급 과학 질문 성능 비교: GPQA Diamond

박사 수준(PhD-level)의 생물학, 화학, 물리학 문제에서 추론 모드가 낮음(low)으로 설정한 경우 OpenAI의 새로운 모델 o3-mini는 기존의 o1-mini 이상의 성능을 보입니다. 높음(high)으로 설정시 o3-minio1과 비슷한 성능을 보입니다.

연구원급 수학 성능 비교: FrontierMath

높은 추론 능력을 갖춘 OpenAI o3-mini는 FrontierMath에서 이전 버전들보다 더 나은 성능을 보입니다. FrontierMath에서 Python 도구를 사용하라는 메시지가 표시되면 추론 노력이 높은 o3-mini는 첫 번째 시도에서 32% 이상의 문제를 해결하며, 이는 28% 이상의 고난이도(T3) 문제가 포함되었을 때의 수치입니다. 이 수치는 잠정적인 수치이며 위 차트는 도구나 계산기를 사용하지 않았을 때의 성능을 보여줍니다.

개발 성능 비교: Codeforces

Codeforces 경연(competetion)에서 OpenAI o3-mini는 추론 모드를 Low에서 High로 변경함에 따라 점진적으로 더 높은 Elo 점수를 달성하는 것을 보였습니다. Medium부터는 o1과 보다 나은 성능을 보였으며, 3가지 모드 모두에서 o1-mini보다 우수한 성능을 보였습니다.

o3-mini의 그 외 특징

모델 성능과 속도

o3-mini는 이전 모델인 o1-mini보다 평균 24% 빠른 응답 속도를 자랑합니다. 중간 추론 모드(medium reasoning effort)에서 o1과 유사한 성능을 보이며, 높은 추론 모드(high effort)에서는 o1-minio1을 모두 능가하는 성능을 발휘합니다.

특히, AI 모델에서 중요한 요소 중 하나인 첫 번째 토큰 출력 속도가 o1-mini보다 2500ms 더 빠르며, 이는 실시간 응답이 중요한 응용 프로그램에서 큰 이점이 될 수 있습니다. 빠른 속도뿐만 아니라, 고급 수학 문제를 해결하는 FrontierMath, AIME, GPQA 등 다양한 평가에서도 우수한 성능을 보이며, 수학적 사고와 논리적 문제 해결이 필요한 분야에서 더욱 신뢰할 수 있는 AI 모델로 자리 잡았습니다.

안정성(Safety)

AI의 발전과 함께, 모델이 안전하게 동작하는 것은 필수적인 요소입니다. OpenAI는 Deliberative Alignment 기법을 도입해, AI가 사람의 안전 규정을 먼저 학습하고 이를 기반으로 답변을 생성하도록 개선했습니다. 그 결과, o3-mini는 유해 콘텐츠 필터링 및 악용 방지(Jailbreak) 방어에서 이전의 GPT-4o보다도 우수한 성능을 보였습니다.

안전성 테스트에서도 높은 점수를 기록했으며, AI가 허용되지 않은 콘텐츠를 생성하지 않도록 학습된 덕분에, 기업 및 개발자들이 안심하고 사용할 수 있습니다. 특히 AI 보안이 중요한 분야에서 o3-mini는 보다 신뢰할 수 있는 도구가 될 것입니다.

:scroll: OpenAI의 o3-mini 소개 블로그

https://openai.com/index/openai-o3-mini/




이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. :hugs:

:pytorch:파이토치 한국 사용자 모임:kr:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:gift: 아래:arrow_lower_right:쪽에 좋아요:+1:를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~ :star_struck:

1개의 좋아요