OpenAI, 더 복잡한 문제 해결을 위해 더 많은 시간과 노력을 들여 생각하는 o1 모델 미리보기 공개 (feat. o1-preview, o1-mini)

OpenAI, 더 복잡한 문제 해결을 위해 더 많은 시간과 노력을 들여 생각하는 o1 모델 미리보기 공개 (feat. o1-preview, o1-mini)

OpenAI o1 시리즈 소개

OpenAI o1-preview: 더 복잡한 문제를 풀어내는 추론 모델

OpenAI는 복잡한 문제 해결을 위해 더 많은 시간과 노력을 들여 생각하는 새로운 AI 모델 o1-preview를 공개했습니다. 이 모델은 과학, 코딩, 수학에서 기존 모델보다 더 어려운 문제를 해결할 수 있는 능력을 갖췄으며, ChatGPT와 API를 통해 사용할 수 있습니다.

새 모델은 출시 초기 단계로, 지속적인 업데이트와 성능 향상이 예정되어 있습니다. 현재는 웹 검색, 파일 및 이미지 업로드 등의 기능은 없지만, 향후 추가될 예정입니다. 이 모델은 특히 복잡한 추론 작업에서 GPT-4o보다 뛰어난 성능을 발휘하며, 과학, 코딩, 수학 등 다양한 분야에서 큰 도움이 될 수 있습니다.

o1 모델의 주요한 특징은 다음과 같습니다:

  • 강화 학습을 통한 추론 능력: o1-preview 모델은 강화 학습을 통해 체계적인 사고 과정을 학습하여 문제를 해결합니다.
  • 안전성 향상: 모델이 안전 정책을 준수하는 능력이 크게 향상되었습니다. 특히, 허용되지 않는 콘텐츠 생성 요청에 대한 거부 능력이 개선되었습니다.
  • 고난도 추론 성능: 수학, 물리, 화학, 생물학 등 고난도의 문제에서 기존 모델들보다 높은 정확도를 보입니다.
  • 모델 평가: 다양한 평가 지표에서 기존의 GPT-4o보다 뛰어난 성능을 보이며, 특히 난이도가 높은 테스트에서 눈에 띄는 성과를 기록했습니다.

현재 o1-preview 모델은 ChatGPT Plus 및 Team 사용자들이 접근할 수 있으며, ChatGPT의 모델 선택기에서 수동으로 선택할 수 있습니다. API 사용자는 특정 사용 요건을 충족할 경우 바로 사용해 볼 수 있습니다. 사용자는 주당 메시지 전송 제한이 있지만, 추후에 점진적으로 늘어날 예정입니다.

OpenAI o1-mini: 비용 효율적 추론 모델

o1-mini는 OpenAI의 비용 효율적인 추론 모델로, o1-preview와 거의 비슷한 성능을 제공하면서도 80% 저렴한 비용으로 이용할 수 있습니다. 특히 수학과 코딩에서 뛰어난 성과를 보이며, 개발자들이 복잡한 코드를 생성하고 디버깅하는 데 효과적입니다. 구체적인 예로, 단어 추론 문제에 대한 GPT-4o, o1-mini, o1-preview의 응답을 비교했습니다. GPT-4o는 정답을 찾지 못했지만, o1-mini와 o1-preview는 모두 정답을 찾았으며, o1-mini가 약 3~5배 더 빠르게 정답에 도달했습니다

  • 성능: o1-mini는 AIME 수학 대회에서 70%의 정답률을 기록하며, o1-preview와 비슷한 성과를 보입니다. 또한, Codeforces에서 1650 Elo 점수를 기록해 상위 86번째 백분위수에 속하는 성과를 보였습니다.
  • 비용 효율성: o1-mini는 o1-preview보다 80% 저렴하며, 응답 시간도 더 빠릅니다.

o1-mini 모델은 ChatGPT Plus, Team, Enterprise, Edu 사용자들이 사용할 수 있으며, 향후 무료 사용자에게도 제공될 예정입니다.

o1 모델 소개 영상

작동 방식

o1 모델은 인간처럼 문제를 해결하기 전 사고 과정을 거치며, 체인 오브 사고(Chain of Thought) 기법을 통해 답변하기 전 긴 내부 사고 과정을 생성할 수 있습니다. 이를 통해 모델은 복잡한 물리, 화학, 생물학 문제에서 박사 수준의 성과를 보였으며, 수학과 코딩에서도 높은 성과를 기록했습니다.

성능 및 속도


o1 모델은 국제 수학 올림피아드 예선(AIME)에서 평균 74%의 정답률을 기록하며 상위 500명의 학생에 속했습니다. GPT-4o가 13%의 정답률을 기록한 것과 비교해 월등한 성과입니다. o1-preview와 o1-mini 모델은 복잡한 문제를 더 효율적으로 해결하며, 속도 측면에서는 o1-mini는 o1-preview보다 약 3-5배 빠르게 문제를 해결할 수 있습니다. 특히, 코딩 대회인 Codeforces에서 o1-mini는 86번째 백분위수에 해당하는 1650 Elo 점수를 기록해 GPT-4o와 비교해 월등한 성능을 보여주었습니다.

o1 모델은 기존 GPT-4o와 비교해 여러 평가에서 뛰어난 성과를 보였습니다. 특히, 수학, 코딩, 과학 문제에서 인간 전문가 수준의 성과를 기록하며, 특정 대회에서 GPT-4o를 크게 능가했습니다.

  • 수학 성능: AIME 2024 시험에서 GPT-4o는 평균 12%의 정답률을 기록했으나, o1은 83%를 기록하며 상위 500명의 학생에 속하는 성과를 보였습니다.
  • 코딩 성능: Codeforces에서 GPT-4o는 808의 Elo 점수를 기록했지만, o1은 1807 점수를 기록하며 93%의 경쟁자를 능가했습니다.
  • 과학 성능: 물리, 화학, 생물학에서 GPT-4o를 넘어 박사 수준의 문제 해결 능력을 보여주었습니다.

인간 선호도 평가(Human preference evaluation)를 통해 GPT4o와 o1-preview 모델을 비교해본 결과, 데이터 분석, 코딩, 수학과 같이 더 나은 추론을 통해 이점을 얻을 수 있는 영역에서 o1-preview의 선호도가 GPT-4o보다 크게 높았습니다. 그러나 일부 자연어 작업과 같은 작업에서는 o1-preview가 특별히 더 선호되지는 않았습니다. 이는 o1-preview 모델의 추론 성능이 모든 사용 사례에 적합하지는 않음을 알 수 있습니다.

안전성 강화와 평가

o1 모델은 생각의 사슬(CoT, Chain-of-Thoughts) 추론을 도입하여 더 나은 안전성을 보입니다. 이는 모델의 행동에 대한 정책을 생각의 사슬에 통합함으로써, 인간의 가치와 원칙을 더 강력하게 가르칠 수 있음을 뜻합니다. 이러한 접근 방식은 탈옥(jailbreaking) 시도에 대한 저항성을 높이며, 위험한 콘텐츠 생성 방지를 강화합니다.

  • 안전성 평가: 탈옥 저항성 평가에서 o1-preview는 GPT-4o보다 62점을 높인 84점을 기록하며, 다양한 악의적인 콘텐츠 생성 시도에 더 강한 저항성을 보였습니다.
  • 환각 평가: o1-preview와 o1-mini는 GPT-4o보다 환각 빈도가 적었으며, 특히 o1-mini는 24%의 환각률로 가장 낮았습니다.

더 자세한 내용은 o1 모델의 시스템 카드(System Card)를 참고해주세요:

https://openai.com/index/openai-o1-system-card/

모델의 활용과 앞으로의 계획, 결론

OpenAI o1 시리즈는 과학, 코딩, 수학 등의 복잡한 문제를 해결하는 데 유용하며, 연구자, 개발자, 학생들이 효율적으로 활용할 수 있습니다. 향후 모델 업데이트를 통해 웹 검색, 파일 및 이미지 업로드 기능 등을 추가하여 더욱 다양한 활용이 가능하도록 발전시킬 계획입니다.

o1 시리즈는 AI 추론의 새로운 기준을 제시하며, 안전성과 성능에서 큰 진전을 이루었습니다. 향후 추가적인 업데이트와 개선을 통해 AI 모델이 인간의 가치와 원칙에 맞게 조정될 것으로 기대됩니다. OpenAI o1 및 그 후속 모델들은 과학, 코딩, 수학 등 다양한 분야에서 새로운 가능성을 열어갈 것입니다.

더 읽어보기

https://openai.com/index/introducing-openai-o1-preview

https://openai.com/index/learning-to-reason-with-llms

https://openai.com/index/openai-o1-mini-advancing-cost-efficient-reasoning

https://openai.com/index/openai-o1-system-card/




이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. :hugs:

:pytorch:파이토치 한국 사용자 모임:kr:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:gift: 아래:arrow_lower_right:쪽에 좋아요:+1:를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~ :star_struck:

1개의 좋아요

아앗... 둬위솽환귝워왐홀오뤼쀼몼놤귀놩용ㅠ