Gemini 2.5, Google DeepMind가 출시한 '생각하는(thinking)' 인공지능 모델

Gemini 2.5 소개

Google DeepMind가 발표한 Gemini 2.5는 기존의 단순한 텍스트 생성 AI를 넘어 ‘생각하는(thinking)’ AI 모델을 표방합니다. 즉, Gemini 2.5는 기존 Gemini 2.0의 ‘Flash Thinking’ 기술에서 한 단계 더 진화한 모델로, 복잡한 문제를 스스로 사고하고 해결하는 데 초점을 둔 AI 모델입니다. Google은 그동안 강화학습이나 생각의 사슬 프롬프팅(CoT Prompting, Chain-of-Thought prompting) 같은 기법을 통해 AI의 사고력 향상을 연구해 왔는데요, 이번 2.5 모델에서는 이런 기술들을 더 정교하게 통합해 “Thinking model”이라는 새로운 범주를 선언했습니다.

이번에 공개된 Gemini 2.5 Pro Experimental 모델은 추론(reasoning), 코딩, 수학, 과학 등 다양한 벤치마크에서 GPT-4.5와 Claude 3.5 등 경쟁 모델을 뛰어넘는 성능을 보였는데요, 특히 코드 생성과 멀티모달 인식, 긴 문맥 처리에 특화되었습니다. 또한, 100만 토큰 이상의 문맥을 처리할 수 있어 복잡한 문서, 코드, 멀티모달 입력을 통합적으로 처리할 수 있다는 점이 특징입니다.

Gemini 2.5 Pro Experimental 모델은 이미 공개된 벤치마크 LMArena에서 인간의 선호도 평가 기준으로 1위를 차지했고, 수학(AIME 2025), 과학(GPQA), 그리고 ‘Humanity’s Last Exam’이라는 고난도 문제집에서도 강력한 성능을 보여줬습니다. 주요 모델들과의 비교 결과를 보면, 먼저 Gemini 2.5는 추론(reasoning), 과학, 수학 벤치마크에서 GPT-4.5를 상회하는 성능을 기록했습니다. 또한, Claude 계열 모델 대비 추론(reasoning)과 멀티모달 처리 성능 면에서 Gemini 2.5가 앞섰습니다. 그 외에도 Gemini 2.0 대비 2.5 모델은 코드 생성과 문맥 처리에서 큰 도약을 이뤘습니다. 특히, Agent 기반 코드 처리에서는 SWE-bench Verified 기준 63.8% 성능을 달성했습니다.

:scroll: Gemini 2.5 출시 블로그




이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. :hugs:

:pytorch:파이토치 한국 사용자 모임:kr:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:gift: 아래:arrow_lower_right:쪽에 좋아요:+1:를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~ :star_struck:

1개의 좋아요