Anthropic, AI Coding에 특화된 Claude Sonnet 4.5 모델 및 Claude Agent SDK, Chrome 확장 등 공개

Claude Sonnet 4.5 소개

Anthropic이 공개한 Claude Sonnet 4.5는 최신 AI 코딩 모델로, 현재까지 발표된 모델 중 가장 강력한 성능을 자랑합니다. 이번 모델은 복잡한 에이전트를 구축하고, 실제 컴퓨터 환경에서 작업을 수행하며, 수학적 추론 능력과 문제 해결 능력에서도 큰 발전을 보여주었습니다. 단순히 텍스트 기반 대화형 AI를 넘어서 실제 개발 환경에서 프로그래머의 효율성을 극대화할 수 있는 기능을 갖춘 점이 특징입니다.

코드와 소프트웨어는 오늘날 모든 업무의 핵심 도구입니다. 애플리케이션, 스프레드시트, 개발 툴까지 모두 코드 위에서 작동하며, 이를 효과적으로 다루는 능력은 곧 생산성과 직결됩니다. Claude Sonnet 4.5는 이러한 요구에 맞춰 장시간 맥락을 유지하면서도 정밀한 분석과 실행을 수행할 수 있어, 실제 산업 현장에서 개발자들이 체감할 수 있는 수준의 변화를 제공합니다.

이번 공개는 단순히 모델 성능 향상에 그치지 않고, 개발자들을 위한 Claude Code 확장 기능, VS Code 네이티브 확장 프로그램(Native VS Code Extension, Claude Agent SDK, (스프레드시트, 슬라이드, 문서 등의) 파일 생성 및 실행 기능 등 다양한 도구와 함께 이뤄졌습니다. 또한 브라우저에서 직접 AI를 활용할 수 있는 Claude for Chrome 확장 프로그램 도 새롭게 제공되어, AI가 단순 보조를 넘어서 실제 개발 및 업무 흐름에 깊게 통합되는 방향성을 보여주고 있습니다.

Anthropic은 이번 모델에서 특히 코딩 능력과 추론 능력에 초점을 맞추었는데, 이는 OpenAI의 GPT-5나 Google DeepMind의 Gemini 모델과 직접 비교되는 영역입니다. SWE-bench Verified 평가에서 Sonnet 4.5는 77.2%라는 최고 성능을 기록했으며, 이는 GPT-5 및 Gemini 모델 대비 더 높은 정확도를 보여주었습니다. 또한 OSWorld 벤치마크에서도 61.4%로 이전 Sonnet 4보다 크게 향상되었는데, 이는 실제 운영체제 환경에서의 작업 수행 능력이 비약적으로 발전했음을 의미합니다.

즉, GPT-5가 언어 이해와 대규모 추론에서 강점을 가지는 한편, Claude Sonnet 4.5는 장시간 코드 실행, 멀티스텝 추론, 대규모 코드베이스 관리와 같은 실질적 개발 시나리오에서 보다 특화된 경쟁력을 확보했다고 볼 수 있습니다. Gemini가 멀티모달 이해에 초점을 두고 있는 것과도 대조적으로, Sonnet 4.5는 “실무용 AI 개발 파트너”에 가까운 전략을 택하고 있습니다.

Claude Sonnet 4.5 모델의 주요 기능

  • 장시간 작업 유지 및 SWE-bench Verified 최고 성능: Claude Sonnet 4.5는 복잡한 작업을 30시간 이상 이어가며 맥락을 유지할 수 있는 능력을 갖추었습니다. SWE-bench Verified라는 실제 소프트웨어 코딩 평가에서는 최고 성능을 기록하며, 장기간 이어지는 문제 해결에서 다른 모델보다 안정적인 성능을 보였습니다.

  • 실질적인 컴퓨터 활용 능력: OSWorld 평가에서는 42.2%였던 Sonnet 4 대비 Sonnet 4.5가 **61.4%**로 비약적인 향상을 달성했습니다. 이는 단순히 코드 작성뿐만 아니라 브라우저 탐색, 스프레드시트 작성, 파일 생성 등 실제 업무에서 활용 가능한 다양한 기능 수행 능력을 의미합니다.

  • 업계 도입 사례: Cursor, GitHub Copilot, Canva, Figma, Devin 등 다양한 기업과 제품들이 Sonnet 4.5의 성능 향상을 언급했습니다.

    • Cursor: 장기 코딩 작업에서 최고 수준의 성능 확인
    • GitHub Copilot: 코드베이스 전반의 복잡한 문제 해결 능력 강화
    • Canva: 수억 명의 사용자가 AI를 활용해 더 창의적인 디자인 가능
    • Figma: 프로토타이핑 및 인터랙션 품질 향상

    이러한 사례는 Sonnet 4.5가 단순한 성능 지표를 넘어 실제 산업 현장에서 가치를 창출하고 있음을 보여줍니다.

안전성과 정렬(Alignment)

Sonnet 4.5는 Anthropic의 AI Safety Level 3(ASL-3) 기준에 따라 공개되었습니다. 이는 모델이 자율적이고 강력한 기능을 수행하면서도, 위험한 사용을 방지하기 위해 강화된 필터링 및 분류기를 탑재했다는 의미입니다. 특히 프롬프트 인젝션 공격 방어, 허위 정보 감소, 과도한 아부나 권력 추구 억제 등 안전성에서 큰 진전을 이루었다고 합니다.

또한 이번에는 기계적 해석 가능성(mechanistic interpretability) 기법을 활용한 안전성 평가가 포함되었으며, 이는 모델 내부 작동 방식에 대한 더 깊은 이해를 제공하는 연구적 진전으로 평가됩니다. 자세한 내용은 Claude Sonnet 4.5 시스템 카드에서 확인할 수 있습니다.

Claude Agent SDK

Anthropic은 내부적으로 Claude Code를 구축하면서 얻은 인프라와 경험을 SDK 형태인 Claude Agent SDK로 공개했습니다. 이를 통해 개발자들은 단순히 Claude 모델을 호출하는 수준을 넘어서, 메모리 관리, 권한 시스템, 서브에이전트 협력 구조를 갖춘 맞춤형 AI 에이전트를 구축할 수 있습니다. 이로써 Sonnet 4.5는 단순한 모델 제공을 넘어 개발자들이 직접 AI 에이전트를 설계하고 확장할 수 있는 생태계를 제공하게 되었습니다.

Imagine with Claude – 연구 프리뷰

추가로 Anthropic은 “Imagine with Claude”라는 실험적 기능을 5일간 제공하고 있습니다. 이 기능은 사전 정의된 코드 없이, 사용자의 요청에 따라 실시간으로 소프트웨어를 생성하는 연구 프리뷰입니다. 이는 Sonnet 4.5의 창의적 활용 가능성을 보여주는 흥미로운 시도로, 단순 자동완성을 넘어선 동적 코드 생성과 상호작용적 개발 경험을 확인할 수 있습니다.

:scroll: Anthropic의 Claude Sonnet 4.5 공개 블로그

:package: Claude Agent SDK

:chrome: Claude for Chrome Extension 소개

:chrome: Claude for Chrome Extension 미리보기(Preview) 참여하기

https://claude.ai/chrome

:package: Native VS Code Extension




이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. :hugs:

:pytorch:파이토치 한국 사용자 모임:south_korea:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:wrapped_gift: 아래:down_right_arrow:쪽에 좋아요:+1:를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~ :star_struck: