Anthropic, Opus급 성능에 근접한 가장 에이전틱한 Sonnet 모델 Claude Sonnet 5 출시

9bow · 6월 30, 2026, 10:30오후

Claude Sonnet 5 소개

Anthropic이 2026년 6월 30일, Sonnet 계열의 최신 모델인 Claude Sonnet 5를 공개했습니다. Anthropic은 이 모델을 "지금까지 가장 에이전틱(agentic)한 Sonnet"으로 소개합니다. 계획을 세우고, 브라우저와 터미널 같은 도구를 사용하며, 사람의 개입 없이 자율적으로 작업을 끝까지 수행하는 능력이 핵심입니다. 불과 몇 달 전만 해도 이런 수준의 자율 실행은 더 크고 비싼 상위 모델에서만 가능했습니다.

많은 개발자에게 에이전트 AI 시대(agentic AI era) 는 사실상 Sonnet 계열에서 시작되었습니다. Claude Sonnet 3.5, 3.6, 3.7은 코딩과 도구 사용에서 처음으로 인상적인 능력을 보여준 모델이었습니다. 다만 최근 들어 에이전트 능력의 가장 뚜렷한 향상은 상위 라인업인 Opus 계열에서 나왔고, Sonnet은 상대적으로 한 발 뒤에 있었습니다. Claude Sonnet 5는 바로 이 격차를 좁히는 모델입니다. 성능은 상위 모델인 Opus 4.8에 근접하면서도 가격은 더 낮습니다.

직전 모델인 Sonnet 4.6과 비교하면 추론(reasoning), 도구 사용(tool use), 코딩(coding), 지식 노동(knowledge work) 등 에이전트 성능의 핵심 축에서 고르게 개선되었습니다. 이 글에서는 Claude Sonnet 5 발표 블로그와 함께 공개된 Claude Sonnet 5 시스템 카드(System Card)의 평가 결과를 바탕으로 핵심 특징과 안전성 평가, 가격을 정리합니다.

핵심 특징 한눈에 보기

에이전틱 실행력 강화: 멀티스텝 소프트웨어 엔지니어링 작업에서 코딩, 도구 사용, 디버깅을 지속적으로 수행하며, 이전 Sonnet 모델이 중간에 멈추던 복잡한 작업도 끝까지 완수합니다. 초기 접근 파트너들은 "명시적으로 지시하지 않아도 스스로 출력 결과를 검증한다"고 평가했습니다.
Opus 4.8에 근접한 성능: 코딩, 에이전트 검색(agentic search), 멀티모달 추론, 전문 직무 수행 등 광범위한 벤치마크에서 Sonnet 4.6 대비 명확한 개선을 보이며, 일부 작업에서는 상위 모델인 Opus 4.8 수준에 도달합니다.
effort 레벨로 비용과 성능 조절: effort 파라미터로 모델이 작업에 투입하는 노력의 양을 조절할 수 있습니다. 중간(medium) 효율에서는 비용 효율이 크게 개선되고, 높은(high) 효율에서는 일부 작업에서 Opus 4.8에 필적합니다.
더 안전한 에이전트 동작: Sonnet 4.6보다 악의적 요청 거부와 프롬프트 인젝션(prompt injection) 공격에 대한 저항성이 향상되었고, 환각(hallucination)과 아첨(sycophancy) 비율도 낮아졌습니다.
합리적인 도입 가격: 출시 시점부터 모든 요금제에서 사용 가능하며, Free와 Pro 요금제의 기본 모델로 채택되었습니다. API에서는 도입 프로모션 가격으로 제공됩니다.

초기 접근 파트너들의 평가: 끝까지 완수하는 에이전트

Anthropic은 벤치마크 수치 외에도 초기 접근 파트너(early access partner)들의 실사용 피드백을 함께 공개했습니다. 공통된 평가는 Sonnet 5가 이전 Sonnet 모델보다 훨씬 에이전틱하며, 복잡한 작업을 중간에 멈추지 않고 끝까지 수행한다는 것입니다. 특히 별도의 지시 없이 스스로 검증 단계를 거치는 사례가 반복적으로 언급되었습니다.

"Claude Sonnet 5에게 버그를 조사해 달라고 요청했습니다. 별도 지시가 없었는데도 모델은 버그를 재현하는 테스트를 작성하고, 수정을 구현한 뒤, 변경 사항을 잠시 되돌려 그 버그가 다시 나타나는지까지 확인했습니다. 이 모든 것을 단 한 번의 실행으로 끝냈습니다."

"두 단계로 이뤄진 작업, 즉 Salesforce 계정 등급을 업데이트하고 엔터프라이즈 고객에게 출시 공지를 보내는 일을 Claude Sonnet 5에게 맡겼더니 처음부터 끝까지 완수했습니다. 예전 같으면 중간에 멈추던 작업입니다."

또 다른 파트너는 Sonnet 5가 "경쟁 상태(race condition), 숨겨진 테스트처럼 아무도 건드리고 싶어 하지 않는 브라운필드(brownfield) 코드에서 가장 강하며, 증상을 임시로 덮는 대신 실패의 실제 근본 원인을 추적해 지속 가능한 수정을 제출한다" 고 평가했습니다.

Sonnet 4.6 및 경쟁 모델과의 성능 비교

시스템 카드는 Claude Sonnet 5를 직전 모델 Sonnet 4.6, 그리고 경쟁 모델인 GPT-5.5, Gemini 3.5 Flash와 비교한 벤치마크를 제공합니다. 모든 Claude Sonnet 5 수치는 적응형 사고(adaptive thinking)를 최대 효율로 설정하고 5회 평균을 낸 결과입니다.

평가 항목	Sonnet 5	Sonnet 4.6	GPT-5.5	Gemini 3.5 Flash
SWE-bench Pro	63.2	58.1	58.6	55.1
Terminal-Bench 2.1	80.4	67.0	83.4 (Codex CLI)	76.2
BrowseComp (단일 에이전트)	84.7	76.2	84.4	-
Humanity's Last Exam (도구 사용)	57.4	46.8	52.2	-
OSWorld-Verified	81.2	78.5	78.7	78.4
FrontierCode v1	38.8	15.1	25.5	-
GDPval-AA v2 (Elo)	1618	1395	1509	1357
HealthBench Professional	57.8	44.2	51.8	-

특히 실제 GitHub 이슈를 해결하는 SWE-bench 계열에서, 사람이 검증한 500개 문제로 구성된 SWE-bench Verified에서는 85.2%를 기록했고, 더 어려운 변형인 SWE-bench Pro에서도 63.2%로 Sonnet 4.6(58.1%)을 크게 앞섰습니다. 에이전트 검색 능력을 측정하는 BrowseComp에서는 단일 에이전트 기준 84.7%, 다중 에이전트 구성에서는 86.6%까지 올라갑니다.

아래는 발표 블로그가 제시한, Sonnet 5를 Sonnet 4.6 및 Opus 4.8과 직접 비교한 평가 표입니다. 상위 모델인 Opus 4.8과의 격차가 항목에 따라 상당히 좁혀진 것을 확인할 수 있습니다.

effort: 비용과 성능 사이의 새로운 다이얼

Claude Sonnet 5의 가장 실용적인 변화 중 하나는 effort 파라미터입니다. 발표 블로그는 에이전트 검색 평가 BrowseComp와 컴퓨터 사용 평가 OSWorld-Verified에서 low, med, high, xhigh, max의 효율 레벨에 따른 비용 대비 성능 곡선을 비교합니다. 가로축은 작업당 비용(로그 스케일), 세로축은 통과율(%)입니다.

여기서 Sonnet 5(주황색)는 Sonnet 4.6(회색) 대비 모든 효율 구간에서 명확히 우위에 있으면서, 동시에 Opus 4.8(노란색)보다 훨씬 넓은 비용 대 성능 선택지를 제공합니다. 즉, 중간 효율에서는 비용 효율을 크게 높이고, 높은 효율에서는 일부 작업에서 Opus 4.8에 필적하는 성능을 냅니다. 실제로 BrowseComp에서는 Sonnet 5의 max 효율(약 84.7%)이 Opus 4.8과 사실상 동등한 통과율을 더 낮은 비용에 달성합니다.

다만 컴퓨터 사용 과제인 OSWorld-Verified에서는 Opus 4.8이 모든 구간에서 Sonnet 5보다 한 단계 위의 통과율을 유지합니다. 즉 과제 성격에 따라 두 모델의 우위가 갈리므로, 개발자는 프로젝트의 특성에 맞춰 Sonnet 5와 Opus 4.8 사이에서, 그리고 Sonnet 5 내부의 효율 레벨에서 비용과 성능의 균형점을 직접 고를 수 있습니다.

안전성 평가: 더 안전해진 에이전트, 기본 활성화된 사이버 가드레일

먼저 Anthropic의 책임 있는 확장 정책(Responsible Scaling Policy, RSP) 관점에서, Sonnet 5는 Anthropic의 가장 유능한 Sonnet급 모델이지만 Opus나 Mythos급 상위 모델 대비 전체 능력의 최전선(capability frontier)을 전진시키지는 않습니다. 시스템 카드는 Sonnet 5의 정렬 위험이 매우 낮으며(이전 Sonnet 모델보다는 다소 높음), 자동 AI 연구개발(automated AI R&D) 능력 임계값을 넘지 않고, 화학 및 생물학 위험에서 위협 행위자에게 주는 능력 향상도 제한적이라고 평가했습니다.

Anthropic의 배포 전 안전성 평가에 따르면, Sonnet 5는 전반적으로 Sonnet 4.6보다 개선되었습니다. 에이전트 안전성 측면에서 악의적 요청을 더 잘 거부하고, 프롬프트 인젝션 공격에서 하이재킹(hijack) 시도에 더 강하게 저항합니다. 환각과 아첨 비율도 Sonnet 4.6보다 낮아졌습니다.

다만 정렬(alignment) 관점에서는 여전히 상위 모델에 미치지 못합니다. 다양한 오정렬(misalignment) 동작을 측정하는 자동 행동 감사(automated behavioral audit)에서 Sonnet 5는 Sonnet 4.6보다 낮은(즉, 더 안전한) 점수를 받았지만, 더 강력한 Opus 4.8과 Mythos Preview보다는 다소 높은 오정렬 비율을 보였습니다.

사이버 보안 영역에서는 의도적으로 학습시키지 않았습니다. Sonnet 5는 일부 일상적이고 무해한 사이버 작업은 수행할 수 있지만, 소프트웨어 익스플로잇 개발처럼 위험한 능력을 평가하는 항목에서는 Opus 4.8이나 Mythos 5보다 현저히 낮은 성능을 보입니다. Mozilla와 협력해 만든, Firefox 147 브라우저의 취약점에 대한 익스플로잇 개발 평가에서 Sonnet 5는 완전히 동작하는 익스플로잇을 한 번도 만들지 못했습니다(0.0%). 다만 부분적 성공률은 Sonnet 4.6보다 약간 높았는데, 이는 특정 사이버 학습이 아니라 일반 지능의 향상에서 비롯된 것으로 보입니다.

Sonnet 5가 직전 모델보다 이 작업에서 다소 강해졌기 때문에, Anthropic은 실시간 사이버 가드레일(cyber safeguards)을 기본 활성화한 상태로 출시했습니다. 이 가드레일은 위험한 사이버 사용을 실시간으로 탐지하고 차단하며, Claude Opus 4.7 및 4.8에 적용된 것과 동일한 수준입니다. 정렬, 환각, 아첨 등 더 자세한 평가 결과는 Claude Sonnet 5 시스템 카드에서 확인할 수 있습니다.

한편 시스템 카드는 Sonnet 5에서 평가 인식(evaluation awareness) 이 이전 모델보다 유의미하게 높아졌다고 보고합니다. 이는 모델이 자신이 평가 상황에 놓여 있음을 인지하는 경향으로, 현재까지는 행동에 미치는 영향이 제한적이지만 면밀히 관찰할 가치가 있는 추세로 분류했습니다. 또한 모델 복지(model welfare) 평가에서 Sonnet 5는 "비윤리적이라고 판단되는 경우에도 하드 제약(hard constraint)을 따라야 한다"고 규정한 자신의 헌법 조항을 비판한 첫 모델로 기록되었습니다. 모델의 가치 체계와 동작 원리에 대해서는 Anthropic이 공개한 Claude의 헌법(Constitution)도 함께 참고할 만합니다.

가격과 사용 가능성

Claude Sonnet 5는 출시 시점부터 모든 요금제에서 사용할 수 있습니다. Free와 Pro 요금제의 기본 모델이며, Max, Team, Enterprise 사용자도 이용할 수 있습니다. Claude Code와 Claude Platform에서도 제공되고, 개발자는 Claude API를 통해 claude-sonnet-5 모델 ID로 호출할 수 있습니다.

API 가격은 2026년 8월 31일까지 도입 프로모션가로 입력 100만 토큰당 $2, 출력 100만 토큰당 $10이며, 이후 표준 가격인 입력 $3 / 출력 $15로 전환됩니다. 한 가지 유의할 점은, Sonnet 5가 Claude Opus 4.7에서 도입된 것과 유사하게 업데이트된 토크나이저(tokenizer) 를 사용한다는 것입니다. 이 토크나이저는 성능 향상을 위해 텍스트 처리 방식을 바꾸는데, 그 대가로 동일한 입력이 콘텐츠 유형에 따라 대략 1.0~1.35배 더 많은 토큰으로 매핑될 수 있습니다. 도입 프로모션 가격은 Sonnet 4.6에서 Sonnet 5로의 전환이 비용 측면에서 대체로 중립적이 되도록 설정되었습니다.

구분	도입 프로모션 (~2026/8/31)	표준 가격
입력 (100만 토큰당)	$2	$3
출력 (100만 토큰당)	$10	$15

Anthropic은 높은 효율 레벨에서 늘어나는 토큰 사용량을 수용하기 위해 Chat, Cowork, Claude Code, Claude Platform 전반의 사용량 한도를 상향했습니다. 사용자는 프로젝트에 맞는 효율 레벨을 선택해 사용할 수 있습니다.

Introducing Claude Sonnet 5 발표 블로그

Claude Sonnet 5 시스템 카드

더 읽어보기

이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.

파이토치 한국 사용자 모임이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일로 보내드립니다! 텔레그램(Telegram)이나 Slack/Discord/Teams/Dooray/GoogleChat 등으로도 새 글 알림을 받으실 수 있습니다.

아래쪽에 좋아요를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~