Anthropic, 고급 소프트웨어 엔지니어링과 향상된 비전 기능을 갖춘 Claude Opus 4.7 출시

Claude Opus 4.7 소개

Anthropic이 최신 모델 Claude Opus 4.7을 정식 출시했습니다. Opus 4.7은 전작 Opus 4.6 대비 고급 소프트웨어 엔지니어링 영역에서 눈에 띄는 성능 향상을 이루었으며, 특히 가장 난이도 높은 작업에서 두드러진 개선을 보입니다. 개발자들은 이전까지 긴밀한 감독이 필요했던 고난도 코딩 작업을 Opus 4.7에 자신 있게 위임할 수 있게 되었다고 보고하고 있습니다.

Opus 4.7은 복잡하고 장기간 실행되는 작업을 엄밀하고 일관되게 처리하며, 지시 사항을 세밀하게 파악하고, 결과를 보고하기 전에 스스로 출력을 검증하는 방법을 고안합니다. 또한 비전 기능이 크게 향상되어 더 높은 해상도의 이미지를 처리할 수 있게 되었고, 전문적인 작업에서 인터페이스, 슬라이드, 문서를 더욱 세련되게 생성합니다. Anthropic의 가장 강력한 모델인 Claude Mythos Preview보다 전체적인 역량은 낮지만, Opus 4.6 대비 다양한 벤치마크에서 더 나은 결과를 보입니다.

Claude Opus 4.7 벤치마크 비교

핵심 개선 사항

  • 고급 소프트웨어 엔지니어링: 가장 어려운 코딩 작업에서 Opus 4.6보다 의미 있는 성능 향상. CursorBench에서 70% 대 58%, Rakuten-SWE-Bench에서 Opus 4.6 대비 3배 더 많은 프로덕션 태스크 해결
  • 향상된 비전(Vision): 이미지를 최대 2,576픽셀(긴 변 기준, 약 3.75메가픽셀)까지 처리 가능. 기존 Claude 모델 대비 3배 이상의 해상도로, 고밀도 스크린샷 판독, 복잡한 다이어그램에서의 데이터 추출, 픽셀 단위 정밀도가 필요한 작업에 활용 가능
  • 지시 사항 정확한 이행: 이전 모델이 지시를 느슨하게 해석하거나 일부를 건너뛰던 것과 달리, Opus 4.7은 지시를 문자 그대로 수행. 기존 프롬프트를 재조정할 필요가 있을 수 있음
  • 파일 시스템 메모리 활용: 장기 멀티세션 작업에서 중요한 메모를 기억하고 활용하는 능력 향상
  • 실무 성과: 금융 분석, 법률 문서 검토, 코드 리뷰 등 경제적 가치를 지닌 지식 작업을 평가하는 GDPval-AA 벤치마크에서 최고 수준 달성

새롭게 함께 출시되는 기능들

xhigh 노력 수준 도입

Opus 4.7과 함께 새로운 xhigh("extra high") 노력(effort) 수준이 도입됩니다. 기존 highmax 사이에 위치한 이 단계는 어려운 문제에서 추론과 지연 시간 간의 균형을 더 세밀하게 조정할 수 있게 해줍니다. Claude Code에서는 모든 플랜의 기본 노력 수준이 xhigh로 상향 조정되었습니다. 코딩 및 에이전트 활용 사례를 테스트할 때는 high 또는 xhigh 노력 수준으로 시작하는 것을 권장합니다.

Task Budgets (공개 베타)

Claude API에서 태스크 버짓(Task Budgets) 이 공개 베타로 출시됩니다. 개발자들이 Claude의 토큰 소비를 유도하여 장기 실행 작업 전반에 걸쳐 작업의 우선순위를 정할 수 있는 기능입니다.

Claude Code의 /ultrareview 명령어

Claude Code에 새로운 /ultrareview 슬래시 명령어가 추가되었습니다. 변경 사항을 꼼꼼히 읽어 꼼꼼한 검토자가 발견할 버그와 설계 문제를 플래그하는 전용 리뷰 세션을 생성합니다. Pro 및 Max Claude Code 사용자에게 세 번의 무료 ultrareview 기회가 제공됩니다. 또한 자동 모드(Auto mode)가 Max 사용자에게도 확장되어, Claude가 사용자 대신 결정을 내릴 수 있어 더 적은 중단으로 더 긴 작업을 실행할 수 있습니다.

사이버 안전장치와 Cyber Verification Program

지난주 Anthropic은 Project Glasswing을 발표하며 사이버보안 분야에서 AI 모델이 지닌 위험성과 이점을 다루었습니다. Opus 4.7은 이 계획의 첫 번째 모델로, 사이버 역량이 Mythos Preview에 비해 덜 발전되어 있으며 훈련 과정에서 이러한 역량을 차별적으로 줄이는 시도를 실험했습니다.

Opus 4.7에는 금지되거나 위험도 높은 사이버보안 용도의 요청을 자동으로 감지하고 차단하는 안전장치가 탑재됩니다. 취약성 연구, 침투 테스트, 레드팀 작업 등 합법적인 사이버보안 목적으로 Opus 4.7을 활용하고자 하는 보안 전문가는 Cyber Verification Program에 참여할 수 있습니다.

안전성 및 정렬(Alignment)

Opus 4.7 안전성 평가 결과

전반적으로 Opus 4.7은 Opus 4.6과 유사한 안전 프로파일을 보입니다. 정직성 및 악의적인 프롬프트 인젝션 공격에 대한 저항성 등 일부 항목에서는 Opus 4.6보다 개선되었으나, 규제 물질에 대한 과도하게 상세한 위험 감소 조언 제공 경향 등 일부 항목에서는 소폭 약화되었습니다. 정렬 평가 결과 해당 모델은 "대체로 잘 정렬되고 신뢰할 수 있지만, 행동이 완전히 이상적이지는 않다"는 결론이 도출되었습니다. Mythos Preview는 여전히 가장 잘 정렬된 모델로 평가받고 있습니다. 전체 안전성 평가 내용은 Claude Opus 4.7 System Card에서 확인할 수 있습니다.

Opus 4.6에서 Opus 4.7로 마이그레이션

Opus 4.7은 Opus 4.6의 직접적인 업그레이드이지만, 토큰 사용량에 영향을 미치는 두 가지 변경 사항을 사전에 계획하는 것이 좋습니다.

첫째, Opus 4.7은 텍스트 처리 방식을 개선한 업데이트된 토크나이저(Tokenizer) 를 사용합니다. 동일한 입력이 콘텐츠 유형에 따라 대략 1.0~1.35배 더 많은 토큰으로 변환될 수 있습니다. 둘째, Opus 4.7은 에이전트 환경의 후반 턴(turn)에서, 특히 높은 노력 수준에서 더 많이 "생각(think)"합니다. 이는 어려운 문제에서의 신뢰성을 높이지만 출력 토큰이 증가함을 의미합니다.

토큰 사용량은 노력 파라미터 조정, 태스크 버짓 설정, 또는 모델에 더 간결하게 응답하도록 프롬프팅하는 방식으로 제어할 수 있습니다. 자세한 내용은 마이그레이션 가이드를 참고하세요.

노력 수준별 토큰 사용량 대비 점수

가격 및 이용 가능 플랫폼

Opus 4.7은 Opus 4.6과 동일한 가격 체계를 유지합니다.

구분 가격
입력 토큰 $5 / 100만 토큰
출력 토큰 $25 / 100만 토큰

모든 Claude 제품 및 API에서 오늘부터 이용 가능하며, Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry에서도 지원됩니다. 개발자는 Claude API에서 claude-opus-4-7 모델 ID로 사용할 수 있습니다.

:scroll: Claude Opus 4.7 소개 블로그

:scroll: Claude Opus 4.7 System Card




이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. :hugs:

:pytorch:파이토치 한국 사용자 모임:south_korea:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:wrapped_gift: 아래:down_right_arrow:쪽에 좋아요:+1:를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~ :star_struck:

1개의 좋아요