GPT-5.5 소개
OpenAI가 자사의 가장 똑똑하고 직관적인 모델이라고 소개한 GPT-5.5 와 그 상위 버전인 GPT-5.5 Pro 를 공개했습니다. GPT-5.5는 단순히 한 번의 답변을 잘 생성하는 모델이 아니라, 사용자가 어수선하고 다단계로 얽힌 작업을 던졌을 때 스스로 계획을 세우고, 도구를 호출하고, 중간 결과를 검증하며, 모호함 속에서도 작업을 끝까지 밀고 나가는 데 초점이 맞춰져 있습니다. OpenAI는 이번 출시를 두고 "컴퓨터로 일을 처리하는 새로운 방식을 향한 다음 한 걸음"이라고 표현하고 있는데, 이는 Anthropic의 Claude Code, Google의 Gemini 3, Cursor 등이 만들어 가는 에이전틱 개발 도구 흐름과 같은 방향을 가리킵니다.
핵심 개선이 두드러지는 영역은 에이전틱 코딩(agentic coding), 컴퓨터 사용(computer use), 지식 노동(knowledge work), 그리고 초기 단계의 과학 연구(early scientific research) 입니다. 이들은 모두 모델이 긴 맥락을 가로질러 사고하면서, 시간 위에 걸쳐 일련의 행동을 일관되게 수행해야 하는 영역입니다. 흥미로운 점은 GPT-5.5가 더 큰 지능을 가지면서도 이전 모델인 GPT-5.4와 동일한 수준의 토큰당 지연 시간(per-token latency)을 유지한다는 점이며, 동일한 Codex 작업을 더 적은 토큰으로 완료하기 때문에 효율 측면에서도 한 단계 진보했다고 평가됩니다.
이러한 기능적 도약과 함께 OpenAI는 사상 가장 강력한 안전장치를 함께 적용했다고 강조합니다. 약 200개의 신뢰할 수 있는 사전 사용 파트너로부터 실제 사용 사례 피드백을 수집하고, 사이버 보안 및 생물학 분야에 특화된 레드팀 평가를 추가로 진행했으며, Preparedness Framework 전반에 걸친 재평가를 거친 것이 그 골자입니다. 2026년 4월 24일자 업데이트로 GPT-5.5와 GPT-5.5 Pro는 ChatGPT/Codex뿐 아니라 API에서도 이용 가능해졌습니다.
한눈에 보는 GPT-5.5 핵심 특징
GPT-5.5의 변화를 이해할 때 도움이 되는 핵심 포인트는 다음과 같습니다.
- 에이전틱 코딩에서의 SOTA 달성: Terminal-Bench 2.0에서 82.7%, Expert-SWE(내부)에서 73.1%를 기록하여 Claude Opus 4.7 및 Gemini 3.1 Pro 대비 우위를 보입니다.
- 컴퓨터 사용 성능 강화: OSWorld-Verified에서 78.7%를 달성하여, GUI 환경에서 클릭, 입력, 도구 이동을 포함한 실제 컴퓨터 조작 능력이 크게 개선되었습니다.
- 장문 컨텍스트의 비약적 개선: Graphwalks BFS 1M 토큰 평가에서 9.4%(GPT-5.4) → 45.4%(GPT-5.5)로 도약했고, MRCR v2 512K-1M 구간 점수도 36.6% → 74.0%로 두 배 이상 상승했습니다.
- 추상 추론의 진전: ARC-AGI-2(검증) 점수가 GPT-5.4의 73.3%에서 85.0%로 올라, ARC Prize가 추구하는 일반 추론 능력에서도 분명한 진전을 보였습니다.
- 과학 연구 협업력: GeneBench, BixBench, 그리고 내부 버전이 도출한 Ramsey 수에 대한 새로운 증명에서 보듯, 다단계 과학적 분석과 수학 연구를 보조하는 능력이 강화되었습니다.
- 속도와 효율: 동일한 Codex 작업에서 GPT-5.4보다 적은 토큰을 사용하면서도 더 높은 정확도를 달성하며, Artificial Analysis Coding Index 기준으로 경쟁 프론티어 코딩 모델 대비 절반 가격으로 SOTA 지능을 제공한다고 보고되었습니다.
GPT-5.4와의 주요 벤치마크 비교
GPT-5.5의 변화를 가장 직관적으로 보여주는 표가 OpenAI 발표에 포함된 핵심 벤치마크 비교입니다. 아래 표는 발표 자료에서 대표적인 평가만 추려 정리한 것으로, 코딩, 컴퓨터 사용, 도구 활용, 학술 영역 모두에서 GPT-5.4 대비 일관된 개선을 보여줍니다.
| 평가 | GPT-5.5 | GPT-5.4 | GPT-5.5 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
|---|---|---|---|---|---|
| Terminal-Bench 2.0 | 82.7% | 75.1% | - | 69.4% | 68.5% |
| Expert-SWE (내부) | 73.1% | 68.5% | - | - | - |
| GDPval (승 또는 무승부) | 84.9% | 83.0% | 82.3% | 80.3% | 67.3% |
| OSWorld-Verified | 78.7% | 75.0% | - | 78.0% | - |
| BrowseComp | 84.4% | 82.7% | 90.1% | 79.3% | 85.9% |
| FrontierMath Tier 1-3 | 51.7% | 47.6% | 52.4% | 43.8% | 36.9% |
| FrontierMath Tier 4 | 35.4% | 27.1% | 39.6% | 22.9% | 16.7% |
| ARC-AGI-2 (Verified) | 85.0% | 73.3% | - | 75.8% | 77.1% |
| CyberGym | 81.8% | 79.0% | - | 73.1% | - |
특히 BrowseComp, FrontierMath Tier 1-4 등 더 어려운 추론과 탐색 능력이 필요한 평가에서 GPT-5.5 Pro가 두드러진 성과를 보이고 있어, "더 어려운 문제를 풀어야 하는 사용자"에게 명확한 가치 차별점이 마련된 셈입니다.
에이전틱 코딩의 새로운 기준
GPT-5.5의 가장 강한 인상은 코딩 영역에서 옵니다. Terminal-Bench 2.0 은 계획 수립, 반복적 시도, 도구 협조가 필요한 복잡한 명령줄 워크플로우를 평가하는데, GPT-5.5는 82.7%로 SOTA를 기록했습니다. SWE-Bench Pro 에서는 58.6%를 기록하여 실제 GitHub 이슈 해결 능력을 입증했고, OpenAI의 내부 평가인 Expert-SWE 는 사람이 평균 20시간 정도 걸리는 장기 호흡 코딩 과제를 다루는데, 여기서도 GPT-5.4보다 더 적은 토큰으로 더 높은 점수를 기록했습니다.
이러한 향상은 단순한 점수 이상의 의미를 갖습니다. Every의 창립자이자 CEO인 Dan Shipper는 GPT-5.5를 "내가 사용해 본 코딩 모델 중 처음으로 진지한 개념적 명료함을 가진 모델"이라고 평가했습니다. 그는 출시 후 며칠 동안 디버깅하던 문제를 해결하기 위해 결국 베스트 엔지니어를 투입해 시스템 일부를 재작성했는데, GPT-5.5는 깨진 상태만 보고도 그 엔지니어가 도달한 동일한 형태의 재작성을 만들어냈다고 합니다(GPT-5.4는 실패했습니다).
MagicPath의 CEO인 Pietro Schirano는 수백 개의 프론트엔드 및 리팩터링 변경이 쌓인 브랜치를, 비슷한 규모로 변경된 메인 브랜치에 한 번에 약 20분 만에 머지하는 데 GPT-5.5가 단번에 성공했다고 전했습니다. Cursor의 공동창업자이자 CEO인 Michael Truell도 다음과 같이 말했습니다.
"GPT-5.5는 GPT-5.4보다 눈에 띄게 더 똑똑하고 끈질기며, 코딩 성능과 도구 사용 신뢰성이 더 뛰어납니다. 의미 있게 더 오래 작업을 지속하면서 일찍 멈추지 않는데, 이는 Cursor 사용자들이 위임하는 복잡하고 장시간 실행되는 작업에서 가장 중요한 특성입니다."
NVIDIA의 한 엔지니어는 한 발 더 나아가 "GPT-5.5에 대한 접근을 잃는 것이 마치 팔다리를 절단당한 느낌"이라고까지 표현했다고 합니다.
지식 노동과 컴퓨터 사용으로의 확장
GPT-5.5는 코드에만 머물지 않고, 컴퓨터로 수행하는 일상적인 지식 노동 전반에 걸친 능력을 끌어올렸습니다. Codex 안에서는 문서, 스프레드시트, 슬라이드 작성 능력이 향상되어, 알파 테스터들은 운영 리서치, 스프레드시트 모델링, 어수선한 비즈니스 입력을 계획서로 변환하는 작업에서 이전 모델을 앞선다고 보고했습니다. Codex의 컴퓨터 사용 기능과 결합되면 화면을 보고, 클릭하고, 입력하고, 인터페이스를 따라 이동하는 일련의 흐름이 한층 자연스러워집니다.
OpenAI 내부에서는 이미 매주 직원의 85% 이상이 Codex를 사용 중입니다. 커뮤니케이션 팀은 6개월치 강연 요청 데이터를 분석해 점수 및 위험 평가 프레임워크를 만들고, 저위험 요청을 자동 처리하는 Slack 에이전트를 검증했습니다. 재무팀은 24,771건의 K-1 세금 양식(총 71,637페이지)을 GDPR/개인정보 친화적 워크플로우 위에서 검토해 작업을 전년 대비 2주 단축했고, GTM(Go-to-Market) 팀의 한 직원은 주간 비즈니스 리포트 자동 생성으로 매주 5-10시간을 절감했다고 합니다.
ChatGPT 안에서는 GPT-5.5가 두 가지 형태로 제공됩니다.
- GPT-5.5 Thinking: 어려운 문제를 더 빠르고 간결하게 풀어주는 일반 이용자용 추론 모드. 코딩, 리서치, 정보 종합, 문서 중심 작업에 특히 강합니다.
- GPT-5.5 Pro: Pro/Business/Enterprise 사용자를 위한 고난도용. 비즈니스, 법률, 교육, 데이터 사이언스 등에서 응답이 GPT-5.4 Pro 대비 훨씬 포괄적이고 구조화되어 있다고 평가됩니다.
지식 노동 관련 벤치마크에서도 SOTA에 가까운 성적을 보입니다. GDPval에서 84.9%, OSWorld-Verified에서 78.7%, Tau2-bench Telecom (프롬프트 튜닝 없이)에서 98.0%, FinanceAgent 60.0%, OfficeQA Pro 54.1%를 기록했습니다.
과학 연구와 수학에서의 역할 변화
GPT-5.5는 과학 연구 워크플로우에서도 의미 있는 진전을 보였습니다. 연구는 단순히 어려운 문제 하나에 답하는 것을 넘어서, 아이디어를 탐색하고, 증거를 모으고, 가정을 시험하고, 결과를 해석하고, 다음에 무엇을 시도할지 결정하는 반복적인 루프인데, GPT-5.5는 이런 루프를 더 오래 견뎌내는 모델로 묘사됩니다.
새로 도입된 GeneBench는 유전학과 정량 생물학에서의 다단계 데이터 분석 능력을 측정하는데, GPT-5.5는 GPT-5.4 대비 분명한 개선을 보였습니다. 이 평가의 과제들은 흔히 전문가가 며칠에서 수일에 걸쳐 풀어야 하는 종류로, 모호하거나 오류가 섞인 데이터를 다루며 숨은 교란 변수, QC 실패 등 현실적 장애물을 극복해야 합니다. BixBench 등 실제 생명정보학 분석 벤치마크에서도 공개 점수 기준 선두권 성능을 보였고, 일부 사례에서는 사실상 공동 연구자(co-scientist) 수준의 가속을 제공했다고 OpenAI는 평가합니다.
수학 영역에서는 맞춤형 하네스를 결합한 GPT-5.5 내부 버전이 조합론의 핵심 대상인 Ramsey 수에 대한 새로운 증명을 발견했습니다. 결과는 Lean 정리 증명기로 검증되었으며, 비대각 Ramsey 수의 점근적 사실에 대한 결과로 보고되었습니다. Jackson Laboratory for Genomic Medicine의 면역학 교수 Derya Unutmaz는 GPT-5.5 Pro로 62개 샘플과 약 28,000개의 유전자에 걸친 발현 데이터를 분석해, 팀이 수개월 걸렸을 보고서를 단번에 완성했다고 전했습니다.
인프라 측면의 변화: Codex가 Codex를 더 빠르게 만든다
GPT-5.4와 동일한 지연 시간으로 GPT-5.5를 서빙하기 위해, OpenAI는 추론을 단일 통합 시스템으로 다시 설계했습니다. GPT-5.5는 NVIDIA GB200 및 GB300 NVL72 시스템에서 함께 설계되고 학습 및 서빙되었으며, Codex 자체가 인프라 개선을 위한 도구로 적극 활용되었습니다.
대표 사례가 로드 밸런싱과 파티셔닝 휴리스틱입니다. 기존에는 가속기 위에서 요청을 정해진 수의 청크로 나누어 컴퓨팅 코어 간 작업을 분배했는데, 이는 모든 트래픽 패턴에 최적은 아닙니다. Codex는 수 주간의 프로덕션 트래픽 패턴을 분석하고 맞춤형 휴리스틱을 직접 작성하여 GPU 사용 효율을 끌어올렸고, 그 결과 토큰 생성 속도가 20% 이상 향상되었습니다. NVIDIA의 Justin Boitano(VP of Enterprise AI)는 다음과 같이 평가했습니다.
"GPT-5.5는 실행 중심 작업이 요구하는 지속 성능을 제공합니다. NVIDIA GB200 NVL72 시스템 위에서 구축되고 서빙되어, 우리 팀이 자연어 프롬프트로부터 엔드투엔드 기능을 출시하고, 디버깅 시간을 며칠에서 몇 시간으로 단축하며, 복잡한 코드베이스에서 수 주의 실험을 하룻밤의 진전으로 바꿀 수 있게 합니다."
안전성과 Preparedness Framework
GPT-5.5는 OpenAI Preparedness Framework에 따라 생물학/화학 과 사이버 보안 양 영역 모두에서 High 능력으로 분류되었습니다. 동시에 사이버 보안에서 정의된 Critical 임계값(예: "다수의 견고한 실세계 핵심 시스템에서 모든 심각도의 zero-day 익스플로잇을 인간 개입 없이 식별 및 개발")에는 도달하지 않았다고 평가됩니다. 이를 검증하기 위해 OpenAI는 광범위하게 배포된 견고한 소프트웨어 프로젝트들을 대상으로, 단계별 검증기 오라클이 결합된 고-test-time-compute 설정에서 GPT-5.5가 zero-day 익스플로잇을 만들어낼 수 있는지를 테스트했고, 표준 구성에서는 어떤 프로젝트에서도 기능적 critical 익스플로잇을 만들지 못했다고 보고합니다.
이번 출시에는 다음과 같은 강화된 안전 조치가 함께 도입되었습니다.
- 사이버 위협에 대한 분류기 강화: GPT-5.2부터 도입된 사이버 보안 특화 안전장치를 다듬어, 고위험 활동과 민감한 사이버 요청에 대한 통제를 더 촘촘히 했습니다. 합법적인 보안 작업이 차단되는 빈도를 줄이기 위해 Trusted Access for Cyber 프로그램을 통한 인증된 접근 경로도 함께 운영합니다.
- 생물학 영역의 보호장치 유지: GPT-5.4 Thinking 시점부터 적용된 생물학적 위협 관련 안전장치를 유지하면서, 새로운 평가들(ProtocolQA Open-Ended, TroubleshootingBench, 단백질 결합 예측 등)을 추가해 도메인 능력을 정량화했습니다. 외부 평가 기관 SecureBio 및 미국 CAISI와의 협력 평가도 함께 수행되었습니다.
- 공공 인프라 방어 협력: 정부 파트너와 협력해 세무 데이터, 전력망, 상수도 등 공공 인프라 방어에 첨단 AI를 어떻게 활용할 수 있는지 탐색하고 있습니다.
가격, 제공 범위, 컨텍스트 윈도우
GPT-5.5는 ChatGPT의 Plus, Pro, Business, Enterprise 사용자에게 GPT-5.5 Thinking 형태로 롤아웃되며, GPT-5.5 Pro는 Pro/Business/Enterprise 사용자에게 제공됩니다. Codex에서는 Plus, Pro, Business, Enterprise, Edu, Go 플랜에서 사용 가능하며 400K 컨텍스트 윈도우 와 Fast 모드(2.5배 비용으로 1.5배 빠른 토큰 생성) 를 지원합니다.
API에서는 Responses API와 Chat Completions API 모두에서 사용 가능하며, 모델 ID는 gpt-5.5(스냅샷 gpt-5.5-2026-04-23)이고 1,050,000 토큰의 컨텍스트 윈도우 와 128K 출력 토큰을 지원합니다. 가격 구조는 다음과 같습니다.
| 항목 | gpt-5.5 | gpt-5.5-pro | gpt-5.4 (참고) |
|---|---|---|---|
| 입력 토큰 (1M) | $5.00 | $30.00 | $2.50 |
| 캐시 입력 (1M) | $0.50 | - | - |
| 출력 토큰 (1M) | $30.00 | $180.00 | - |
| 컨텍스트 윈도우 | 1,050,000 | 1,050,000 | 256K |
| Batch / Flex | 표준의 0.5배 | 표준의 0.5배 | - |
| Priority | 표준의 2.5배 | 표준의 2.5배 | - |
또한 272K 입력 토큰을 초과하는 프롬프트는 해당 세션 전체에 대해 입력 2배, 출력 1.5배의 가격이 적용되며, 데이터 레지던시(regional processing) 엔드포인트는 10% 할증이 붙습니다. reasoning.effort는 none, low, medium(기본), high, xhigh까지 지원되며, GPT-5.5의 지식 컷오프는 2025년 12월 1일입니다.
시사점
GPT-5.5의 출시는 단순한 성능 갱신이라기보다, "긴 시간 동안 컴퓨터 위에서 일하는 모델"이라는 방향성을 더 분명히 해 준 사건입니다. Terminal-Bench 2.0, OSWorld-Verified, Graphwalks 1M 등의 지표가 동시에 개선되었다는 것은 곧, 코드 생성, GUI 조작, 장문 추론이 하나의 통합된 에이전트적 능력으로 다뤄지고 있음을 의미합니다. 동일한 토큰당 지연 시간을 유지하면서 토큰 효율도 함께 끌어올린 점은, 빠른 응답과 깊은 추론이 더 이상 양자택일이 아니라는 메시지를 던집니다.
한편, 사이버 보안과 생물학 영역에서 High 능력으로 분류되며 안전장치가 한층 두꺼워진 점은, 모델이 강해질수록 안전 인프라도 함께 발달해야 한다는 현실을 보여줍니다. Trusted Access 프로그램과 Bio Bug Bounty처럼 외부 연구자와 협력하여 안전성을 검증하는 흐름은, 단일 기업 차원을 넘어선 생태계 차원의 정렬 노력으로 이해할 수 있습니다. 개발자 입장에서는 1M 토큰 컨텍스트와 향상된 도구 사용 능력을 결합해 어떤 새로운 워크플로우를 짤 수 있는지를 실험해 보는 것이 가장 큰 기회가 될 것입니다.
GPT-5.5 소개 블로그
https://openai.com/index/introducing-gpt-5-5/
GPT-5.5 시스템 카드
https://openai.com/index/gpt-5-5-system-card/
GPT-5.5 Deployment Safety Hub
OpenAI의 GPT-5.5 API 모델 페이지
GPT-5.5의 가격, 컨텍스트 윈도우(1.05M 토큰), 지원 도구(웹 검색, 컴퓨터 사용, MCP 등), 스냅샷 ID(gpt-5.5-2026-04-23), 그리고 티어별 RPM/TPM 제한 등 API 통합에 필요한 실무 정보가 정리되어 있습니다. reasoning.effort가 none/low/medium/high/xhigh까지 단계적으로 제공된다는 점도 주목할 만합니다.
OpenAI의 GPT-5.5 Bio Bug Bounty, 생물학 안전 보강을 위한 공개 버그 바운티
OpenAI는 Codex Desktop의 GPT-5.5를 대상으로, 다섯 개의 바이오 안전 질문 모두를 깨끗한 채팅에서 풀어내는 단일 "유니버설 탈옥"을 찾아내는 챌린지를 운영합니다. 첫 번째 성공자에게 $25,000을 지급하며, 신청은 2026년 6월 22일까지, 테스트는 4월 28일부터 7월 27일까지 진행됩니다. AI 레드팀, 보안, 바이오 보안 분야 연구자라면 응모해 볼 수 있습니다.
https://openai.com/index/gpt-5-5-bio-bug-bounty/
이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. ![]()
파이토치 한국 사용자 모임
이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일
로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)
아래
쪽에 좋아요
를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~ ![]()
