OpenAI, 더 나아진 GPT-5.3-Codex 모델 및 더 빨라진 GPT-5.3-Codex-Spark 모델 공개

GPT-5.3-Codex 및 Spark 에이전트 모델 소개

OpenAI가 최근 코딩 및 소프트웨어 엔지니어링 생태계를 혁신할 두 가지 새로운 에이전트 AI 모델인 GPT-5.3-Codex와 그 경량화 초고속 버전인 GPT-5.3-Codex-Spark를 공식 발표했습니다. 이와 함께, 모델의 안전성과 위험 완화 전략을 상세히 기술한 GPT-5.3-Codex 시스템 카드 문서도 함께 공개되었습니다. 이번에 공개된 라인업은 단순한 코드 생성 도구를 넘어 기획, 디버깅, 배포, 모니터링, 데이터 분석 등 컴퓨터 환경에서 지식 근로자가 수행하는 거의 모든 작업을 자율적이고 연속적으로 처리할 수 있는 고도화된 에이전트(Agent) 역량을 자랑합니다.

소프트웨어 개발 과정은 장시간의 심도 있는 추론이 필요한 아키텍처 설계와, 즉각적인 코드 수정 및 UI 피드백이 필요한 실시간 반복 작업으로 나뉩니다. GPT-5.3-Codex는 전자의 장기 실행(long-running) 작업에 특화되어 있으며, GPT-5.3-Codex-Spark는 후자의 실시간 인터랙션에 최적화되어 있습니다. 개발자들은 이 두 가지 모델을 통해 업무 성격에 맞는 최적의 AI 협업 환경을 구축할 수 있게 되었습니다. 특히 GPT-5.3-Codex는 자체적인 훈련 과정의 디버깅 및 인프라 관리에 투입되어 AI가 다음 세대 AI의 개발을 가속화한 OpenAI 최초의 모델로 기록되었습니다.

또한, AI 에이전트의 자율성과 시스템 제어 권한이 높아짐에 따라 발생할 수 있는 잠재적 위험을 통제하기 위해, GPT-5.3-Codex 시스템 카드(System Card)를 통해 포괄적인 안전망(Safeguard) 및 대비 프레임워크(Preparedness Framework) 평가 결과를 투명하게 공개했습니다. 이 문서는 모델이 치명적인 데이터 파괴 행위를 방지하는 방법부터 사이버 보안 및 생물학적 위험도 평가 지표까지 심도 있게 다루고 있어, 고성능 AI의 책임 있는 배포를 위한 중요한 기준을 제시합니다.

GPT-5.3-Codex vs. GPT-5.2-Codex 비교

새로운 모델들은 이전 세대인 GPT-5.2-Codex 및 일반 GPT-5.2 베이스 모델과 비교하여 벤치마크 성능과 실제 응용 능력에서 큰 도약을 이루어냈습니다. 동시에 GPT-5.3-Codex와 Spark 모델은 상호 보완적인 성능 특성을 보여줍니다.

  • GPT-5.3-Codex vs GPT-5.2-Codex: GPT-5.3-Codex는 기존 GPT-5.2-Codex 대비 구동 속도가 25% 향상되었으며, 더 적은 토큰으로 복잡한 에이전트 작업을 완수합니다. 실제 소프트웨어 엔지니어링 역량을 평가하는 SWE-Bench Pro (Public) 벤치마크에서 GPT-5.2-Codex가 56.4%를 기록한 반면 GPT-5.3-Codex는 56.8%로 향상되었습니다. 터미널 환경 조작 능력을 측정하는 Terminal-Bench 2.0에서는 64.0%에서 77.3%로, 비주얼 데스크톱 환경 제어 능력을 측정하는 OSWorld-Verified에서는 38.2%에서 64.7%로 비약적으로 상승하여 인간 전문가 평균(약 72%)에 한층 더 근접했습니다.

  • GPT-5.3-Codex vs GPT-5.3-Codex-Spark: Spark 모델은 GPT-5.3-Codex 대비 추론 속도에 극도로 초점을 맞추었습니다. 터미널 벤치마크(Terminal-Bench 2.0)에서 베이스 모델이 77.3%의 높은 정확도를 보여주는 반면, Spark 모델은 58.4%의 정확도를 기록합니다. 하지만 SWE-Bench Pro 과제 수행 소요 시간 지표를 보면, Spark 모델은 베이스 모델 대비 훨씬 짧은 시간(Task duration) 내에 작업을 완수하도록 설계되어 실시간 상호작용의 답답함을 해소합니다.

GPT-5.3-Codex 모델의 주요 특징

풀스택 일반 목적 에이전트

GPT-5.3-Codex는 단순한 코딩 에이전트에서 진화하여 컴퓨터상에서 거의 모든 기술적 워크플로우를 처리할 수 있는 범용 협업 파트너로 설계되었습니다.

  • 프론트엔드 및 웹 개발 역량: 수일에 걸친 복잡한 자율 코딩 역량을 갖추어, 자체적인 앱과 게임(예: 다양한 맵과 아이템이 구현된 레이싱 게임, 산소와 압력을 관리하며 도감을 채우는 다이빙 게임)을 처음부터 구축할 수 있습니다. 또한 'Quiet KPI'라는 가상의 B2B 대시보드 랜딩 페이지 생성 테스트에서, 모호한 프롬프트만으로도 할인율을 적용한 요금제 토글 기능과 자동 전환되는 고객 리뷰 캐러셀을 스스로 구성하는 등 프로덕션 수준의 미적 감각과 완성도를 제공합니다.

  • 전문 지식 작업 (GDPval 벤치마크): 코드 작성 외에도 기획서(PRD) 작성, 스프레드시트 데이터 분석(예: NPV 분석), 재무 컨설팅을 위한 가이드용 10페이지 PPT 슬라이드 구성 등 44개 직군의 지식 노동 능력을 평가하는 GDPval 지표에서 70.9%를 달성했습니다.

  • 실시간 인터랙티브 협업: 최종 결과물만 반환하는 것이 아니라 작업 진행 상황을 수시로 사용자에게 브리핑합니다. 작업 도중에 사용자가 개입해 피드백을 주거나 접근 방식을 실시간으로 조향(Steering)할 수 있습니다.

안전성 및 위험 완화 체계

에이전트 모델의 높은 자율성은 새로운 잠재적 위험을 동반합니다. OpenAI는 제공된 System Card 문서를 통해 이를 철저히 평가하고 완화하기 위한 기술적/정책적 방어막을 구축했습니다.

  • 사이버 보안 역량 평가 및 통제 (High Capability): GPT-5.3-Codex는 OpenAI의 대비 프레임워크(Preparedness Framework) 하에서 사이버 보안 분야 최초로 'High(높음)' 위험 역량 등급을 부여받았습니다. CTF(Capture-the-flag) 챌린지에서 77.6%, CVE-Bench에서 뛰어난 취약점 탐지/악용 능력을 보였습니다. 이에 대비해 악용성 프롬프트를 차단하고 위협 인텔리전스와 연계된 강력한 모니터링 시스템을 가동하며, 고위험 요청 발생 시 자동으로 역량이 낮은 GPT-5.2로 라우팅하는 방안도 적용 중입니다.

  • 생물학 및 화학 위험성 평가 (Biological and Chemical): 모델이 생화학적 위협 제조에 활용되는 것을 막기 위해 다각적인 벤치마크(Tacit Knowledge, ProtocolQA, Multimodal Troubleshooting Virology 등)를 수행했습니다. Lab-bench 등을 활용한 평가 결과 다행히 이 분야에서는 위험 임계치를 넘지 않았습니다.

  • 제품 및 모델 수준의 위험 완화 (Risk Mitigations):

    • 에이전트 샌드박스 (Agent Sandbox) 및 네트워크 제어: 모델이 호스트 시스템을 훼손하거나 승인되지 않은 외부 네트워크로 자유롭게 탈출하지 못하도록 격리된 샌드박스 환경 내에서만 도구(Tool)를 실행하도록 제한합니다.

    • 데이터 파괴 행위 방지 (Avoid data-destructive actions): 모델이 실수 또는 악의적 프롬프트로 인해 rm -rf와 같은 파일 영구 삭제, 데이터베이스 드롭(Drop) 등 치명적인 파괴 행위를 수행하지 않도록 안전 훈련(Safety training)이 고도로 적용되어 있습니다.

  • 사이버 방어 생태계 지원: 선의의 방어 목적 연구를 가속화하기 위해 Trusted Access for Cyber 파일럿 프로그램과 보안 전문 연구 에이전트인 Aardvark의 프라이빗 베타를 시작했습니다. 또한 오픈소스 유지보수자와 중요 인프라 보호를 위해 1천만 달러 규모의 API 크레딧을 지원합니다.

https://openai.com/index/openai-cybersecurity-grant-program/

GPT-5.3-Codex-Spark 모델 특징: 초저지연 실시간 코딩 특화 모델

GPT-5.3-Codex-Spark는 실시간 코딩 및 즉각적인 피드백 루프에 최적화된 소형(small) 모델로, ChatGPT Pro 사용자를 위한 연구 목적 프리뷰(Research Preview)로 제공됩니다. GPT-5.3-Codex-Spark 모델의 주요 특징은 다음과 같습니다:

  • Cerebras 웨이퍼 스케일 엔진 구동: Spark 모델은 NVIDIA GPU 대신 AI 인퍼런스 가속기인 Cerebras WSE-3(Wafer Scale Engine 3) 상에서 구동됩니다. 이를 통해 1초당 1000 토큰 이상의 압도적인 생성 속도를 달성했습니다.

  • 경량화된 실시간 작업 방식: 현재 128k 컨텍스트 윈도우를 지원하며 텍스트 전용(Text-only) 모드로 작동합니다. 속도를 저해하지 않기 위해 꼭 필요한 부분만 타깃팅하여 수정(Minimal edits)하며, 사용자의 명시적 요청이 없을 경우 불필요한 테스트를 자동으로 실행하지 않습니다.

  • 인프라 전반의 Latency 혁신: OpenAI는 Spark 모델 개발과 함께 클라이언트와 서버 간의 통신 방식을 근본적으로 개선했습니다. 지속적인(Persistent) WebSocket 연결을 도입하여 클라이언트-서버 간 왕복 오버헤드를 80% 줄였고, 토큰당 오버헤드를 30% 감소시켰으며, 첫 번째 토큰이 출력되기까지의 시간(Time-to-first-token, TTFT)을 무려 50%나 단축했습니다. 이 아키텍처 혁신은 향후 모든 모델에 기본 적용될 예정입니다.

:scroll: GPT-5.3-Codex 출시 블로그

https://openai.com/index/introducing-gpt-5-3-codex/

:scroll: GPT-5.3-Codex 모델 시스템 카드

:scroll: GPT-5.3-Codex-Spark 출시 블로그

https://openai.com/index/introducing-gpt-5-3-codex-spark/




이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. :hugs:

:pytorch:파이토치 한국 사용자 모임:south_korea:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:wrapped_gift: 아래:down_right_arrow:쪽에 좋아요:+1:를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~ :star_struck: