OpenAI, AI Agent 구축을 위한 API 및 도구 출시

9bow · 3월 12, 2025, 4:00오전

소개

OpenAI가 AI 에이전트 개발을 위한 새로운 API 및 도구들을 공개했습니다. 기존의 Chat Completions API나 Assistants API를 사용하던 개발자들에게 더 유용한 기능을 제공하며, 특히 복잡한 다중 단계 작업을 수행할 수 있는 에이전트 구축이 훨씬 쉬워졌습니다.

OpenAI는 AI 에이전트 구축을 위한 새로운 기능을 추가하며, 기존 개발자들이 겪던 문제를 해결하는 데 집중했습니다. 기존에는 복잡한 프롬프트 튜닝과 맞춤 오케스트레이션 로직이 필요했지만, 이제는 이를 단순화할 수 있는 도구들이 제공됩니다.

새롭게 추가된 기능은 다음과 같습니다:

Responses API: Chat Completions API와 Assistants API의 장점을 결합하여 더욱 유연한 에이전트를 구축할 수 있으며, 단일 API 호출로 여러 도구를 활용해 복잡한 작업 수행이 가능합니다.
내장 도구 지원: 다음과 같은 내장 도구들을 지원합니다.
- 웹 검색: 실시간 검색으로 최신 정보 제공 (예: 여행 예약, 쇼핑 보조 에이전트)
- 파일 검색: 문서에서 필요한 정보를 빠르게 검색 (예: 법률 문서 조회, 고객 지원 챗봇)
- 컴퓨터 사용: 마우스/키보드 액션을 캡처해 자동화 가능 (예: 웹 자동화, 데이터 입력)
Agents SDK: 단일 및 다중 에이전트 오케스트레이션을 지원하며, 에이전트 간의 역할 전환(Handoffs), 입력 검증(Guardrails), 실행 추적(Observability) 기능이 추가되었습니다.

이번에 추가된 Response API와 기존의 Chat Completions API를 비교하면, Chat Completions API는 여전히 유지되지만, Responses API는 동일한 성능을 제공하면서도 내장 도구 활용이 가능하다는 점에서 더 강력한 선택지입니다. 새로운 프로젝트라면 Responses API를 사용하는 것이 더 유리할 것으로 보입니다. 또한, 기존의 Assistants API는 Responses API로 통합될 예정입니다. 2026년 중반 Assistants API가 공식적으로 폐지될 예정이며, Responses API로의 마이그레이션 가이드가 제공될 예정입니다.

주요 기능 소개

Responses API

Responses API는 다양한 도구들과 결합하여 더 강력한 에이전트를 만들 수 있도록 설계되었습니다. 주요 특징은 다음과 같습니다:

Chat Completions API의 간결함 유지
웹 검색, 파일 검색, 컴퓨터 사용 기능 통합
새로운 Streaming Events로 보다 직관적인 데이터 흐름 지원
response.output_text 등의 SDK 헬퍼 제공

다음은 한 번의 호출로 웹 검색을 수행하고, 결과를 가져오는 Response API의 예시 코드입니다:

import openai

response = openai.responses.create(
                              model="gpt-4o",
                              messages=[{"role": "user", "content": "Find the latest news about AI agents."}],
                              tools=["web_search"]
)

print(response.output_text)

웹 검색

GPT-4o와 GPT-4o-mini 모델에서 웹 검색 기능이 추가되어, 실시간으로 정보를 검색하고 출처까지 제공할 수 있습니다. 이를 통해 쇼핑 도우미, 연구 에이전트, 여행 예약 AI 등에 사용할 수 있습니다.

다음은 SimpleQA 벤치마크 테스트에서의 GPT-4o 및 GPT-4o-mini 모델의 검색 프리뷰 성능입니다:

모델	정확도
GPT-4o 검색 프리뷰	90%
GPT-4o-mini 검색 프리뷰	88%

파일 검색

기존 RAG (Retrieval-Augmented Generation) 방식과 유사한 방식으로, 대량의 문서에서 빠르게 필요한 정보를 찾을 수 있습니다. 법률 보조 AI, 기술 문서 검색, 고객 지원 챗봇 등에서 활용이 가능합니다.

파일 검색 기능은 검색 및 파일 저장에 대한 비용이 부과되며, 파일 저장은 GB 당 $0.10/일 (첫 1GB 무료), 검색은 1,000회당 $2.5 입니다.

아래 예시 코드와 같이 파일 검색 도구를 활용하여 필요한 정보를 손쉽게 검색할 수 있습니다:


response = openai.responses.create(
                              model="gpt-4o",
                              messages=[{"role": "user", "content": "Find company travel policies."}],
                              tools=["file_search"]
)

print(response.output_text)

컴퓨터 사용

OpenAI의 CUA (Computer-Using Agent) 모델을 활용하여 실제로 마우스와 키보드 동작을 실행할 수 있습니다. CUA 모델을 활용하여 브라우저 자동화, 데이터 입력 자동화, 품질 보증 테스트 등의 사용이 가능합니다.

하지만, 운영체제 관련 작업의 경우 38.1% 성공률로 신뢰도가 낮아 사람의 감시 및 개입이 필요합니다:

벤치마크	CUA 모델 성능	기존 최고 성능	인간 성능
OSWorld (컴퓨터 사용)	38.1%	22.0%	72.4%
WebArena (웹 자동화)	58.1%	36.2%	78.2%
WebVoyager (웹 탐색)	87.0%	56.0%	-

Agents SDK

Agent SDK는 Swarm 프레임워크를 기반으로 한 멀티 에이전트 오케스트레이션 도구로, 고객 지원 자동화, 코드 리뷰, 연구 및 데이터 분석 등에 활용 가능합니다.

Agents SDK에서 지원하는 기능들은 다음과 같습니다:

Agents: 역할이 명확한 LLM 에이전트 생성 가능
Handoffs: 작업을 적절한 에이전트로 넘기는 기능
Guardrails: 안전성 검증 및 입력 검증
Tracing & Observability: 실행 추적 및 디버깅 도구 제공

Agent SDK를 사용하여 다음과 같이 Agent와 이를 관리하는 Orchestrator를 구현할 수 있습니다:


from openai.agents import Agent, Orchestrator

agent = Agent(model="gpt-4o", instructions="You are a research assistant.")
orchestrator = Orchestrator(agents=[agent])
response = orchestrator.run("Summarize the latest AI research.")

print(response)

OpenAI의 새로운 API 및 도구 출시 블로그

https://openai.com/index/new-tools-for-building-agents/

이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.

파이토치 한국 사용자 모임이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

아래쪽에 좋아요를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~