Anthropic의 멀티 에이전트 기반 연구 시스템: 아키텍처, 설계 전략, 성능 최적화

Anthropic의 Multi-Agent 기반 연구 시스템 글 소개

Anthropic은 자사의 대규모 언어 모델인 Claude를 기반으로, 복잡하고 동적인 정보 탐색 과제를 자동화할 수 있는 고성능 멀티 에이전트 시스템을 설계하고 이를 실제 상용 환경에 적용하였습니다. 본 시스템은 기존 단일 모델이 가지고 있는 구조적 한계—특히 긴 컨텍스트를 요구하거나 병렬 탐색이 필요한 과제에서의 처리 한계—를 효과적으로 극복하기 위해 고안된 것입니다.

핵심 개념은 ‘리드 에이전트(Lead Agent)’가 사용자로부터 받은 쿼리를 분석하고 이를 여러 개의 세부 작업으로 분해한 뒤, 각각의 작업을 담당할 수 있는 ‘서브 에이전트(Subagents)’를 병렬로 생성하여 탐색을 수행하도록 하는 구조입니다. 이는 마치 인간의 협업적 조사 방식과 유사하게, 팀원이 역할을 나누어 자료를 조사하고 최종적으로 결과를 종합하는 방식으로 설계되었습니다. 이러한 접근은 Claude 모델이 보유한 추론 능력을 최대한 활용하면서도, 기존 시스템에서 제한되던 토큰 한계 문제를 병렬 처리를 통해 완화할 수 있는 효과적인 방법론입니다.

아키텍처 설계

Anthropic이 구현한 멀티 에이전트 시스템은 ‘오케스트레이터-워커’ 패턴을 기반으로 하고 있습니다. 이 구조에서는 리드 에이전트가 전체적인 전략을 수립하고, 이를 각 서브 에이전트에게 명확하게 전달함으로써 병렬 작업이 가능하도록 설계되어 있습니다. 사용자가 질의를 입력하면, 리드 에이전트는 해당 질의를 분석하여 하위 과제로 분해하고, 각 과제를 담당할 서브 에이전트에게 구체적인 목표와 사용할 도구, 기대되는 응답 형식 등을 명시적으로 지시합니다.

서브 에이전트는 주어진 맥락에서 독립적으로 웹 검색, 문서 분석, 데이터 수집 등의 작업을 수행하며, 이들은 Claude Sonnet 4 모델을 기반으로 구성되어 있습니다. 작업이 완료되면 결과는 리드 에이전트에게 전달되고, 리드 에이전트는 이들을 종합하여 최종적인 응답을 생성하게 됩니다. 마지막 단계에서는 ‘Citation Agent’가 전체 응답에 대한 출처를 명확히 정리하여, 사용자가 결과를 신뢰할 수 있도록 지원하고 있습니다.

성능 최적화와 토큰 효율성

해당 시스템의 가장 큰 기술적 강점은 병렬 처리 구조를 통해 토큰 사용을 최적화할 수 있다는 점입니다. 기존의 단일 LLM 기반 시스템은 순차적인 탐색을 통해 정보를 수집해야 하므로, 컨텍스트 한계에 도달하거나 탐색 속도가 느려지는 문제가 자주 발생합니다. 반면, 여러 서브 에이전트가 각기 다른 방향에서 병렬적으로 정보를 탐색하게 되면, 동일한 시간 내에 보다 다양한 정보를 다룰 수 있으며, 결과적으로 높은 정확도와 처리 속도를 확보할 수 있습니다.

실제로 Anthropic의 내부 실험에 따르면, 리드 에이전트에 Claude Opus 4를, 서브 에이전트에 Claude Sonnet 4를 사용하는 구조는 동일한 Opus 4 단독 시스템 대비 약 90.2% 향상된 정확도를 보였다고 합니다. 예를 들어, S&P 500에 속한 IT 기업의 이사회 구성원을 찾는 과제에서는 각 서브 에이전트가 회사별로 탐색을 분담함으로써, 매우 신속하고 정확한 결과를 도출할 수 있었습니다. 다만, 이러한 구조는 평균적으로 일반적인 대화 시스템보다 약 15배 가량 많은 토큰을 소비하므로, 경제적 타당성을 고려하여 고부가가치 과제에 우선적으로 적용하는 것이 바람직합니다.

프롬프트 설계와 도구 인터페이스

멀티 에이전트 시스템에서는 각 에이전트가 고도로 자율적으로 작동하는 만큼, 프롬프트의 역할이 더욱 중요해집니다. 특히 Claude 시스템에서는 프롬프트가 곧 에이전트의 행동 방식을 결정짓는 설계 명세의 역할을 하며, 이를 통해 전체적인 조정 복잡도를 제어할 수 있습니다. 초기에는 단순한 쿼리에 대해 지나치게 많은 서브 에이전트가 생성되거나, 존재하지 않는 정보를 무한히 탐색하려는 현상, 또는 에이전트들 간의 정보 공유가 과도하게 중첩되어 혼란을 유발하는 등의 문제가 발견되었는데, 이는 대부분 부정확하거나 불충분한 프롬프트 설계에서 비롯된 것이었습니다.

이에 따라 Anthropic은 프롬프트 설계를 통해 다음과 같은 주요 원칙을 적용하였습니다:

첫째, 시스템 설계자는 에이전트처럼 사고하는 훈련이 필요합니다. 실제로 Claude Console에서 시뮬레이션을 반복하면서 프롬프트가 어떻게 작동하는지를 직접 관찰하고, 실패 유형—예: 불필요한 탐색 반복, 비효율적인 쿼리 구성, 부적절한 도구 선택—을 빠르게 식별하는 것이 매우 효과적이었습니다.

둘째, 리드 에이전트가 서브 에이전트에게 명확한 작업 분담을 어떻게 전달하느냐가 핵심입니다. 단순히 “반도체 공급난을 조사하라”는 지시로는 서브 에이전트 간 중복 작업이나 모호한 결과가 발생할 수 있으며, 이에 따라 각 서브 에이전트에는 명확한 목표, 출력 형식, 사용할 도구와 출처, 작업 범위를 반드시 명시해야 한다는 교훈이 도출되었습니다.

셋째, 쿼리의 복잡도에 따라 자원을 확장하는 스케일링 전략도 프롬프트 내에 포함되어야 합니다. 단순한 사실 탐색에는 1명의 에이전트가 310회의 도구 호출로 충분하지만, 비교 분석에는 24명의 서브 에이전트가 필요하며, 고도화된 연구 과제에는 10명 이상의 병렬 에이전트가 구체적인 역할 분담을 통해 협력하는 구조가 요구됩니다. 이처럼 사전에 명시된 자원 사용 지침은 오버엔지니어링을 방지하고 효율을 극대화하는 데 도움이 됩니다.

넷째, 도구 설계와 설명 품질은 인간-컴퓨터 인터페이스만큼 중요하며, 잘못된 설명은 에이전트를 완전히 다른 방향으로 유도할 수 있습니다. 예를 들어, Slack에만 존재하는 정보에 대해 웹 검색을 시도하는 것은 구조적인 실패로 이어지며, 이러한 오류를 방지하기 위해 Claude 시스템은 각 도구에 대해 목적, 사용 조건, 우선순위 등을 명확히 기술하였고, 에이전트는 탐색 시작 전 모든 도구를 검토한 뒤 사용자 의도에 맞는 도구를 선택하도록 설계되었습니다.

다섯째, Claude 4 모델은 에이전트들이 자체적으로 프롬프트와 도구 설명을 분석하고 개선하는 메타 에이전트 역할을 수행할 수 있습니다. 실제로, 잘못 설명된 도구를 다수의 시도 끝에 분석하여 보다 정확한 설명으로 재작성할 수 있었으며, 이러한 개선을 통해 이후 작업에 소요되는 시간이 평균 40% 이상 절감되었습니다.

또한, 검색 전략 측면에서는 “넓게 시작하고 점차 좁혀라”는 원칙이 기본적으로 적용됩니다. 많은 에이전트가 처음부터 과도하게 구체적인 쿼리를 사용하여 결과가 제한되거나 유효하지 않은 검색 결과만 수집하는 문제가 있었기 때문에, 초기에는 포괄적인 쿼리로 전체 맥락을 파악하고, 이후 필요에 따라 세부 탐색을 수행하는 구조로 설계되었습니다.

마지막으로, Claude는 “Extended Thinking Mode”를 통해 각 에이전트의 사고 과정을 명시적으로 표현할 수 있도록 하였습니다. 리드 에이전트는 이 기능을 활용하여 탐색 전략, 도구 선택 기준, 서브 에이전트 수, 각자의 역할 등을 사전에 계획하고 이를 토대로 작업을 분배합니다. 서브 에이전트 또한 도구 실행 이후 결과를 평가하고, 정보의 신뢰성과 누락 여부를 판단한 뒤 다음 쿼리를 조정하는 등, 보다 정교한 적응형 탐색을 수행할 수 있습니다.

추가적으로, 병렬적인 도구 호출은 시스템의 처리 속도와 품질을 동시에 개선하는 핵심 요소로 작용합니다. 초기 시스템에서는 검색이 순차적으로 이루어져 탐색 속도가 지나치게 느렸지만, 개선된 구조에서는 리드 에이전트가 동시에 3~5개의 서브 에이전트를 생성하고, 각 서브 에이전트가 3개 이상의 도구를 병렬로 호출하도록 함으로써, 복잡한 탐색 과제를 몇 분 내에 처리할 수 있게 되었습니다.

이 모든 설계의 기본 전략은 엄격한 규칙보다는 인간 전문가의 탐색 전략을 기반으로 한 ‘휴리스틱 학습’에 가깝습니다. 어려운 질문을 작은 단위로 나누어 해결하고, 출처의 신뢰도를 평가하며, 탐색 도중 유연하게 전략을 조정하는 등, 숙련된 연구자가 사용하는 사고 체계를 프롬프트에 반영한 것입니다. 이러한 체계는 시스템의 폭주를 막기 위한 명시적 가드레일과 함께 구성되었으며, 빠른 반복 학습과 관찰 가능한 피드백 루프를 통해 지속적으로 개선되고 있습니다.

에이전트 시스템의 성능 평가와 테스트 전략

멀티 에이전트 시스템의 신뢰성과 실용성을 확보하기 위해서는 정교한 평가 체계가 필수적입니다. 하지만 기존의 전통적인 AI 시스템 평가 방식은 이러한 멀티 에이전트 구조에 적합하지 않을 수 있습니다. 대부분의 기존 평가 방식은 ‘입력 X에 대해 정해진 경로 Y를 따라 출력 Z를 얻는다’는 선형적 가정을 기반으로 설계되어 있는데, 멀티 에이전트 시스템은 동일한 입력에서도 에이전트의 선택에 따라 서로 다른 유효한 경로를 통해 동일한 목표에 도달할 수 있기 때문입니다. 어떤 에이전트는 세 개의 출처만 탐색할 수도 있고, 또 다른 에이전트는 열 개의 출처를 확인하거나 다른 도구를 사용하여 동일한 정답을 도출할 수 있습니다. 이처럼 다양한 접근이 가능하므로, 사전에 정의된 “정답 경로”의 충실 여부보다는 결과의 질과 수행 과정의 타당성을 중심으로 평가하는 방식이 요구됩니다.

Anthropic은 이러한 특성에 대응하기 위해, 소규모 테스트 샘플을 활용한 빠른 반복형 평가 전략을 도입하였습니다. 초기 단계에서는 시스템 변경이 평가 결과에 미치는 영향이 매우 크기 때문에, 소수의 테스트 쿼리만으로도 효과적인 피드백이 가능합니다. 실제로 Anthropic은 20개 내외의 대표적인 사용 시나리오 기반 쿼리를 선정하여 반복적으로 실험하였고, 이를 통해 프롬프트 조정 하나만으로도 성공률이 30%에서 80%까지 향상되는 경우를 확인할 수 있었습니다. 이처럼 초기 단계에서의 ‘저비용, 고효율’ 평가 전략은 장기적으로 신뢰성 높은 시스템 구축에 매우 효과적인 기반이 됩니다.

특히 Anthropic은 평가 자동화를 위해 LLM 기반 평가자(LLM-as-a-Judge) 전략을 도입하였습니다. 멀티 에이전트 시스템의 출력은 자유형 텍스트로 구성되는 경우가 많아 정형화된 프로그램 평가가 어려운데, 이러한 점에서 대형 언어 모델은 평가자로서 매우 적합한 기능을 수행할 수 있습니다. Claude 시스템에서는 사실성(주장과 출처의 일치 여부), 인용 정확성(출처와 해당 문장의 일치), 응답 완성도(요구사항 충족 여부), 출처의 질(신뢰성 높은 1차 출처 사용 여부), 도구 사용의 효율성(적절한 수의 도구 호출 여부) 등 5개 기준을 기반으로 출력물을 평가하였습니다. 다양한 평가자 조합을 실험한 결과, 단일 프롬프트를 사용한 단일 LLM 호출 방식이 사람의 판단과 가장 일치하는 결과를 보여주었고, 특히 정답이 명확한 질문(예: “R&D 예산이 가장 큰 제약사 3곳을 나열하라”)의 경우 효과가 매우 뛰어났습니다. 이를 통해 수백 건의 결과를 신속하고 안정적으로 평가할 수 있는 체계를 마련할 수 있었습니다.

한편, 자동 평가가 놓치는 부분은 인간 평가자의 수작업 테스트를 통해 보완되었습니다. 특히 시스템 초기에는 검색 엔진 상위에 노출된 SEO 최적화된 콘텐츠가 권위 있는 학술 자료나 저자 개인 블로그보다 우선 선택되는 편향 문제가 있었으며, 이는 사람 평가자가 직접 탐색 패턴을 관찰하고 문제를 지적함으로써 확인할 수 있었습니다. 이후, 프롬프트 설계에 출처 질 평가 휴리스틱을 추가하여 이 문제를 완화하였으며, 이는 전반적인 정보의 신뢰성 제고에 기여하였습니다. 이처럼, 자동 평가와 수작업 검증을 병행하는 이중 구조는 평가 신뢰성을 유지하는 데 중요한 역할을 합니다.

더불어 멀티 에이전트 시스템에서는 개별 에이전트의 행동뿐만 아니라 에이전트 간 상호작용 패턴도 중요한 평가 요소입니다. 작은 변경이 전체 시스템의 행동에 큰 영향을 미칠 수 있기 때문에, 단순한 지침 전달이 아닌, 협업 프레임워크—즉 작업 분담 기준, 문제 해결 전략, 자원 투입 계획 등을 포함한 구조적 프롬프트 설계—가 필요합니다. 이러한 체계의 정밀한 설계는 프롬프트 구성, 도구 인터페이스 설계, 휴리스틱 기반 가이드라인, 관찰 가능한 추적 시스템, 그리고 빠른 피드백 루프의 통합적 운영을 통해 구현됩니다. Anthropic은 이러한 설계와 운영 원칙을 자사의 공식 Cookbook에서 일부 예제로 공개하고 있으며, 실제 시스템의 작동 방식을 투명하게 보여주고자 노력하고 있습니다.

운영 환경의 엔지니어링 과제

멀티 에이전트 기반 시스템의 실제 운영 환경에서는 전통적인 소프트웨어 시스템과는 차원이 다른 복잡성과 도전 과제가 존재합니다. 일반 소프트웨어에서는 단일 버그가 기능 오류, 성능 저하, 혹은 일시적인 중단을 초래하는 경우가 많습니다. 그러나 에이전트 시스템에서는 사소한 변경도 전체 에이전트의 동작 방식에 연쇄적으로 영향을 미칠 수 있으며, 이는 특히 장시간 상태를 유지하며 작동하는 구조에서 심각한 결과를 초래할 수 있습니다. 이러한 특성은 코드 작성, 오류 대응, 상태 관리 등 모든 개발 및 운영 측면에서 새로운 접근을 요구합니다.

우선 Claude 기반 에이전트는 상태 기반(stateful)으로 작동하며, 다수의 도구 호출 및 복잡한 작업 흐름을 수 분 이상 유지합니다. 이로 인해, 중간에 시스템 오류가 발생하더라도 전체 작업을 처음부터 다시 수행하는 방식은 현실적으로 비효율적이며 사용자에게도 불편을 초래할 수 있습니다. 이를 해결하기 위해 Anthropic은 중단 지점에서 에이전트가 작업을 이어서 수행할 수 있도록, 복원 가능한 체크포인트와 에러 복구 로직을 체계적으로 구현하였습니다. 또한, Claude 모델의 지능을 활용하여 시스템 장애 상황에서도 에이전트가 스스로 문제를 인지하고 적절히 대응할 수 있도록 하였으며, 예를 들어 도구 실패를 감지하고 이를 회피하는 등의 적응형 로직이 매우 유효하게 작동하였습니다.

디버깅 관점에서도 에이전트 시스템은 기존 방식과는 다른 접근이 필요합니다. 에이전트는 동일한 프롬프트를 사용하더라도 실행 시점마다 상이한 경로를 선택할 수 있으며, 이는 전형적인 비결정적(non-deterministic) 구조입니다. 이로 인해 문제 재현이 어려운 경우가 많으며, 예를 들어 사용자가 “명백한 정보를 찾지 못했다”고 보고했을 때, 실제 원인이 검색 쿼리 문제인지, 도구 오류인지, 또는 잘못된 출처 선택인지 식별하기 어려운 경우가 있습니다. Anthropic은 이러한 문제를 해결하기 위해 생산 환경 수준에서 고도화된 추적 시스템을 도입하였습니다. 이 시스템은 개별 대화 내용을 직접 모니터링하지 않으면서도, 에이전트의 결정 흐름, 도구 호출 패턴, 상호작용 구조 등을 고수준에서 추적하여 근본 원인을 진단하고 예기치 않은 동작을 발견하는 데 활용됩니다.

시스템의 배포 또한 신중한 조율이 필요합니다. 에이전트 시스템은 프롬프트, 도구, 실행 로직이 유기적으로 연결된 상태로 장시간 작동하며, 새로운 코드나 모델 업데이트가 기존 실행 중인 에이전트에 영향을 줄 수 있습니다. 이를 방지하기 위해, Anthropic은 rainbow deployment 방식을 채택하여 구 버전과 신 버전을 동시에 운영하면서 점진적으로 트래픽을 분산시킴으로써 무중단 배포를 실현하고 있습니다.

아울러 현재 Claude 시스템은 리드 에이전트가 서브 에이전트를 동기식으로 실행하는 구조를 채택하고 있어, 병목 현상을 유발할 수 있습니다. 즉, 모든 서브 에이전트가 작업을 마칠 때까지 리드 에이전트가 대기하게 됩니다. 이 구조에서는 리드 에이전트가 실시간으로 서브 에이전트를 조정할 수 없고, 서브 에이전트 간의 협업도 제한되며, 하나의 서브 에이전트가 지연되면 전체 흐름이 중단될 수 있습니다. 이러한 병목 문제를 해결하기 위한 방안으로, Anthropic은 비동기 실행 구조의 도입도 실험적으로 검토하고 있습니다. 비동기 아키텍처는 병렬성을 극대화하고 실시간 협업을 가능하게 하여 성능을 획기적으로 향상시킬 수 있지만, 그에 따른 결과 통합, 상태 일관성, 오류 전파 관리 등 복잡한 엔지니어링 과제가 수반됩니다. 그러나 Claude 모델이 점차 더 긴 맥락과 복잡한 작업을 처리할 수 있게 됨에 따라, 이러한 복잡성은 충분히 극복 가능한 도전 과제로 간주되고 있습니다.

결론 및 시사점

Anthropic이 개발한 멀티 에이전트 기반 연구 시스템은 단순한 LLM 응용 수준을 넘어서, 고차원적인 아키텍처 설계와 운영 기술이 융합된 종합적 인공지능 프레임워크라 할 수 있습니다. 해당 시스템은 기술 리서치, 의료 정보 탐색, 기업 전략 수립과 같은 복잡한 과제를 효과적으로 해결하고 있으며, 사용자로부터 실질적인 문제 해결 수단으로 평가받고 있습니다. 특히 병렬 탐색, 다중 맥락 처리, 자율적 도구 선택 등은 향후 인간-AI 협업 시스템의 구조적 기반이 될 수 있으며, Claude와 같은 고성능 모델이 이러한 시스템을 통해 현실 문제 해결에 기여할 수 있다는 점에서 큰 의미를 가집니다. 향후에는 보다 세분화된 비동기 병렬 처리, 장기 메모리 연동, 자동화된 도구 학습 등의 기능이 통합되며, 멀티 에이전트 시스템은 미래형 AI 기술의 핵심 요소로 자리잡을 것으로 기대됩니다.

:scroll: Anthropic의 'How we built our multi-agent research system' 블로그 원문