LLM 에이전트 간 통신 프로토콜 기술 분류 체계: MCP, A2A 등 9개 프로토콜에 대한 연구

LLM 에이전트 통신 프로토콜 택소노미 소개

여러 명의 전문가가 한 방에 모여 협업한다고 상상해 봅시다. 각자 실력은 뛰어나지만, 한 사람은 영어로, 다른 사람은 모스 부호로, 또 다른 사람은 손짓으로만 말한다면 회의는 시작도 하기 전에 무너집니다. 협업의 전제는 능력이 아니라 공통의 의사소통 약속(프로토콜) 입니다.

최근 대형 언어 모델(Large Language Model, LLM)을 두뇌로 삼는 에이전트가 빠르게 발전하면서, 여러 에이전트가 함께 일하는 다중 에이전트 시스템(Multi-Agent System, MAS)이 다음 개척지로 떠올랐습니다. 그런데 여기서 위 비유와 똑같은 문제가 생겼습니다. Anthropic의 MCP, Google의 A2A, LangChain, IBM 등 수많은 주체가 저마다의 에이전트 통신 프로토콜을 쏟아내면서, 서로 호환되지 않는 표준이 난립하는 상호운용성(interoperability) 위기가 찾아온 것입니다.

이 논문 "A Technical Taxonomy of LLM Agent Communication Protocols" 는 바로 이 혼란을 정리하기 위한 연구입니다. 저자들은 실제로 활발히 유지보수되는 오픈소스 프로토콜 9 개를 골라, 이들을 체계적으로 분류하고 비교할 수 있는 기술 택소노미(taxonomy, 분류 체계) 를 제안합니다. 단순히 "어떤 프로토콜이 있는지" 나열하는 것을 넘어, 이 분야 전체를 관통하는 5 개의 핵심 차원을 도출하고, 그 차원으로 미래 프로토콜의 진화 방향까지 전망한다는 점이 이 논문의 핵심 기여입니다.

LLM 에이전트와 다중 에이전트 시스템

택소노미를 이해하려면 먼저 무엇을 분류하는지부터 짚어야 합니다. LLM 에이전트 는 LLM을 중앙 제어부로 삼아, 텍스트로 주어진 고수준 목표를 받아 스스로 계획을 세우고(Reasoning and Planning), 기억과 외부 지식을 활용하며(Knowledge and Memory), 도구를 호출해 환경에 개입하는(Perception and Action) 자율 시스템입니다. 순수한 LLM이 질문에 답만 한다면, 에이전트는 도구를 통해 실제로 행동한다는 점에서 결정적으로 다릅니다.

단일 에이전트의 다음 단계는 자연스럽게 여러 에이전트의 협업 으로 이어집니다. 복잡한 목표를 여러 개의 하위 작업으로 나누고, 각각을 전문화된 에이전트에게 맡기면 문제 해결이 단순해집니다. 서로 다른 관점을 가진 에이전트들이 토론하고 피드백을 주고받으며, 집단 지성(Collective Intelligence)을 통해 단일 에이전트로는 도달할 수 없는 성능을 냅니다. 이런 시스템에서 에이전트들은 모두가 동등한 평면에 놓이는 구조부터 한두 에이전트가 리더로 무리를 이끄는 위계 구조까지 다양한 위상(topology)으로 배치되고, 여러 해법이 동시에 나오면 다수결이나 합의, 심판(judge) 에이전트를 통해 하나의 결론으로 수렴합니다. 흥미롭게도 작은 LLM을 N 번 호출해 가장 흔한 답을 고르는 단순한 방식조차 최신 단일 모델을 능가하기도 합니다.

그런데 저자들은 한 가지를 놓치면 안 된다고 강조합니다. "통신 메커니즘이 없다면 어떤 집단 지성도 생겨날 수 없다" 는 것입니다. 에이전트가 아무리 똑똑해도, 서로 대화하고 조율할 수 없다면 협업은 불가능합니다. 통신 인프라야말로 다중 에이전트 시스템의 집단 지성을 떠받치는 척추(backbone)인 셈입니다.

통신 프로토콜이라는 오래된 해법

컴퓨터 과학에서 프로토콜은 "프로그램, 프로세스, 에이전트 같은 개체들이 어떻게 통신하고 상호작용하는지를 규정하는 형식적 규칙의 집합" 입니다. 메시지의 형식, 순서, 의미를 정확히 정의함으로써 서로 다른 이질적 시스템이 곧바로 서로를 이해하게 만듭니다. 인터넷 자체가 가장 분명한 예시입니다. IP, TCP, HTTP라는 공통 표준이 없었다면 오늘날의 전 지구적 데이터 교환은 존재할 수 없었습니다.

사실 에이전트 통신 언어라는 발상은 새롭지 않습니다. LLM이 등장하기 훨씬 전인 1990년대 초에도 KQML 과 FIPA의 ACL(Agent Communication Language) 같은 프로토콜이 화행 이론(speech-act theory)에 기반해 에이전트 간 표준 통신을 시도했습니다. 다만 LLM 기반 에이전트는 그 특성이 달라서, 기존 프로토콜을 그대로 쓰기 어렵습니다. 문제는 이 새로운 분야가 너무 빠르게 성장한 나머지, 보편적으로 합의된 표준이 아직 없고 기능이 겹치면서도 서로 호환되지 않는 솔루션이 우후죽순 생겨났다는 점입니다.

기존 연구와 이 논문의 차별점

이 혼란을 정리하려는 시도가 이 논문이 처음은 아닙니다. 저자들은 관련 연구를 짚으며 자신들의 위치를 분명히 합니다.

표준화 관점에서 Li 등은 현재의 파편화를 네트워킹 초기의 "프로토콜 전쟁(protocol wars)" 에 비유하며 통합 프레임워크를 주장했고, Du 등은 인터넷 아키텍처의 관점에서 에이전트 통신을 살피며 지속 가능한 다중 에이전트 생태계를 위한 다섯 가지 핵심 설계 원칙을 추출했습니다. Kong 등은 보안 중심의 포괄적 서베이 에서 에이전트 통신 자체를 3 개 부류로 분류하는 택소노미를 제안하고, 그에 따른 취약점과 방어 기제를 체계적으로 분석했습니다. Ehtesham 등은 MCP, ACP, A2A, ANP 네 가지 프로토콜 을 상호작용 방식, 발견 메커니즘, 보안 모델 등의 축으로 비교했습니다.

특히 중요한 선행 연구는 Marro 등의 Agora 프로토콜 논문 입니다. 이들은 어떤 프로토콜도 동시에 최대화할 수 없는 세 가지 품질 속성, 즉 에이전트 통신 트릴레마(Agent Communication Trilemma) 를 제시했습니다. 첫째는 다양한 메시지 유형을 지원하는 다재다능성(versatility), 둘째는 계산과 네트워크 비용을 최소화하는 효율성(efficiency), 셋째는 임의의 에이전트가 손쉽게 채택할 수 있는 이식성(portability)입니다. 이 트릴레마는 논문 후반부 분석의 핵심 렌즈가 됩니다.

가장 직접적으로 비교되는 연구는 Yang 등의 택소노미 입니다. 이들은 프로토콜을 두 개의 차원, 즉 상대가 컨텍스트인지 에이전트인지를 나누는 객체 지향성과, 범용인지 도메인 특화인지를 나누는 응용 시나리오로 분류했습니다. 저자들은 이 연구를 존중하면서도 "단 두 개의 차원만으로는 이 분야를 깊이 있게 탐색하고 분석하는 데 필요한 추상적, 위계적 구조를 제공하기에 불충분하다" 고 지적합니다. 바로 이 빈틈이 이 논문이 더 세밀한 5 차원 택소노미를 만든 동기입니다.

분류 체계는 어떻게 만들었나

새로운 분류 체계를 제안할 때 가장 경계해야 할 것은 "저자의 주관적 감(感)으로 대충 나눈 것 아니냐" 는 의심입니다. 저자들은 이를 피하기 위해 정보시스템 분야에서 널리 검증된 Nickerson 등의 택소노미 개발 방법론 을 엄격히 따릅니다. 이 방법론은 구조적이고 반복적이며 추적 가능하고 재현 가능한 절차를 제공한다는 점에서, 임의적인 분류 과정과 근본적으로 다릅니다.

좋은 택소노미의 조건과 개발 절차

Nickerson 방법론은 좋은 택소노미가 갖춰야 할 다섯 가지 자질을 규정합니다. 간결성(concise), 견고성(robust), 포괄성(comprehensive), 확장성(extendible), 그리고 설명력(explanatory)입니다. 또한 모든 차원의 특성값은 상호 배타적(mutually exclusive)이면서 전체를 빠짐없이 망라(collectively exhaustive)해야 합니다. 즉 어떤 프로토콜이든 각 차원에서 정확히 하나의 값에 깔끔하게 배정되어야 한다는 뜻입니다.

개발은 세 가지 토대를 정의하는 것에서 시작합니다. 택소노미의 목적(누가 무엇에 쓸 것인가), 모든 특성의 기준이 되는 메타 특성(meta-characteristic), 그리고 언제 개발을 멈출지를 정하는 종료 조건입니다. 이 논문에서 메타 특성은 "관여하는 구성 요소의 유형과 그 통신의 특성에 따라 프로토콜을 분류한다" 로 설정되었습니다.

이후 저자들은 총 5 번의 반복(iteration)을 수행합니다. 앞의 3 번은 구체적 프로토콜에서 출발해 속성을 추출하는 경험적 접근(empirical-to-conceptual)으로 매번 3 개씩 프로토콜을 살폈고, 마지막 2 번은 이론에서 출발해 차원을 검증하는 개념적 접근(conceptual-to-empirical)으로 축적된 지식을 다듬었습니다. 마지막 반복에서 새로운 유효 차원이 더 나오지 않자, 종료 조건이 충족된 것으로 보고 개발을 마쳤습니다.

분석 대상이 된 9개 프로토콜

분류 대상의 선정 기준도 엄격합니다. 저자들은 (1) LLM 에이전트를 다른 시스템과 연결하도록 명시적으로 설계되었고, (2) 오픈소스이며 실제로 사용 가능한 구현체가 존재하고(연구 프로토타입도 허용), (3) GitHub에서 활발히 유지보수되며 채택의 흔적(스타 수 등)이 있는 프로토콜만 골랐습니다. 이 기준에 따라 구현이 없는 개념 단계의 LOKA, 비공개 솔루션인 Firecrawl과 uAgents, 마지막 커밋이 오래된 Agent Protocol, 스타가 20 개에 불과한 AITP 등은 제외되었습니다.

최종적으로 9 개 프로토콜이 선정되었습니다.

  • MCP (Model Context Protocol): Anthropic이 만든, 어떤 LLM에든 도구와 컨텍스트 정보를 표준화된 방식으로 연결하는 클라이언트-서버 프로토콜.
  • A2A (Agent to Agent): Google이 사일로화된 에이전트 인프라를 연결하기 위해 만든, 에이전트 간 연결에 초점을 둔 프로토콜.
  • LAP (LangChain Agent Protocol): LangChain이 정의한, /runs, /threads, /store 엔드포인트를 갖춘 RESTful API.
  • agents.json: 기존 웹사이트와 API를 LLM 에이전트가 발견하고 해석할 수 있게 하는, OpenAPI 기반의 무상태 JSON 명세.
  • Agora: 옥스퍼드 연구진이 만든, 중앙 서버 없이 통신 스키마를 런타임에 협상하는 탈중앙 프로토콜.
  • ANP (Agent Network Protocol): "에이전트 웹 시대의 HTTP" 를 표방하는, 신원 계층, 메타 프로토콜 계층, 응용 계층의 3 계층 P2P 프로토콜.
  • LMOS: Eclipse 생태계의 일부로, 전송 계층에 구애받지 않고(HTTP, WebSocket, MQTT 등) 메타데이터와 상호작용 패턴을 표준화하는 프로토콜.
  • ACP (Agent Communication Protocol): BeeAI와 IBM이 Linux Foundation 거버넌스 아래 만든 RESTful 개방형 표준.
  • agntcy: 단순한 프로토콜을 넘어 에이전트 인터넷(Internet of Agents)을 위한 오픈소스 인프라를 지향하는, OpenAPI를 확장한 Agent Connect Protocol.

택소노미의 5개 차원

다섯 번의 반복 끝에 도출된 최종 택소노미는 아래 그림과 같이 5 개의 차원으로 구성됩니다. 각 차원은 프로토콜을 바라보는 서로 다른 렌즈입니다.

상대방 (Counterparty)

가장 직관적인 차원으로, 에이전트가 프로토콜을 통해 상호작용하는 상대의 유형을 식별합니다. 한 LLM 에이전트를 다른 에이전트와 연결하면 에이전트(agent), 도구나 서비스, API, 데이터 소스 같은 비(非)에이전트 개체와 연결하면 컨텍스트(context), 둘 다 지원하면 하이브리드(hybrid) 입니다. 컨텍스트가 모든 비에이전트 상대를 포괄하도록 설계되어 상호 배타성과 망라성이 보장됩니다. 이는 앞서 언급한 Yang 등의 객체 지향성 차원을 계승하되, 둘 다 지원하는 경우를 위한 하이브리드 값을 추가해 확장한 것입니다.

페이로드 (Payload)

프로토콜이 주고받는 데이터의 종류를 분류합니다. 메타 정보를 포함한 구조화된 데이터나 아티팩트만 교환하면 구조화된 데이터와 아티팩트(structured data and artifacts), 텍스트가 항상 페이로드의 일부인 메시지 중심이면 대화 중심(conversation focused), 둘 다 지원하면 하이브리드 입니다. 여기서 핵심은 데이터의 구조적 성질 자체가 아니라, "프로토콜이 지원하도록 설계된 의도된 목적" 으로 분류한다는 점입니다. 텍스트가 항상 포함되고 구조화된 데이터는 선택적 확장으로만 붙는다면 대화 중심으로 봅니다.

상호작용 상태 (Interaction State)

프로토콜이 연결된 구성 요소 사이에서 상태를 가진 작업 단위를 유지하는지, 즉 메시지 교환을 가로질러 맥락을 보존하는지를 포착합니다. 값은 무상태(stateless)세션 상태(session state) 의 이진(binary) 구분입니다. 저자들은 통신 네트워크의 상태 관리 연구(stateless, soft state, session state, hard state)를 참고하되, 이 차원은 오직 단일 세션의 지속 기간만을 다루며 세션을 넘어 영구히 보존되는 것(장기 메모리 등)은 범위 밖이라고 명확히 선을 긋습니다.

발견 메커니즘 (Discovery Mechanism)

대규모 분산 시스템에서 노드는 보통 다른 노드의 정확한 위치를 알지 못하므로, 효율적인 발견 메커니즘이 확장성의 열쇠가 됩니다. 요청 에이전트가 엔드포인트를 미리 알아야 하는 정적(static), 레지스트리가 접근 가능한 엔드포인트 목록을 관리하는 중앙집중형(centralized), 소수의 슈퍼노드가 발견을 돕는 부분 중앙집중형(partially centralized), 중앙 권한 없이 각 피어가 네트워크 브로드캐스팅으로 발견하는 탈중앙형(decentralized), 그리고 여러 메커니즘을 동시에 지원하는 하이브리드로 나뉩니다. 정적을 기준선으로 두고 위계적으로 배열해 상호 배타성을 확보한 점이 영리합니다.

스키마 유연성 (Schema Flexibility)

마지막 차원은 프로토콜이 통신 스키마, 메시지 형식, 대화 구조를 조정하는 데 허용하는 유연성의 정도입니다. 런타임 전에 정의된 하나의 상호작용 패턴만 허용하면 단일(single), 사전에 정의된 여러 스키마 중에서 요청자가 런타임에 고를 수 있으면 다중(multiple), 상호작용하는 구성 요소가 런타임에 새로운 상호작용 방식을 협상할 수 있으면 진화형(evolving) 입니다. 페이로드 차원이 "무엇을" 주고받는지를 다룬다면, 이 차원은 그 정보가 따라야 할 "구조의 틀"이 얼마나 고정적인지를 다룹니다.

함께 살펴보는 기각된 세 가지 차원

좋은 택소노미는 무엇을 넣었는가만큼 무엇을 왜 뺐는가도 투명해야 합니다. 저자들은 초기 후보였던 세 차원을 검토 끝에 기각했는데, 그 이유가 오히려 이 택소노미의 설계 원칙을 잘 보여줍니다.

주도권 흐름(Initiative Flow) 은 누가 통신을 시작할 수 있는지를 봅니다. 클라이언트만 시작할 수 있는 단방향, 활성 세션 안에서는 양쪽이 메시지를 보내지만 시작은 한쪽만 가능한 맥락 한정 양방향, 누구나 언제든 시작할 수 있는 개방형 양방향으로 나뉩니다. 하지만 대부분의 프로토콜이 맥락 한정 양방향에 속하는 데다, 어떤 프로토콜이든 원리상 대칭적으로 구현하면 개방형 양방향이 될 수 있어 상호 배타성이 깨지고 분석적 가치가 적습니다.

단순성(Simplicity) 은 프로토콜의 가벼움 정도를 봅니다. A2A나 LMOS처럼 광범위한 기능을 담은 것이 있는가 하면, Agora, agents.json, ACP처럼 특정 용도에 집중해 경량 설계를 명시적으로 내세운 것도 있습니다. 그러나 "단순함"은 값을 가르는 명확한 경계를 그을 수 없을 만큼 모호한 개념이어서, 상호 배타적인 특성값을 만들 수 없다는 이유로 기각되었습니다.

영속 상태(Persistent State) 는 단일 또는 다중 턴 교환을 넘어 과거 상호작용 데이터를 저장하는 능력으로, 단일 세션만 다루는 상호작용 상태 차원과 구별되는 장기 영속성에 관한 것입니다. 실제로 A2A의 Agent Discovery Card나 ACP의 Agent Detail 엔드포인트처럼 대부분의 프로토콜이 이미 최소한의 메타데이터를 주고받고, LAP는 상호작용 스레드를 가로지르는 영속 키-값 저장소(store 엔드포인트)까지 제공합니다. 그럼에도 이 차원은 기각됩니다. 거의 모든 프로토콜이 노드 식별용 메타데이터를 교환하는 데다, 연결된 노드가 무엇을 영구히 저장할지는 프로토콜이 결정하는 영역이 아니며, 영속 상태 제공이 이들 프로토콜의 본질적 목표도 아니기 때문입니다.

9개 프로토콜을 분류해 보면

이제 택소노미를 실제 9 개 프로토콜에 적용할 차례입니다. 아래는 다섯 차원에 따른 분류 매트릭스로, 서로 다른 프로토콜의 패턴을 가로질러 비교하기 좋습니다.

차원 / 특성값 MCP A2A LAP agents.json Agora ANP LMOS ACP agntcy
상대방: 에이전트 O O O O O O
상대방: 컨텍스트 O O
상대방: 하이브리드 O
상호작용: 무상태 O O
상호작용: 세션 상태 O O O O O O O
발견: 정적 O O O O
발견: 중앙집중형 O O O O
발견: 하이브리드 O
페이로드: 구조화 데이터 O O
페이로드: 하이브리드 O O O O O O O
스키마: 단일 O O
스키마: 다중 O O O O O
스키마: 진화형 O O

각 프로토콜을 한 줄로 요약한 분류와 그 근거는 다음과 같습니다.

프로토콜 상대방 상호작용 발견 페이로드 스키마 분류 근거
MCP 컨텍스트 무상태 정적 구조화 데이터 다중 무상태 코어. 도구를 노출하며 알려진 엔드포인트 필요
A2A 에이전트 세션 상태 중앙집중형 하이브리드 다중 에이전트 간 태스크와 스트리밍. JSON 카드 또는 레지스트리
LAP 에이전트 세션 상태 정적 하이브리드 단일 다중 턴 세션용 고정 엔드포인트 REST API
agents.json 컨텍스트 무상태 정적 구조화 데이터 단일 LLM API 발견용 무상태 OpenAPI JSON 명세
Agora 에이전트 세션 상태 정적 하이브리드 진화형 탈중앙. 평문 스키마를 런타임에 동적 협상
ANP 에이전트 세션 상태 중앙집중형 하이브리드 진화형 상태 보존 메타 계층이 구조와 형식을 동적 협상
LMOS 하이브리드 세션 상태 하이브리드 하이브리드 다중 전송 비의존. 하이브리드 발견 모드로 메타데이터 표준화
ACP 에이전트 세션 상태 중앙집중형 하이브리드 다중 멀티모달 교환. 에이전트가 중앙 서버에 등록
agntcy 에이전트 세션 상태 중앙집중형 하이브리드 다중 중앙 매니페스트로 상태와 스트림을 다루는 OpenAPI 확장

분류 과정에서 드러나는 택소노미의 정밀함을 보여주는 좋은 예가 발견 메커니즘에서의 MCP입니다. MCP는 에이전트가 런타임에 서버의 능력(capability)을 발견할 수 있지만, 발견 메커니즘 차원에서는 요청 에이전트가 서버의 기본 주소를 사전에 알고 있어야 하므로 정적으로 분류됩니다. 반면 A2A는 JSON Agent Card를 자기 명세로 삼아 자기 도메인의 표준 경로에 호스팅하거나, 비공개 채널로 공유하거나, 중앙 레지스트리에 게시하고 조회하는 세 가지 발견 전략을 지원하는데, 레지스트리 기반 옵션이 있다는 이유로 중앙집중형으로 분류됩니다. "능력을 발견할 수 있는가""상대를 발견할 수 있는가" 를 혼동하지 않고 갈라내는 지점에서, 잘 설계된 택소노미의 가치가 드러납니다.

데이터에서 드러난 패턴

분류표를 가로질러 보면 몇 가지 뚜렷한 규칙성이 드러납니다.

첫째, 에이전트 간 통신을 구현하는 프로토콜(9 개 중 7 개)은 예외 없이 세션 상태 기능을 갖췄습니다. 현대 LLM 에이전트는 다중 턴 상호작용에 의존하고, 이는 곧 상태 보존을 요구하므로 당연한 귀결입니다.

둘째, 에이전트 간 프로토콜 중 대화 중심 페이로드에만 머무는 것은 하나도 없습니다. 모두 하이브리드여서, 텍스트 메시지뿐 아니라 순수하게 구조화된 페이로드도 함께 실어 나릅니다. 반대로 컨텍스트 연결에 특화된 MCP와 agents.json만이 구조화된 데이터와 아티팩트 유형으로 분류됩니다.

셋째, 스키마 유연성으로의 분명한 추세 가 보입니다. 다수(9 개 중 7 개)가 복수의 스키마 정의를 허용하고, 그중 둘(9 개 중 2 개)인 Agora와 ANP는 런타임에 스키마를 진화시킵니다. Agora의 핵심 개념인 프로토콜 문서(Protocol Document)는 처음에는 완전히 자연어로 상호작용하다가, 더 효율적인 프로토콜이 합의되면 이후 교환을 구조화된 형식으로 전환합니다. 마치 두 사람이 처음엔 풀어서 설명하다가, 서로를 이해하고 나면 약어와 속기로 빠르게 대화하는 것과 같습니다.

넷째, 탈중앙 발견은 여전히 드뭅니다. 진정한 P2P 방식의 탈중앙 발견을 구현한 것은 LMOS 1 개뿐이고, 나머지는 중앙집중형 레지스트리(9 개 중 4 개)나 정적 설정(9 개 중 4 개)에 의존합니다. 저자들은 에이전트 인터넷이 주류 패러다임으로 부상한다면 탈중앙 접근이 점점 더 중요해질 것이라고 내다봅니다.

통신 트릴레마와 계층형 스택이라는 전망

택소노미의 진짜 가치는 분류 그 자체가 아니라, 그것이 열어 주는 통찰에 있습니다. 저자들은 앞서 소개한 통신 트릴레마를 자신들의 택소노미에 겹쳐 보며 흥미로운 구조적 트레이드오프를 읽어 냅니다.

"프로토콜은 다재다능성, 효율성, 이식성을 동시에 최대화할 수 없다" 는 트릴레마는 스키마 유연성과 페이로드 차원의 양극단에서 선명하게 드러납니다. MCP처럼 컨텍스트 상호작용에 특화된 프로토콜은 경직된 스키마, 무상태 상호작용, 엄격히 구조화된 페이로드를 강제함으로써 이식성과 효율성을 극대화합니다. 토큰을 잡아먹는 협상 과정이 사라지므로, 예측 가능하고 처리량이 높은 에이전트-도구 호출에 이상적입니다. 반대로 Agora와 ANP처럼 진화형 스키마를 가진 프로토콜은 다재다능성을 극대화해 개방형 다중 에이전트 토론을 가능케 하지만, 스키마 협상 과정에서 상당한 토큰 오버헤드와 지연(latency)을 유발해 효율성을 크게 떨어뜨립니다.

흥미롭게도 A2A, LMOS, ACP처럼 조사된 프로토콜의 다수는 이 트릴레마의 한가운데를 항해합니다. 하이브리드 페이로드, 세션 상태 보존, 복수의 사전 정의 스키마를 채택함으로써, 런타임 협상의 극단적 효율 손실 없이도 복잡한 상호작용을 지원할 만큼의 다재다능성을 확보하는 절충안인 셈입니다.

단일 표준 vs 계층형 스택

그렇다면 이 분야는 결국 하나의 거대한 표준으로 수렴할까요, 아니면 모듈형 구조로 갈까요? 단기적으로는 수렴 압력이 존재합니다. 실제로 A2A와 agntcy는 스스로를 MCP의 확장으로 소개하며, 에이전트 간 통신과 에이전트-컨텍스트 통신을 아우르는 통합 표준을 향한 움직임을 보입니다. 다만 MCP를 주도하는 Anthropic은 이 둘 중 어느 쪽도 공식적으로 지지한 적이 없다는 점은 짚어 둘 만합니다.

하지만 저자들은 "승자 독식(winner-takes-all)" 식의 단일 표준이 우세할 가능성은 낮다고 주장합니다. 트릴레마가 말해 주듯 모든 것을 동시에 최적화하는 전능한 프로토콜은 불가능하기 때문입니다. 그 대신, 전통적 컴퓨터 네트워킹의 OSI 모델 처럼 연합형(federated), 계층형(layered) 프로토콜 스택으로 진화할 것이라고 전망합니다. 가벼운 명세는 능력 발견을, 고도로 구조화된 컨텍스트 프로토콜은 안전한 도구 실행을, 세션을 인식하는 스키마 진화형 프로토콜은 복잡한 다중 턴 심의를 각각 담당하는 식입니다.

이 전망을 구체화한 것이 논문이 제안하는 후보 계층 스택입니다(이는 관찰된 사실이 아니라 논증을 시각화한 제안임에 유의해야 합니다). 아래 계층은 트릴레마에 따라 정렬되어, 하위 계층일수록 효율성과 이식성을(경직된 스키마, 무상태, 구조화 페이로드), 상위 계층일수록 다재다능성을(세션 인식, 스키마 진화) 우선합니다.

계층 역할 대표 프로토콜
L5 심의 (Deliberation) 스키마 협상 Agora, ANP
L4 상호작용 (Interaction) 태스크와 스트리밍 A2A, LAP, ACP, agntcy
L3 실행 (Execution) 구조화된 도구 호출 MCP
L2 발견 (Discovery) 매니페스트, 레지스트리 agents.json, LMOS
L1 식별과 전송 (Identity and Transport) 인증, 보안 전달 ANP, agntcy, LMOS

모두가 비워 둔 자리: 프라이버시와 정책

저자들은 분석한 모든 프로토콜을 가로지르는 한 가지 공통된 공백을 날카롭게 지적합니다. 바로 프라이버시 보호, 컴플라이언스 점검, 정책 집행 메커니즘의 광범위한 부재 입니다. 에이전트가 의료나 인사처럼 안전이 중요한 영역에 점점 더 배치될수록, 개인 정보와 보안 민감 데이터를 보호하는 장치의 결여는 점점 더 심각한 문제가 될 것입니다. 지금의 프로토콜들이 "어떻게 연결할 것인가"에 골몰하느라 "무엇을 연결해서는 안 되는가"는 거의 다루지 못하고 있다는 진단입니다.

한계점과 의의

저자들은 자신들의 택소노미가 완결판이 아님을 인정합니다. 향후 연구는 더 기술적인 프로토콜 차원, 인증과 보안 메커니즘, 정책과 규범을 어떻게 내장하는지 같은 차원을 추가해 택소노미를 풍부하게 만들 수 있습니다. 또한 새로운 프로토콜이 등장할 때마다 분류해 넣는 작업은 택소노미의 타당성을 강화하는 동시에, 이 분야의 발전을 체계적으로 추적하는 수단이 됩니다. 분석 대상이 9 개로 한정된 점, 그리고 계층 스택이 검증된 사실이 아닌 논증적 제안이라는 점은 이 연구를 읽을 때 함께 고려해야 할 지점입니다.

그럼에도 이 논문의 의의는 분명합니다. 빠르게 복잡해지는 에이전트 통신 프로토콜의 풍경에, 처음으로 충분히 세밀하면서도(5 차원) 재현 가능한 방법론에 기반한 좌표계를 세웠다는 점입니다. 연구자에게는 새 프로토콜을 직관적으로 위치시키고 전체 추세를 읽는 지도가 되고, 개발자에게는 자신의 사용 사례에 어떤 프로토콜이 맞는지 고르는 실용적 기준이 됩니다. 에이전트들이 부분적으로, 혹은 완전히 자율적으로 복잡한 일을 처리하는 미래로 향하는 길에서, "에이전트가 어떻게 소통하는가" 는 결국 그 네트워크의 형태 자체를 결정하는 가장 중요한 설계 요소이기 때문입니다.

:scroll: A Technical Taxonomy of LLM Agent Communication Protocols 논문

:scroll: A scalable communication protocol for networks of large language models (Agora, 통신 트릴레마)

:scroll: A Survey of AI Agent Protocols (Yang 등, 2차원 택소노미)

:house: Model Context Protocol (MCP)

:house: Agent2Agent (A2A) Protocol

:house: Agent Communication Protocol (ACP)

더 읽어보기




이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. :hugs:

:pytorch:파이토치 한국 사용자 모임:south_korea:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다!
텔레그램(Telegram)이나 Slack/Discord/Teams/Dooray/GoogleChat 등으로도 새 글 알림을 받으실 수 있습니다. :smiley:

:wrapped_gift: 아래:down_right_arrow:쪽에 좋아요:+1:를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~ :star_struck: