ADAS: Automated Design of Agentic Systems 논문 소개
ADAS(Automated Design of Agentic Systems)는 강력한 에이전트 시스템 설계를 자동으로 생성하는 것을 목표로 합니다. 이 시스템은 새로운 구성 요소를 발명하거나 기존 요소들을 새로운 방식으로 결합하는 것을 포함합니다. 이 연구에서는 Meta Agent Search라는 간단하지만 효과적인 ADAS 알고리즘을 제시하여, 에이전트가 스스로 새로운 강력한 에이전트 설계를 발명할 수 있음을 증명합니다.
ADAS는 파운데이션 모델(FM)을 '메타 에이전트(Meta Agent)'로 활용하면서 이전 발견을 기반으로 새로운 에이전트를 반복적으로 생성 / 평가 / 개선합니다. 이러한 Meta Agent Search는 간단하면서도 효과적인 알고리즘으로, 각 도메인에 맞는 실험을 통해 에이전트 설계의 가능성을 탐구합니다. 논문에서는 이 방법이 최첨단 수동 설계된 에이전트보다 우수할 뿐만 아니라, 다양한 도메인과 모델에서 강력한 전이 가능성을 보여주고 있습니다. 또한, ADAS가 향후 AI 개발을 혁신할 잠재력을 가지고 있음을 강조합니다.
ADAS: Automated Design of Agentic Systems 논문에서 다루고 있는 주요한 개념들은 다음과 같습니다:
파운데이션 모델(Foundation Models, FM): 파운데이션 모델은 GPT-4와 같은 대형 사전 학습 AI 모델을 의미하며, 최소한의 파인튜닝(fine-tuning)으로 다양한 작업을 수행할 수 있습니다. 이러한 모델은 특정 응용 프로그램이 구축될 수 있는 기초가 되기 때문에 "파운데이션"이라고 불립니다. ADAS의 맥락에서, FM은 새로운 에이전트를 생성하고, 성능을 평가하고, 이를 개선하는 메타 에이전트로 사용됩니다. ADAS에서 FM을 사용하면 복잡한 작업을 수행할 수 있는 에이전트를 자동으로 생성할 수 있습니다. 이는 이러한 대형 모델에 내장된 광범위한 지식과 역량을 활용하는 것입니다.
메타 에이전트(Meta Agent): ADAS에서 메타 에이전트는 다른 AI 에이전트를 생성하고 개선하는 역할을 담당하는 AI 엔티티입니다. 메타 에이전트는 FM을 사용하여 새로운 에이전트를 생성하고, 작업별로 성능을 테스트하며, 어떤 에이전트를 유지하고 추가로 개선할지 결정합니다. 이 프로세스는 반복적이며, 메타 에이전트는 발견된 이전 에이전트의 아카이브에서 계속 학습합니다. 메타 에이전트 개념은 ADAS의 핵심 요소로, 에이전트 설계를 자동화하고, 인간이 설계한 것보다 더 창의적이고 효율적인 AI 시스템을 발견할 수 있도록 합니다.
에이전틱 시스템(Agentic System): 에이전틱 시스템은 특정 작업을 자율적으로 수행하도록 설계된 AI 시스템을 의미합니다. 이러한 시스템은 종종 목표를 달성하기 위해 협력하는 여러 구성 요소로 이루어져 있으며, 여기에는 계획 수립, 도구 사용, 반복적인 문제 해결 등이 포함됩니다. 에이전틱 시스템의 복잡성은 이를 수동으로 설계하는 것이 매우 어렵고 시간이 많이 걸리게 만듭니다. ADAS는 에이전틱 시스템의 발견과 개선을 자동화하여 더 강력하고 효율적인 AI 솔루션을 만들어내는 것을 목표로 합니다.
ADAS의 주요 구성요소 및 동작 방식
ADAS의 핵심 아이디어는 메타 에이전트를 통해 AI 에이전트를 자동으로 발견하고 개선하는 것입니다. 기존의 인간 설계 아키텍처와 달리, ADAS는 훨씬 더 넓은 공간에서 가능한 에이전트 설계를 탐색할 수 있습니다. 메타 에이전트는 새로운 에이전트를 반복적으로 생성하고, 특정 작업에 대한 성능을 평가하며, 결과를 바탕으로 이를 개선합니다. 이 프로세스는 인간 설계자가 즉시 상상하지 못할 새로운 AI 아키텍처를 발견할 수 있도록 합니다.
또한, ADAS 접근법의 핵심으로 메타 에이전트 서치 알고리즘을 소개합니다. 이 알고리즘은 파운데이션 모델을 메타 에이전트로 사용하고 있으며, 코드로 에이전트를 생성하는 역할을 합니다. 메타 에이전트는 이러한 에이전트를 특정 작업에서 평가한 후, 가장 성능이 우수한 에이전트를 저장소(Repository)에 추가하고, 이를 바탕으로 새로운 에이전트를 생성합니다. 시간이 지남에 따라 메타 에이전트는 이전 발견을 기반으로 점점 더 정교하고 효과적인 에이전트를 생성할 수 있게 됩니다. 이 반복적인 프로세스는 인간 설계자가 설계를 개선하는 방식과 유사하지만, 훨씬 더 빠르고 광범위하게 확장할 수 있습니다.
ADAS의 핵심 요소는 탐색 공간(Search Space), 검색 알고리즘(Search Algorithm), 그리고 평가 함수(Evaluation Function)로 구성됩니다. 탐색 공간은 에이전트 시스템이 표현될 수 있는 범위를 정의하며, 이를 통해 ADAS는 새로운 에이전트 설계를 탐색합니다. 예를 들어, ADAS는 프롬프트, 도구 사용, 제어 흐름 등을 포함한 다양한 구성 요소를 검색 공간 내에서 탐색할 수 있습니다. 검색 알고리즘은 이 검색 공간을 탐색하는 방법을 정의하며, 성능이 뛰어난 에이전트 시스템을 신속하게 발견하는 동시에 지역 최적화에 빠지지 않도록 설계되어야 합니다. 마지막으로, 평가 함수는 발견된 에이전트를 평가하는 기준을 정의합니다. 이 함수는 성능, 비용, 지연 시간, 안전성 등 다양한 목표를 최적화하는 데 사용될 수 있습니다.
탐색 공간과 알고리즘: ADAS에서 탐색 공간은 코드로 표현할 수 있는 가능한 에이전틱 시스템의 범위에 의해 정의됩니다. 여기에는 에이전트의 구조뿐만 아니라 제어 흐름, 도구 사용, 외부 모듈의 통합 등이 포함됩니다. 탐색 알고리즘은 이러한 공간을 탐색하여 새로운 에이전트를 생성하고, 성능을 평가하며, 피드백을 바탕으로 이를 개선합니다. 알고리즘의 반복적 성격 덕분에, 매우 크고 복잡한 탐색 공간에서도 효과적인 에이전트를 점진적으로 발견할 수 있습니다. 파운데이션 모델을 활용하여, 탐색 알고리즘은 매우 다양한 에이전트 설계를 빠르게 생성하고 평가할 수 있어, 기존 방법보다 훨씬 더 큰 공간을 탐색할 수 있습니다.
평가 함수: ADAS에서 평가 함수는 생성된 각 에이전트의 성능을 평가하는 데 사용됩니다. 이 함수는 일반적으로 작업별 정확도를 기반으로 하지만, 효율성, 견고성, 다양한 도메인 간 전이 가능성 등 다른 요소도 고려할 수 있습니다. 평가 함수는 탐색 알고리즘을 안내하는 중요한 역할을 하며, 어떤 에이전트를 유지하고 개선할지를 결정합니다. 논문에서 저자들은 평가 함수가 다양한 도메인에 맞게 조정될 수 있음을 입증하며, 메타 에이전트가 특정 작업에 최적화된 에이전트를 발견할 수 있도록 합니다.
반복적 개선 프로세스: ADAS 접근법의 핵심은 메타 에이전트가 생성하는 에이전트를 지속적으로 개선하는 반복적 개선 프로세스입니다. 이 프로세스는 새로운 에이전트를 생성하고, 작업 집합에서 이를 테스트하며, 결과를 바탕으로 설계를 개선하고, 이 과정을 반복하는 방식으로 이루어집니다. 시간이 지남에 따라, 이 과정은 매우 효과적인 에이전트를 발견하게 되며, 다양한 작업에서 우수한 성능을 발휘할 수 있습니다. 이 반복적인 성격은 메타 에이전트가 과거의 실수와 성공에서 학습하여, 미래의 반복에서 더 정보에 입각한 결정을 내릴 수 있도록 합니다.
실험 및 결과
ARC 챌린지 사례 연구
ARC(Abstraction and Reasoning Corpus) 챌린지는 AI 시스템의 일반 지능을 평가하기 위한 어려운 논리 퍼즐입니다. 이 챌린지는 시각적 입력-출력 그리드 패턴을 학습하고, 이를 바탕으로 새로운 패턴을 예측하는 작업을 포함합니다. ARC 챌린지는 각 질문이 고유한 변환 규칙을 가지고 있어, AI 시스템이 소수의 예시만으로 효율적으로 학습할 수 있어야 하는데, 이는 매우 도전적인 과제입니다. Meta Agent Search는 ARC 챌린지에서 새로운 에이전트 시스템을 발견하고, 기존의 최첨단 에이전트보다 뛰어난 성능을 보였습니다.
Meta Agent Search는 ARC 챌린지에서 25번의 반복 실험을 통해 높은 성능의 에이전트를 발견했습니다. 중요한 설계 패턴은 다수의 Chain-of-Thoughts(COTs)를 활용하여 가능한 답변을 생성하고, 이를 정제한 후 최상의 답변을 앙상블하는 방법이었습니다. 이 설계 패턴은 초기에는 단순한 형태로 시작되었지만, 반복적인 개선 과정을 거쳐 점점 더 정교해졌습니다. 최종적으로 발견된 최고의 에이전트는 복잡한 피드백 메커니즘을 채택하여 답변을 더욱 효과적으로 정제할 수 있었습니다.
ARC 챌린지에서 Meta Agent Search가 발견한 에이전트는 GPT-4와 같은 고급 모델로 전이되었을 때도 뛰어난 성능을 유지했습니다. 이는 Meta Agent Search가 발견한 에이전트가 특정 도메인에 국한되지 않고, 다양한 도메인에서 일반화될 수 있는 강력한 설계 패턴을 가지고 있음을 보여줍니다. 이러한 결과는 ADAS가 에이전트 시스템의 자동 설계에서 중요한 역할을 할 수 있음을 시사합니다.
추론 및 문제 해결 도메인
추론 및 문제 해결 능력은 에이전트 시스템의 중요한 평가 요소 중 하나입니다. Meta Agent Search는 다양한 도메인에서 에이전트의 성능을 개선하는 데 성공했습니다. 예를 들어, 독해(Reading Comprehension), 수학(Math), 과학 질문(Science Questions) 등 여러 인기 있는 벤치마크에서 Meta Agent Search가 발견한 에이전트는 기존의 최첨단 수작업 설계 에이전트보다 뛰어난 성능을 보였습니다. 특히 수학 도메인에서는 정확도에서 큰 향상을 보였으며, 이러한 성능 향상은 다른 도메인에서도 유사하게 나타났습니다.
Meta Agent Search는 각 도메인에 특화된 에이전트를 발견할 수 있는 강력한 도구임을 입증했습니다. 독해와 수학 도메인에서의 성능 향상은 특히 두드러졌으며, 이는 Meta Agent Search가 강력한 문제 해결 능력을 가진 에이전트를 설계할 수 있음을 보여줍니다. 독해 도메인에서 Meta Agent Search가 발견한 에이전트는 F1 점수가 기존 에이전트보다 13.6점 더 높았으며, 수학 도메인에서는 정확도가 14.4% 더 높았습니다. 이러한 결과는 Meta Agent Search가 다양한 도메인에서 탁월한 성능을 발휘할 수 있는 에이전트를 설계할 수 있음을 보여줍니다.
추론 및 문제 해결 도메인에서 Meta Agent Search가 발견한 에이전트는 또한 다양한 도메인 간의 전이 가능성도 높았습니다. 예를 들어, 수학 도메인에서 발견된 에이전트는 다른 도메인으로 전이되었을 때도 높은 성능을 유지했으며, 이는 Meta Agent Search가 일반화 가능한 설계 패턴을 발견할 수 있음을 시사합니다. 이러한 결과는 Meta Agent Search가 에이전트 설계에서 중요한 도구로 활용될 수 있음을 보여줍니다.
일반화 및 전이 가능성
Meta Agent Search의 중요한 강점 중 하나는 발견된 에이전트가 다양한 모델과 도메인에서 일반화될 수 있다는 점입니다. 예를 들어, GPT-3.5에서 발견된 에이전트는 다른 모델(GPT-4, Claude-Haiku 등)로 전이되었을 때도 뛰어난 성능을 유지했습니다. 이는 Meta Agent Search가 발견한 설계 패턴이 특정 모델에 국한되지 않고, 다양한 모델에서 효과적으로 작동할 수 있음을 의미합니다. 특히, Claude-Sonnet 모델에서 발견된 에이전트는 ARC에서 50%에 가까운 정확도를 달성하여 매우 강력한 성능을 보였습니다.
도메인 간 전이 가능성도 Meta Agent Search의 중요한 성과 중 하나입니다. 수학 도메인에서 발견된 에이전트는 다른 수학 도메인(GSM8K, GSM-Hard 등)으로 전이되었을 때도 성능이 유지되었으며, 심지어 비수학 도메인(독해, 과학 등)으로 전이되었을 때도 기존의 수작업 에이전트보다 뛰어난 성능을 보였습니다. 이러한 결과는 Meta Agent Search가 발견한 에이전트가 다양한 도메인에서 일반화될 수 있는 강력한 설계 패턴을 가지고 있음을 시사합니다.
이와 같은 전이 가능성은 Meta Agent Search가 다양한 도메인에서 강력한 에이전트를 설계할 수 있는 중요한 도구임을 보여줍니다. 특히, 새로운 도메인에 맞춘 에이전트 설계가 필요할 때, Meta Agent Search는 효율적으로 강력한 에이전트를 발견할 수 있는 방법을 제공합니다. 이는 ADAS가 에이전트 설계에서 중요한 역할을 할 수 있음을 보여줍니다.
ADAS 논문
ADAS GitHub 저장소
더 읽어보기
이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.
파이토치 한국 사용자 모임이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)
아래쪽에 좋아요를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~