Agent Laboratory: 자율 연구 수행 및 협업을 위한 AI 에이전트 프레임워크에 대한 연구 (feat. AgentRxiv)

9bow · 1월 19, 2026, 9:30오후

Agent Laboratory 소개

Agent Laboratory는 연구자가 아이디어를 제안하면, 문헌 조사부터 실험 수행, 결과 분석, 그리고 최종 논문 작성에 이르기까지 연구의 전 과정을 자율적으로 수행하는 대규모 언어 모델(LLM) 기반의 연구 워크플로우 시스템입니다. Johns Hopkins University, ETH Zurich, 그리고 AMD의 연구진이 공동으로 개발한 이 프로젝트는 과학적 발견 과정을 가속화하고 연구 비용을 절감하며, 동시에 연구의 질을 향상시키는 것을 목표로 합니다.

과학 연구는 역사적으로 막대한 시간과 자원이 소요되는 과정이었습니다. 연구자들은 창의적인 아이디어를 구상하는 시간보다 데이터 전처리, 반복적인 코딩, 문헌 정리와 같은 부수적인 작업에 더 많은 시간을 쏟곤 했습니다. Agent Laboratory는 이러한 문제를 해결하기 위해 설계되었습니다. 이 시스템은 단순히 코드를 생성하는 도구를 넘어, 실제 연구실의 구성원처럼 행동하는 전문화된 AI 에이전트들로 팀을 구성합니다. 각 에이전트는 박사급 연구원, 머신러닝 엔지니어, 소프트웨어 엔지니어 등의 역할을 맡아 협업하며, 연구자가 더 중요하고 창의적인 문제 해결에 집중할 수 있도록 돕습니다.

특히, 최근 발표된 AgentRxiv 프레임워크의 도입으로 Agent Laboratory는 개별적인 연구 수행을 넘어선 '집단 지성'의 단계로 진화했습니다. 기존의 AI 에이전트들이 서로 고립되어 매번 처음부터 연구를 시작했던 것과 달리, AgentRxiv를 통해 에이전트들은 서로의 연구 결과를 공유하고, 이전 연구의 성과를 바탕으로 더 심화된 연구를 진행할 수 있게 되었습니다. 이는 마치 과학계가 선행 연구를 인용하며 발전해 나가는 누적적 과학(Cumulative Science)의 과정을 AI 에이전트 세계에 구현한 것입니다.

기존 단일 에이전트 연구와 AgentRxiv 협업 연구의 비교

Agent Laboratory의 가장 큰 혁신 중 하나는 자율 연구 에이전트들이 서로 협력할 수 있는 생태계인 AgentRxiv입니다. 이 시스템의 도입 전후는 연구의 깊이와 효율성 측면에서 명확한 차이를 보입니다.

기존의 단일 에이전트 방식, 즉 고립된 연구(Isolated Research) 환경에서는 에이전트가 연구를 시작할 때마다 백지상태에서 출발해야 했습니다. 이전의 에이전트가 유사한 주제에 대해 훌륭한 발견을 했거나 효율적인 코드를 작성했더라도, 새로운 에이전트는 이를 알 방법이 없었기 때문에 동일한 시행착오를 반복하거나 '바퀴를 다시 발명하는' 비효율이 발생했습니다. 이는 에이전트의 성능이 개별 모델의 지능에만 전적으로 의존하게 됨을 의미합니다.

반면, AgentRxiv를 활용한 협력적 자율 연구(Collaborative Autonomous Research) 방식은 에이전트들이 공용 프리린트 서버(Preprint Server)를 통해 지식을 공유합니다. 한 에이전트 연구소(Agent Laboratory)가 연구를 완료하고 보고서를 서버에 업로드하면, 이후 연구를 수행하는 다른 에이전트들이 이를 검색(Retrieve)하고 참조할 수 있습니다. 예를 들어, 한 에이전트가 특정 수학 문제 해결을 위한 프롬프팅 기법을 최적화했다면, 다음 에이전트는 그 기법을 베이스라인으로 삼아 더 발전된 기법을 연구할 수 있습니다.

실제로 연구진은 AgentRxiv를 통해 선행 연구를 참조한 에이전트들이 고립된 에이전트들보다 MATH-500 벤치마크에서 11.4% 더 높은 성능 향상을 기록했음을 확인했습니다. 이는 AI 에이전트가 서로의 어깨 위에 올라서서 더 높은 곳을 바라볼 수 있게 됨을 시사합니다.

Agent Laboratory 방법론

Agent Laboratory는 정교하게 설계된 3단계의 워크플로우(문헌 검토 - 실험 - 보고서 작성) 및 각 워크플로우에 포함된 총 6단계의 하위 작업(Subtasks)들을 통해 연구를 진행합니다. 각 단계는 서로 다른 전문성을 가진 여러 에이전트들이 유기적으로 협력하여 수행됩니다.

문헌 검토 (Literature Review) 및 계획 수립 (Plan Formulation)

연구의 첫 단추인 문헌 조사 단계는 주어진 연구 주제와 관련된 기존 연구들을 수집하고 분석하는 과정입니다. 이 단계에서 박사 과정 학생(PhD Student) 에이전트는 arXiv API를 활용하여 관련 논문을 검색합니다. 에이전트는 단순히 키워드 검색만 하는 것이 아니라, 검색된 논문의 초록을 읽고(Summary action), 필요하다면 전체 텍스트를 추출하여 내용을 파악(Full text action)한 뒤, 최종적으로 참고 문헌으로 추가할지 결정(Add paper action)합니다. 이 과정은 단발성으로 끝나지 않고, 에이전트가 충분한 정보를 수집했다고 판단할 때까지 반복적으로 질의를 수행하며 포괄적인 리뷰를 작성합니다. 이렇게 수집된 문헌 정보는 이후 실험 계획 수립과 논문 작성의 핵심적인 근거 자료로 활용됩니다.

문헌 조사가 완료되면, '연구 계획 수립(Plan Formulation)' 단계로 넘어갑니다. 여기서는 박사 과정 학생 에이전트와 박사 후 연구원(PostDoc) 에이전트가 대화를 통해 구체적이고 실행 가능한 연구 계획을 세웁니다. 마치 실제 랩미팅을 하듯이, 두 에이전트는 어떤 머신러닝 모델을 사용할지, 어떤 데이터셋이 적절할지, 그리고 구체적인 실험 단계는 어떻게 구성할지 등을 논의합니다. 이 대화 과정을 통해 추상적이었던 초기 아이디어는 구체적인 실험 프로토콜로 다듬어집니다. 합의가 이루어지면 포스트닥 에이전트는 확정된 계획을 제출하며, 이는 이후 단계의 에이전트들이 따라야 할 명확한 지침서 역할을 하게 됩니다.

연구진들은 또한, Agent Laboratory에 최근 연구 결과물인 AgentRxiv라는 프레임워크를 도입하였습니다. AgentRxiv는 마치 인간 과학자들이 arXiv나 bioRxiv와 같은 프리프린트 서버를 통해 연구를 공유하듯, LLM 에이전트 연구소들이 자신들의 연구 보고서를 업로드하고 검색할 수 있는 공유된 저장소 역할을 합니다. 이 시스템을 통해 에이전트들은 서로의 통찰력을 공유하고, 다른 에이전트가 발견한 내용을 바탕으로 자신의 연구를 반복적으로 발전시킬 수 있게 됩니다. 연구진은 이 프레임워크를 통해 에이전트들이 이전 연구에 접근할 수 있을 때, 고립된 상태에서 연구할 때보다 훨씬 더 높은 성능 향상을 달성함을 확인했습니다. 구체적으로 MATH-500 벤치마크에서 베이스라인 대비 11.4%의 상대적 성능 향상을 기록했으며, 여러 에이전트 연구소가 동시에 협업할 경우 이 수치는 13.7%까지 증가했습니다.

데이터 준비 (Data Preparation) 및 실험 수행 (Experimentation)

문헌 검토를 통해 실험 계획이 수립되면, 이제 실험 에이전트들이 바통을 이어받아 실제로 코드를 작성하고 데이터를 준비하게 됩니다. 데이터 준비(Data Preparation) 단계에서는 ML 엔지니어(ML Engineer) 에이전트가 Hugging Face 라이브러리 등을 활용하여 실험에 필요한 데이터를 로드하고 전처리하는 코드를 작성합니다. 이 때, ML 엔지니어는 작성된 코드를 실행해 보고, 출력 결과를 확인하며 오류가 없는지 검증하는 과정을 거칩니다. 코드가 성공적으로 실행되고 데이터가 준비되었다고 판단되면, 이 코드는 다음 단계인 실험 수행 단계로 전달됩니다.

실험 수행(Running Experiments) 단계는 이 프레임워크의 기술적 핵심인 **mle-solver**가 주도합니다. mle-solver는 머신러닝 코드를 자율적으로 생성하고, 테스트하고, 개선하도록 설계된 특화 모듈입니다. mle-solver는 초기에는 빈 파일에서 시작하여 연구 계획에 맞는 코드를 생성합니다. 이후 REPLACE(파일 전체 교체) 또는 EDIT(특정 라인 수정) 명령을 통해 코드를 점진적으로 발전시킵니다.

생성된 코드는 실행 및 컴파일 과정을 거치며, 에이전트들은 런타임 에러가 발생하면 스스로 수정을 시도하는 자가 수정(Self-Correction) 능력을 갖습니다. 성공적으로 실행된 코드는 LLM 기반의 보상 모델(Reward Model)을 통해 평가되는데, 이 보상 모델은 코드가 연구 계획을 얼마나 잘 따랐는지, 결과가 유의미한지 등을 0과 1 사이의 점수로 채점합니다.

또한, 성능 안정화를 위해 상위 점수를 받은 프로그램들을 보관하고 이를 바탕으로 새로운 코드를 생성하는 진화적 방법론을 사용합니다. 실험이 완료되면 박사 과정 학생과 포닥 에이전트가 다시 모여 실험 결과를 해석하고, 이것이 논문에서 어떤 의미를 갖는지 토의하여 결과 해석(Results Interpretation)을 도출합니다.

Agent Laboratory 연구진은 이 단계에서 생성된 머신러닝 코드가 인간 전문가가 작성한 코드와 비교했을 때도 경쟁력 있는 성능(State-of-the-Art)을 발휘한다고 보고했습니다.

결과 해석 (Results Interpretation) 및 논문 작성 (Report Writing) 단계

모든 실험이 완료되고 실험 결과가 나오면, 이제 이를 바탕으로 논문을 작성할 차례입니다. 논문 작성(Report Writing) 단계에서는 paper-solver 모듈이 사용됩니다. 먼저, paper-solver는 논문의 전체적인 뼈대(Scaffold)를 잡습니다. 초록, 서론, 관련 연구, 방법론, 실험, 결과, 토의 등 표준적인 학술 논문 구조에 맞춰 섹션을 나누고, 각 섹션에 들어갈 내용을 플레이스홀더로 지정합니다.

그 후, 각 섹션을 채워 넣는 과정에서 필요하다면 추가적인 문헌 조사를 수행하기도 합니다. 텍스트 생성은 LaTeX 포맷으로 이루어지며, EDIT 명령을 통해 문단별로 내용을 다듬고, LaTeX 컴파일러를 통해 문법 오류를 점검합니다. 이 과정은 마치 사람이 초안을 쓰고 퇴고하는 과정과 흡사하게 진행됩니다.

작성된 초안은 논문 정제(Paper Refinement) 단계를 거칩니다. 여기서는 NeurIPS와 같은 최고 권위 학회의 리뷰 프로세스를 시뮬레이션합니다. 가상의 리뷰어 에이전트들이 생성된 논문을 읽고 독창성, 품질, 명확성, 중요성 등을 기준으로 점수를 매기고 리뷰를 작성합니다. 박사 과정 학생 에이전트는 이 리뷰를 바탕으로 논문을 수정할지, 아니면 이대로 완료할지를 결정합니다. 만약 수정이 필요하다고 판단되면, 다시 이전 단계로 돌아가 실험을 보완하거나 텍스트를 수정하는 과정을 거칠 수 있습니다. 이러한 피드백 루프는 결과물의 품질을 실제 학술 논문 수준으로 끌어올리는 데 중요한 역할을 합니다.

Agent Laboratory의 Co-Pilot 모드: 인간과 AI의 협업 (Human-in-the-loop)

Agent Laboratory는 완전 자율 모드 외에도 연구자가 직접 개입할 수 있는 Co-Pilot 모드를 강력하게 지원합니다. 설정 파일에서 copilot-mode: "true"로 활성화할 경우, 에이전트는 각 주요 단계(계획 수립, 코드 작성, 결과 분석 등)가 끝날 때마다 작업을 일시 중단하고 연구자의 피드백을 기다립니다.

이 때, 연구자는 에이전트가 제안한 실험 계획을 검토하여 방향을 수정하거나, 특정 라이브러리를 사용하도록 지시하거나, 생성된 결과에 대해 추가적인 분석을 요청할 수 있습니다. 이는 AI가 놓칠 수 있는 미묘한 맥락이나 연구자의 직관을 연구 과정에 반영할 수 있게 해주며, 결과물의 신뢰도를 높이는 핵심적인 기능을 합니다.

실험 결과, Co-Pilot 모드로 작성된 논문은 자율 모드 결과물보다 전반적으로 높은 평가를 받았습니다. 특히, 외부 평가자들의 점수를 비교했을 때, Co-Pilot 모드의 논문은 품질(+0.75), 건전성(+0.48), 전체 점수(+0.58) 등에서 자율 모드보다 유의미하게 향상된 결과를 보였습니다.

또한, Agent Laboratory의 사용자들은 코파일럿 모드의 '유용성'과 '사용 편의성'에 대해 5점 만점에 각각 3.5점, 4.0점의 높은 점수를 주었으며, 대부분의 참가자가 향후 연구에도 이 도구를 계속 사용할 의향이 있다고 밝혔습니다. 이는 AI가 단독으로 연구를 수행하는 것보다, 인간의 직관과 AI의 실행력이 결합될 때 최상의 결과를 낼 수 있음을 보여줍니다

Task Notes 및 설정 최적화

또한, 사용자는 experiment_configs 폴더 내의 YAML 설정 파일을 통해 에이전트에게 매우 구체적인 지시를 내릴 수 있습니다. Task Notes 기능을 활용하면 단순한 주제 제안을 넘어, "실험에는 반드시 gpt-4o-mini 모델을 사용해라", "MATH 데이터셋의 테스트 셋 500개 전체를 평가해라", "결과 그래프에는 특정 색상 테마를 사용해라"와 같은 세밀한 제약 조건을 설정할 수 있습니다. 또한, 사용 가능한 컴퓨팅 자원(GPU 종류, 메모리 용량 등)을 명시하여 에이전트가 실행 불가능한 코드를 작성하는 것을 방지할 수도 있습니다. 연구진은 팁을 통해 복잡하고 중요한 연구일수록 o1-preview와 같은 고성능 모델을 사용하고, 반복적인 테스트에는 경량화된 모델을 사용하여 비용 효율성을 높일 것을 권장하고 있습니다.

Agent Laboratory 연구의 한계점 및 결론

물론 Agent Laboratory가 완벽한 것은 아닙니다. 저자들은 논문에서 몇 가지 한계점을 솔직하게 인정하고 있습니다. 첫째, 환각(Hallucination) 문제입니다. 일부 모델(특히 GPT-4o)은 실험하지 않은 결과를 마치 실험한 것처럼 서술하거나, 존재하지 않는 하이퍼파라미터 설정을 언급하는 경우가 있었습니다. 이는 과학적 진실성을 해칠 수 있는 심각한 문제이므로 반드시 인간의 검증이 필요합니다. 둘째, 생성되는 논문의 시각적 품질이 아직 부족합니다. 현재 시스템은 2개 정도의 간단한 차트만 생성할 수 있어, 복잡한 다이어그램이나 풍부한 시각 자료를 포함하는 실제 우수 논문들에 비해서는 시각적으로 빈약할 수 있습니다. 셋째, 윤리적 우려입니다. 이러한 도구가 악용될 경우, 질 낮은 논문이 양산되어 학계의 리뷰 시스템을 마비시키거나, 편향된 연구 결과가 무분별하게 퍼질 위험도 존재합니다.

결론적으로 Agent Laboratory는 AI를 연구의 주체가 아닌, 인간 연구자를 돕는 강력한 조력자로 포지셔닝함으로써 과학적 발견의 새로운 가능성을 열었습니다. 이 시스템은 반복적이고 지루한 작업(데이터 전처리, 기본 코드 작성, 초안 작성 등)을 AI에게 맡기고, 연구자는 더 창의적이고 고차원적인 사고에 집중할 수 있게 해줍니다. 실험 결과는 AI가 아직 인간 전문가를 완전히 대체할 수준은 아니지만(NeurIPS 평균 합격 점수에는 미치지 못함), 코파일럿으로서 충분히 유용하고 강력한 도구가 될 수 있음을 시사합니다. 앞으로 이러한 시스템이 더욱 발전하여 코드 저장소 관리, 더 정교한 시각화, 그리고 환각 방지 기술 등이 보완된다면, 우리 모두가 자신만의 AI 연구실을 가지게 될 날도 머지않은 것 같습니다.

Agent Laboratory 설치 및 사용 방법

Agent Laboratory는 Python 3.12 환경에서 최적화되어 있으며, GitHub 저장소를 통해 누구나 무료로 설치하여 사용할 수 있습니다.

먼저, Git을 사용하여 소스 코드를 로컬 환경으로 복제(clone)합니다.

# Agent Laboratory 저장소 복제
git clone git@github.com:SamuelSchmidgall/AgentLaboratory.git
cd AgentLaboratory

그 다음, 프로젝트 간의 충돌을 방지하기 위해 가상 환경을 생성하고 활성화하는 것이 좋습니다.

python -m venv venv_agent_lab
source venv_agent_lab/bin/activate

가상 환경이 활성화된 상태에서, 프로젝트 구동에 필요한 Python 라이브러리들을 설치합니다.

# 의존성 설치
pip install -r requirements.txt

마지막으로, 에이전트가 작성한 논문을 PDF로 컴파일하기 위해 LaTeX 시스템을 설치합니다. 만약 PDF 생성이 필요 없거나 권한 문제로 설치가 어려운 경우, Agent Laboratory 실행 시 --compile-latex "false" 옵션을 주어 이 단계를 건너뛸 수 있습니다:

sudo apt install pdflatex

\
이제 Agent Laboratory 설치가 완료되었습니다. 연구 주제와 설정을 담은 YAML 파일을 작성한 뒤, 이를 지정하여 에이전트를 실행할 수 있습니다:

python ai_lab_repo.py --yaml-location "experiment_configs/MATH_agentlab.yaml"

Agent Laboratory 프로젝트 홈페이지

AgentRxiv 프로젝트 홈페이지

Agent Laboratory 관련 논문

Agent Laboratory 논문: Using LLM Agents as Research Assistants

AgentRxiv 논문: Towards Collaborative Autonomous Research

Agent Laboratory 프로젝트 GitHub 저장소

이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.

파이토치 한국 사용자 모임이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

아래쪽에 좋아요를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~