Agent Lightning⚡: Microsoft가 공개한 강화학습 및 자동 프롬프트 최적화 기법이 적용된 AI 에이전트 학습 프레임워크

9bow · 10월 28, 2025, 3:31오전

Agent Lightning 소개

Agent Lightning은 마이크로소프트 리서치가 개발한 AI 에이전트 학습 프레임워크로, 기존 에이전트를 거의 수정하지 않고 강화학습(Reinforcement Learning, RL) 또는 자동 프롬프트 최적화(Auto Prompt Optimization) 기법을 적용할 수 있도록 설계된 툴킷입니다. 이름 그대로 “번개처럼 가볍고 빠른” 학습 경험을 제공하는 것을 목표로 합니다.

Agent Lightning 프로젝트의 핵심 철학은 “Zero Code Change”, 즉 기존 코드에 최소한의 변경만으로도 강력한 학습 및 최적화를 가능하게 하는 것입니다. 대부분의 RL 프레임워크는 학습용 데이터 구조를 별도로 정의하고, 환경과 에이전트를 다시 설계해야 하지만, Agent Lightning은 이러한 복잡한 단계를 단순화합니다. 기존의 LangChain, OpenAI Agent SDK, AutoGen, CrewAI 등 어떤 프레임워크에서도 작동 가능하며, 심지어 프레임워크 없이 순수 Python OpenAI API를 사용하는 경우에도 동작합니다.

이러한 유연성 덕분에, 연구자나 개발자는 에이전트의 프롬프트 설계나 정책(policy) 개선 작업에 집중할 수 있습니다. 특히 다중 에이전트 시스템(Multi-Agent System) 내에서 개별 에이전트만 선택적으로 최적화할 수 있어, 복잡한 환경에서도 부분적 실험이 가능합니다.

즉, Agent Lightning은 단순한 라이브러리가 아니라, AI 에이전트의 성능 향상 루프를 자동화하는 '트레이너' 입니다. 기존 워크플로우에 통합해 사용할 수 있으며, 학습 로그를 수집하고, 학습 결과를 정책에 반영하며, 이를 반복적으로 개선하는 일련의 과정을 관리합니다.

Agent Lightning과 기존 프레임워크와의 비교

기존의 AI 에이전트 강화학습은 대부분 특정 프레임워크(예: LangChain, AutoGen, RLHF 툴킷 등)에 종속되어 있습니다. 이런 경우, 새로운 환경이나 구조를 시도하려면 상당한 코드 변경과 환경 재설정이 필요했습니다. 반면 Agent Lightning은 프레임워크 독립적 설계를 채택하여, 기존 코드를 거의 수정하지 않고 학습 알고리즘을 삽입할 수 있습니다.

또한 기존 RL 기반 시스템은 주로 모델 중심(Model-centric) 접근을 취하지만, Agent Lightning은 이벤트 기반(Event-driven) 구조를 도입했습니다. 프롬프트, 툴 호출, 보상 등 모든 상호작용을 구조화된 이벤트로 기록하고, 이를 “LightningStore”라는 중앙 허브에 저장합니다. 학습 알고리즘은 이 스토어에서 데이터를 읽고 정책을 갱신하며, 결과를 다시 반영합니다. 이 구조는 실험 추적과 학습 파이프라인 자동화를 크게 단순화합니다.

Agent Lightning의 핵심 기능

프레임워크 독립적 학습: Agent Lightning은 LangChain, OpenAI Agent SDK, AutoGen, CrewAI, Microsoft Agent Framework 등 다양한 프레임워크와 호환됩니다. API 레벨에서 프롬프트, 응답, 보상 데이터를 수집해, 학습 루프에 통합합니다.
선택적 에이전트 최적화: 다중 에이전트 환경에서 전체 시스템이 아닌 특정 에이전트만 선택적으로 강화학습할 수 있습니다. 예를 들어, 대화형 시스템에서 평가자(critic) 에이전트만 학습 대상으로 지정할 수 있습니다.
다양한 학습 알고리즘 지원: 강화학습(RL), 자동 프롬프트 최적화(APO), 지도 미세조정(SFT) 등 다양한 학습 기법을 지원합니다. 사용자는 기본 제공 알고리즘 외에도 직접 알고리즘을 추가할 수 있습니다.
Zero Code Change 아키텍처: 기존 코드에 agl.emit_xxx() 헬퍼 함수 몇 줄만 추가하면 됩니다. 또는 자동 추적기(tracer)가 에이전트의 모든 상호작용을 수집합니다. 이로써 기존 코드 구조나 워크플로우를 유지한 채 학습 파이프라인을 추가할 수 있습니다.
LightningStore와 Trainer 구조: LightningStore는 학습 중 생성되는 모든 이벤트(프롬프트, 툴 호출, 보상 등)를 저장하고, Trainer는 이를 학습 알고리즘과 실행 엔진 간에 전달합니다. 이 과정은 데이터셋 생성, 정책 갱신, 모델 업데이트를 자동으로 수행합니다.

Agent Lightning 아키텍처 개요

Agent Lightning의 전체 구조는 “Store - Trainer - Algorithm” 세 부분으로 나뉩니다.

Store (LightningStore): 모든 이벤트와 자원(Resource)을 관리하는 중앙 데이터 허브입니다.
Algorithm: RL 또는 프롬프트 최적화 알고리즘을 구현합니다.
Trainer: 데이터셋을 스트리밍하고, 자원을 교환하며, 모델 업데이트를 관리합니다.

이 구조를 통해 사용자는 모델 학습의 “파이프라인 관리”에 신경 쓸 필요 없이, 학습 전략 자체에 집중할 수 있습니다.

라이선스

Agent Lightning 프로젝트는 MIT License로 공개되어 있습니다. 상업적 사용, 수정, 배포가 자유로우며 별도의 사용 제한이 없습니다.

Agent Lightning 공식 문서

Agent Lightning 프로젝트 GitHub 저장소

https://github.com/microsoft/agent-lightning

Agent Lightning 논문: Train ANY AI Agents with Reinforcement Learning

이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.

파이토치 한국 사용자 모임이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

아래쪽에 좋아요를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~