Greyhaven AI의 AutoContext: AI 에이전트 행동 개선 및 로컬 경량화를 위한 폐쇄 루프 시스템

AutoContext 소개

최근 IT 업계와 개발자 커뮤니티에서는 사용자 대신 컴퓨터 내의 복잡한 시스템 제어와 워크플로우를 능동적으로 처리하는 OpenClaw와 같은 자율형 AI 에이전트 기술이 큰 화제를 모으고 있습니다. 하지만 현재 운영되는 대다수의 에이전트 시스템은 작업을 실행할 때마다 '콜드 스타트(Cold Start)' 상태에서 새롭게 시작한다는 치명적인 한계가 있습니다. 즉, 이전 작업에서 어떤 방식이 효과적이었고 어떤 부분에서 실패했는지, 다음 실행에서는 프로세스를 어떻게 변경해야 하는지에 대한 컨텍스트와 지식을 안정적으로 다음 단계로 이월하지 못합니다.

이러한 에이전트의 구조적 한계를 극복하기 위해 Greyhaven AI에서 오픈소스로 공개한 프로젝트가 바로 AutoContext(과거 프로젝트명 MTS)입니다. AutoContext는 에이전트가 반복적으로 작업을 수행함에 따라 스스로 행동을 개선할 수 있도록 설계된 폐쇄 루프(Closed-loop) 시스템입니다. 에이전트가 태스크를 실행하면, 그 결과를 평가하고, 검증된 교훈을 영구적인 지식(Persistent knowledge)으로 업데이트하여 다음 실행에 반영합니다.

기존의 LangChain이나 AutoGPT 기반의 에이전트 도구들은 사용자가 프롬프트를 입력하면 단발성으로 태스크를 처리하고 종료(Stateless)되는 경우가 많았습니다. 반면 AutoContext는 자체적으로 실행 → 분석 → 검증된 교훈 저장 → 다음 실행에 교훈 적용이라는 정교한 피드백 루프를 내장하여 시스템이 지속적으로 학습하고 진화한다는 점에서 큰 차별점을 가집니다. 또한, 단지 에이전트의 성능을 높이는 데 그치지 않고 외부 API 의존도를 낮추기 위해 로컬 모델로 라우팅하는 증류(Distillation) 파이프라인을 기본으로 제공합니다.

AutoContext 시스템의 궁극적인 목표는 값비싼 최첨단(Frontier) AI 모델에 의존하는 탐색 작업에서 벗어나는 것입니다. 작업이 충분히 안정화되면, 성공적인 행동 패턴을 Apple Silicon의 MLX 등을 활용해 더 저렴하고 빠른 로컬 런타임(Local runtime)으로 증류(Distillation)합니다. 이를 통해 개발자는 성능이 검증되고 재사용 가능하며 유지 비용이 훨씬 저렴한 에이전트 실행 환경을 구축할 수 있게 됩니다.

AutoContext 상세 아키텍처 및 주요 기능

AutoContext의 핵심 동작 원리: 다중 에이전트 루프

AutoContext의 각 세대(Generation)는 단순히 하나의 모델이 고민하는 것이 아니라, 구조화된 다중 에이전트 협업 루프(Multi-agent loop)를 통해 실행됩니다.

  1. 제안 (Competitor): 에이전트가 주어진 작업을 해결하기 위한 구체적인 전략이나 아티팩트(Artifact)를 제안하고 실행합니다.

  2. 분석 (Analyst): 실행 과정에서 어떤 일이 일어났는지, 의도한 대로 동작했는지 혹은 왜 실패했는지를 심층 분석합니다.

  3. 코칭 (Coach): 분석된 내용을 바탕으로 향후 실행에 도움이 될 '힌트'를 생성하고, 기존의 플레이북(Playbook)을 최신화합니다.

  4. 설계 (Architect): 현재 사용 중인 도구(Tools)의 개선 방안이나 테스트 환경(Harness)의 구조적 향상 등 시스템 레벨의 변경 사항을 제안합니다.

  5. 선별 (Curator): 제안된 여러 변경 사항 중 어떤 지식을 영구적으로 보존할지 평가하고 승인(Gate)하는 역할을 수행합니다.

이러한 협업 과정을 통해 제안된 전략들은 시나리오 실행, 단계적 검증 과정을 거칩니다. 성능이 떨어지는 변경 사항은 즉각 롤백되며, 엄격한 선별을 통과한 성공적인 변경 사항들만 누적되어 재사용 가능한 지식 베이스로 저장됩니다.

AutoContext의 주요 기능 (Core Capabilities)

  • 영구적 지식 관리 (Persistent Knowledge): 실행(Run)이 종료되어도 플레이북, 힌트, 도구, 보고서 및 진행 상황 스냅샷을 영구적으로 유지하여 다음 실행 시 에이전트의 능력을 향상시킵니다.

  • 단계적 검증 및 환경 인식: 단계별 검증(Staged validation), 테스트 환경 합성(Harness synthesis) 및 환경을 정확히 인식하는 실행 능력을 지원합니다.

  • 로컬 모델 증류 (Frontier-to-local Distillation): 최고 수준의 클라우드 모델 능력을 Apple Silicon의 MLX 프레임워크를 활용하여 가벼운 로컬 모델로 증류할 수 있습니다.

  • 유연한 런타임 라우팅: Anthropic, OpenAI 호환 백엔드는 물론, Ollama, vLLM, MLX 및 Raspberry Pi 기반의 경량 런타임까지 다양한 환경으로 동적 라우팅이 가능합니다.

  • OpenClaw 및 외부 에이전트 통합: 최근 실무 자동화로 많은 주목을 받는 자율형 에이전트 OpenClaw와 연동할 수 있는 API 브릿지 및 에이전트 통합 표면을 갖추고 있습니다.

  • 다양한 인터페이스 지원: 운영자와 외부 시스템이 쉽게 접근할 수 있도록 CLI(명령줄 인터페이스), API 서버, 대시보드, TypeScript 모듈, 그리고 TUI(터미널 UI) 등 다채로운 인터페이스를 제공합니다.

패키지 구조 (Repository Layout)

저장소는 목적과 언어별로 명확하게 분리되어 관리됩니다:

  • autocontext/: Python 기반의 메인 패키지로, CLI, API 서버, 대시보드, 모델 학습 루프 로직이 포함되어 있습니다.

  • ts/: 외부 생태계 통합을 위한 TypeScript 패키지 및 CLI, MCP(Model Context Protocol) 호환 도구가 있으며, autoctx라는 npm 패키지로 배포됩니다.

  • tui/: 터미널 환경에서 직관적으로 실행 상태를 조작할 수 있는 인터랙티브 UI 코드입니다.

  • infra/: Docker, Fly.io 배포 설정 및 시스템 부트스트랩 스크립트가 존재합니다.

AutoContext 설치 및 빠른 시작

파이썬 애플리케이션은 autocontext/ 폴더 내에 있으며, 현대적인 파이썬 패키지 관리자인 uv를 활용하여 빠르고 독립적으로 가상환경을 구성하고 실행할 수 있습니다.

로컬 기반 테스트 실행 (API 키 불필요)

외부 API 연결 없이 결정론적(Deterministic) 프로바이더를 사용하여 로컬에서 시스템 아키텍처가 어떻게 동작하는지 빠르게 테스트해 볼 수 있습니다.

cd autocontext
uv venv
source .venv/bin/activate
uv sync --group dev

# 외부 API 없이 테스트 실행
AUTOCONTEXT_AGENT_PROVIDER=deterministic \
uv run autoctx run \
  --scenario grid_ctf \
  --gens 3 \
  --run-id quickstart

위 명령어를 실행하면 외부 연동 없이 로컬 실행이 생성되며, 생성된 결과물과 지식은 runs/knowledge/ 디렉토리에 기록됩니다.

Anthropic API를 이용한 실제 실행

Claude와 같은 고성능 프론티어 모델을 사용하여 강력한 피드백 루프를 가동하려면 아래와 같이 환경 변수에 API 키를 주입합니다.

cd autocontext
AUTOCONTEXT_AGENT_PROVIDER=anthropic \
AUTOCONTEXT_ANTHROPIC_API_KEY=your-key \
uv run autoctx run --scenario grid_ctf --gens 3

API 서버 및 모니터링 대시보드 구동

시각적으로 실행 상태를 실시간으로 모니터링하고 싶다면 내장된 API 서버를 띄울 수 있습니다.

cd autocontext
uv run autoctx serve --host 127.0.0.1 --port 8000

명령어 실행 후 브라우저에서 http://127.0.0.1:8000에 접속하면 전용 대시보드를 확인할 수 있습니다.

추가 고급 워크플로우 (데이터 추출 및 모델 증류)

AutoContext의 진가는 반복 실행된 결과를 바탕으로 로컬 모델을 학습시키는 데 있습니다.

  • 학습 데이터 추출: 그동안 누적된 성공적인 실행 결과를 바탕으로 학습 전용 JSONL 데이터를 추출합니다.
    uv run autoctx export-training-data --scenario grid_ctf --all-runs --output training/grid_ctf.jsonl
  • 로컬 모델 학습: 추출된 데이터를 바탕으로 로컬 모델(Apple Silicon MLX 최적화 모델 등)을 자체 학습시킵니다.
    uv run autoctx train --scenario grid_ctf --data training/grid_ctf.jsonl --time-budget 300
  • MCP 서버 구동: 외부 툴 체인 및 에이전트와의 매끄러운 통합을 위해 Model Context Protocol 서버를 오픈합니다.
    uv run autoctx mcp-serve

(주의사항: MLX 프레임워크를 활용한 학습은 Apple M시리즈 칩이 탑재된 macOS 호스트 환경에서만 가능합니다. 만약 샌드박스화된 OpenClaw 에이전트 환경에서 이 학습 과정을 자동으로 트리거하게 만들려면 파일 기반 호스트 감시자(Host watcher) 플로우를 구성해야 합니다.)

라이선스

AutoContext 프로젝트는 Apache License 2.0으로 공개 및 배포되고 있어 상업적 이용 및 수정이 자유롭습니다.

:github: AutoContext 프로젝트 GitHub 저장소

더 읽어보기




이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. :hugs:

:pytorch:파이토치 한국 사용자 모임:south_korea:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:wrapped_gift: 아래:down_right_arrow:쪽에 좋아요:+1:를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~ :star_struck: