Hermes Agent Self-Evolution 소개
NousResearch가 공개한 Hermes Agent는 사용자와의 상호작용을 통해 스스로 성장하는 AI 비서를 목표로 하는 에이전트 프로젝트입니다. 그러나 에이전트가 시간이 지날수록 더 똑똑해지려면, 사람이 일일이 시스템 프롬프트(System Prompt)를 다듬고, 도구 설명(Tool Description)을 손보고, SKILL.md 파일을 다시 쓰는 노동이 끊임없이 반복되어야 합니다. 강화학습(Reinforcement Learning) 기반 자가 개선은 GPU 학습 비용이 큰 반면, 프롬프트와 코드 수준의 개선은 LLM 기반 평가와 변이만으로도 충분히 자동화할 여지가 있습니다.
Hermes Agent Self-Evolution은 이러한 자동화 영역을 본격적으로 다루는 진화적 자가 개선 프레임워크입니다. DSPy와 GEPA(Genetic-Pareto Prompt Evolution, ICLR 2026 Oral)를 결합해 Hermes Agent의 스킬·도구 설명·시스템 프롬프트·코드를 자동으로 변이시키고 평가하여, 측정 가능한 수준에서 더 좋은 변종(Variant)을 선별합니다. 모든 단계가 API 호출 기반으로 동작하기 때문에 GPU 학습이 필요 없으며, 한 번의 최적화 실행은 약 2~10달러 수준의 토큰 비용으로 수행됩니다.
이 프로젝트는 Hermes Agent를 직접 변형하지 않고, 별도 저장소(hermes-agent-self-evolution)에서 진화 과정을 돌린 뒤 검증된 결과만 PR(Pull Request) 형태로 본 저장소에 제출합니다. 즉, 모든 자동 변경사항은 최종적으로 사람의 코드 리뷰를 거쳐 메인 브랜치에 반영되도록 가드레일이 잡혀 있습니다. 이런 구조 덕분에 자기 개선 루프(Self-Improvement Loop)를 안전한 방식으로 운영할 수 있고, 진화의 결과물을 다른 Hermes Agent 사용자도 PR 단위로 추적할 수 있습니다. 라이선스는 MIT이며, ©2026 NousResearch 표기로 공개되어 있습니다.
Hermes Agent Self-Evolution의 동작 흐름
진화 과정은 크게 데이터셋 생성 → GEPA 최적화 → 가드레일 통과 → PR 제출의 단계로 정리할 수 있습니다. 저장소 README가 다음과 같은 다이어그램으로 정리해 둔 부분이 이 흐름을 잘 보여줍니다.
Read current skill/prompt/tool ──► Generate eval dataset
│
▼
GEPA Optimizer ◄── Execution traces
│ ▲
▼ │
Candidate variants ──► Evaluate
│
Constraint gates (tests, size limits, benchmarks)
│
▼
Best variant ──► PR against hermes-agent
핵심 기여는 GEPA가 단순히 무작위로 변종을 만드는 대신, 에이전트의 실행 트레이스(Execution Trace)를 함께 읽어 들여 왜 실패했는지를 LLM에게 reflective하게 분석시킨다는 점입니다. 그 결과 GEPA는 잘못된 결과를 만들어낸 원인 가설을 세우고, 그 가설을 해소하기 위한 타깃화된 변이(Targeted Mutation)를 제안합니다. DSPy는 그 변이를 실제 프롬프트와 모듈에 적용하고, 평가용 데이터셋에서 성능을 측정하는 인프라를 제공합니다.
평가 데이터의 출처도 두 가지로 분리되어 있어 환경에 맞게 선택할 수 있습니다.
합성(Synthetic) 데이터 : 평가 대상 스킬에 대응하는 합성 입력을 생성해 사용합니다. 외부 사용자 데이터가 없는 시점이나 새로 추가된 스킬을 점검할 때 적합합니다.
세션 DB(SessionDB) 데이터 : Claude Code, GitHub Copilot, Hermes Agent의 실제 세션 기록에서 평가용 입력을 가져옵니다. 사용자의 실제 사용 패턴 위주로 회귀 검증을 할 수 있어 프로덕션 친화적입니다.
Hermes Agent Self-Evolution이 진화시키는 영역과 엔진
저장소는 진화 대상 자산을 단계별 페이즈(Phase)로 정리하고, 각 페이즈에 어떤 엔진을 사용하는지를 명시합니다.
| 페이즈 | 진화 대상 | 엔진 | 상태 |
|---|---|---|---|
| Phase 1 | 스킬 파일(SKILL.md) | DSPy + GEPA | |
| Phase 2 | 도구 설명(Tool Description) | DSPy + GEPA | |
| Phase 3 | 시스템 프롬프트 섹션 | DSPy + GEPA | |
| Phase 4 | 도구 구현 코드 | Darwinian Evolver | |
| Phase 5 | 지속적 개선 루프 | 자동화 파이프라인 |
DSPy + GEPA는 reflective 프롬프트 진화에 특화된 조합으로, 실행 트레이스를 읽어들여 타깃화된 변이를 제안하는 데 사용됩니다. Phase 4의 코드 진화에는 외부 도구인 imbue-ai의 Darwinian Evolver를 활용하는데, 이 엔진은 Git 기반의 "유기체(Organism)" 단위로 코드를 변이시키는 방식이라 라이선스가 AGPL v3이며, 외부 CLI로만 호출되는 구조로 분리되어 있어 본 저장소의 MIT 호환성에는 영향을 주지 않습니다.
Hermes Agent Self-Evolution의 가드레일 정책
진화의 결과물이 Hermes Agent 본 저장소에 직접 머지되면, 의도치 않은 회귀(Regression)나 비대칭한 동작 변경이 발생할 위험이 큽니다. 이를 막기 위해 Hermes Agent Self-Evolution은 다섯 가지 단계의 가드레일을 명시합니다.
전체 테스트 스위트 통과 : 모든 진화 후보 변종은 pytest tests/ -q를 100% 통과해야 PR 후보가 됩니다. 단순 점수 향상만으로 머지되지 않도록 강제하는 기본 안전장치입니다.
크기 제한 : SKILL.md는 15KB 이하, 도구 설명은 500자 이하로 제한됩니다. 이는 LLM 컨텍스트 비용을 통제하고, 변이 과정에서 프롬프트가 비대해지는 자연스러운 경향을 차단합니다.
캐싱 호환성 : 대화 중간에 프롬프트가 바뀌어 KV 캐시(Key-Value Cache)가 무효화되는 변경은 허용되지 않습니다. 즉, 진화는 세션 시작 전 정적인 프롬프트 영역에 한정됩니다.
의미 보존(Semantic Preservation) : 변이 결과가 원본 스킬의 목적에서 멀어지지 않도록 검사합니다. 평가 메트릭이 좋아져도 정체성이 흐려졌다면 후보에서 제외됩니다.
PR 리뷰 : 모든 변경은 직접 커밋이 아니라 PR 형태로만 본 저장소에 제출되며, 사람 리뷰어가 최종 검토합니다. 자동화 루프와 사람의 의사결정을 명확히 분리한 핵심 정책입니다.
Hermes Agent Self-Evolution 빠른 시작
설치는 일반적인 Python 프로젝트와 동일한 방식이며, 진화 대상 Hermes Agent 저장소를 환경 변수로 지정해야 합니다.
# 저장소 클론과 개발 의존성 설치
git clone https://github.com/NousResearch/hermes-agent-self-evolution.git
cd hermes-agent-self-evolution
pip install -e ".[dev]"
# 진화 대상 Hermes Agent 저장소 위치 지정
export HERMES_AGENT_REPO=~/.hermes/hermes-agent
특정 스킬을 합성 데이터 기반으로 진화시키려면 다음과 같이 실행합니다.
# 합성 평가 데이터로 'github-code-review' 스킬을 10회 반복 진화
python -m evolution.skills.evolve_skill \
--skill github-code-review \
--iterations 10 \
--eval-source synthetic
실제 사용 세션 기록을 평가에 사용하고 싶다면 --eval-source sessiondb로 바꾸기만 하면 됩니다. Claude Code, GitHub Copilot, Hermes Agent 모두 동일한 세션 DB 인터페이스를 통해 입력을 가져옵니다.
# 실제 세션 기록 기반 진화
python -m evolution.skills.evolve_skill \
--skill github-code-review \
--iterations 10 \
--eval-source sessiondb
전체 아키텍처, 평가 데이터 전략, 제약 조건, 벤치마크 통합, 페이즈별 타임라인은 저장소 내 PLAN.md에 자세히 정리되어 있어, 자체 에이전트에 같은 프레임워크를 적용하려는 팀에게 좋은 참고 자료가 됩니다.
라이선스
Hermes Agent Self-Evolution은 MIT 라이선스로 공개되어 있어 개인 및 상업적 목적으로 자유롭게 사용·수정·배포할 수 있습니다. Phase 4에서 활용되는 Darwinian Evolver만 AGPL v3로 제공되지만, 본 저장소는 이를 외부 CLI로만 호출하는 구조라 본체 라이선스에는 영향을 미치지 않습니다.
Hermes Agent Self-Evolution GitHub 저장소
더 읽어보기
-
Hermes Agent⚕: NousResearch가 공개한, 사용자와의 상호작용 경험을 통해 스스로 성장하는 AI 비서 프로젝트
-
Agentic Harness Engineering(AHE): 관측 가능성 기반 코딩 에이전트 하네스의 자동 진화 프레임워크에 대한 연구
이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. ![]()
파이토치 한국 사용자 모임
이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일
로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)
아래
쪽에 좋아요
를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~ ![]()
