Codex Autoresearch: Codex를 사용한 지표 기반의 자동화된 코드 개선 루프 시스템 (feat. Auto Research)

9bow · 3월 21, 2026, 9:30오전

Codex Auto Research 소개

최근 인공지능 분야에서는 모델 훈련의 성능을 밤새 자동으로 끌어올리는 Andrej Karpathy의 Auto Research 프로젝트가 큰 주목을 받았습니다. 시스템이 스스로 코드를 수정하고, 결과를 검증하며, 성공하면 유지하고 실패하면 폐기하는 이 단순한 루프는 머신러닝뿐만 아니라 소프트웨어 엔지니어링 전반에 혁신적인 가능성을 제시합니다. Codex Autoresearch는 바로 이러한 Karpathy의 아이디어에서 영감을 받아, 머신러닝을 넘어 일반적인 소프트웨어 개발 영역으로 자동화 루프를 확장한 AI 스킬(Skill) 입니다.

Codex Autoresearch는 측정 가능한 모든 지표를 기반으로 동작하는 자기 주도적(Self-directed) 반복 시스템입니다. 테스트 커버리지 상승, 타입 에러 감소, 성능 지연 시간(Latency) 개선, 린트(Lint) 경고 해결 등 '숫자'로 측정할 수 있는 목표가 있다면 무엇이든 자동으로 최적화해 나갈 수 있습니다. 개발자가 큰 그림의 목표와 측정 방법을 설정하고 실행을 지시하면, AI 에이전트가 코드베이스를 분석하여 가설을 세우고, 원자적(Atomic)인 수정을 가한 뒤 기계적인 검증을 통해 성공 여부를 판단하는 과정을 무한히 반복합니다.

특히 이 도구는 특정 프로그래밍 언어나 프레임워크에 종속되지 않는 언어 불가지론적(Language-agnostic)인 프로토콜을 채택하고 있습니다. 오직 '검증 명령어'만이 해당 프로젝트의 도메인에 맞게 설정될 뿐입니다. 코드 변경 사항은 Git을 통해 누적되며, 에러가 발생하거나 지표가 악화되면 자동으로 롤백하는 안전장치까지 갖추고 있어, 개발자가 자리를 비운 밤사이에도 안심하고 코드베이스 개선 작업을 AI에게 위임할 수 있는 강력한 생산성 도구입니다.

Codex Autoresearch의 핵심 동작 원리

Codex Autoresearch는 사용자로부터 컨텍스트를 읽어 들인 후, 단 하나의 목표를 향해 끊임없이 순환하는 구조를 가집니다.

              +---------------------+
              |  Environment Probe  |  <-- Phase 0: detect CPU/GPU/RAM/toolchains
              +---------+-----------+
                        |
              +---------v-----------+
              |  Session Resume?    |  <-- check for prior run artifacts
              +---------+-----------+
                        |
              +---------v-----------+
              |   Read Context      |  <-- read scope + lessons file
              +---------+-----------+
                        |
              +---------v-----------+
              | Establish Baseline  |  <-- iteration #0
              +---------+-----------+
                        |
         +--------------v--------------+
         |                             |
         |  +----------------------+   |
         |  | Choose Hypothesis    |   |  <-- consult lessons + perspectives
         |  | (or N for parallel)  |   |      filter by environment
         |  +---------+------------+   |
         |            |                |
         |  +---------v------------+   |
         |  | Make ONE Change      |   |
         |  +---------+------------+   |
         |            |                |
         |  +---------v------------+   |
         |  | git commit           |   |
         |  +---------+------------+   |
         |            |                |
         |  +---------v------------+   |
         |  | Run Verify + Guard   |   |
         |  +---------+------------+   |
         |            |                |
         |        improved?            |
         |       /         \           |
         |     yes          no         |
         |     /              \        |
         |  +-v------+   +----v-----+ |
         |  |  KEEP  |   | REVERT   | |
         |  |+lesson |   +----+-----+ |
         |  +--+-----+        |       |
         |      \            /         |
         |   +--v----------v---+      |
         |   |   Log Result    |      |
         |   +--------+--------+      |
         |            |               |
         |   +--------v--------+      |
         |   |  Health Check   |      |  <-- disk, git, verify health
         |   +--------+--------+      |
         |            |               |
         |     3+ discards?           |
         |    /             \         |
         |  no              yes       |
         |  |          +----v-----+   |
         |  |          | REFINE / |   |  <-- pivot-protocol escalation
         |  |          | PIVOT    |   |
         |  |          +----+-----+   |
         |  |               |         |
         +--+------+--------+         |
         |         (repeat)           |
         +----------------------------+

따라서, 프로젝트에 복잡한 코드를 추가로 컴파일하거나 의존성을 설치할 필요 없이, 마크다운(.md) 파일 형태의 명령어 집합으로 AI 에이전트를 제어하는 '점진적 공개(Progressive Disclosure)' 아키텍처를 사용합니다.

초기 기준선 설정 (Establish Baseline): 현재의 지표 상태(Iteration #0)를 측정하여 기록합니다.
루프 사이클: 다음과 같은 단계들을 반복하며 Iteration을 증가시킵니다:
1. 가설 설정 (Choose Hypothesis): 코드를 어떻게 수정해야 지표가 개선될지 계획합니다.
2. 단일 변경 (Make ONE Change): 한 번에 하나의 원자적인 코드 변경만 수행합니다.
3. 검증 (Verify & Guard): 변경된 코드가 목표를 달성했는지, 다른 부작용은 없는지 테스트합니다.
4. 결정 (KEEP or REVERT): 성공 시 Git에 결과를 보존하고, 실패 시 git reset --hard HEAD~1을 통해 이전 상태로 즉시 롤백합니다.
5. 기록 및 반복: 결과를 TSV 파일 등에 로그로 남기고 다음 가설로 넘어갑니다.

Codex Autoresearch의 주요 특징

듀얼 게이트 검증 (Dual-gate Verification)

Codex Autoresearch 시스템의 가장 강력한 특징 중 하나는 변경 사항을 평가할 때 두 가지 다른 목적의 명령어를 동시에 사용한다는 점입니다. 이를 통해 코드의 개선과 안정성을 동시에 확보합니다.

Verify (검증 - 진척도 측정): "목표 지표가 개선되었는가?"를 확인합니다. 예를 들어, 커버리지가 상승했는지 확인하기 위해 pytest --cov=src --cov-report=term 2>&1 | grep TOTAL | awk '{print $NF}'를 실행합니다.
Guard (보호 - 회귀 방지): "기존의 다른 기능이 망가지지 않았는가?"를 확인합니다. 예를 들어, 타입 안정성이 깨지지 않았는지 확인하기 위해 npx tsc --noEmit를 실행합니다.

Codex Autoresearch의 세 가지 핵심 운영 모드 (Modes)

Codex Autoresearch는 사용자의 다양한 요구사항에 맞춰 목적이 다른 세 가지 모드를 지원합니다:

loop (루프 모드): 기본 동작 모드입니다. 측정 가능한 명확한 목표를 향해 반복 작업을 수행합니다. 예를 들어, "내 TypeScript 코드에서 모든 any 타입을 제거해 줘."라고 지시하면, 현재 any의 개수(예: 47개)를 기준선으로 삼고 0개가 될 때까지 밤새 자동으로 코드를 수정하고 검증합니다.
plan (계획 모드): 모호한 목표를 시스템이 실행 가능한 구체적 루프 구성으로 변환해 주는 모드입니다. 지표를 어떻게 설정해야 할지 모를 때 코드베이스를 분석하여 적절한 방향을 제안합니다. 예를 들어, "API 속도를 높이고 싶은데 어디서 시작할지 모르겠어."라고 하면, Express와 Prisma로 구성된 서버임을 분석하고 p95 latency 또는 throughput 중 어떤 지표를 우선할지 사용자에게 역으로 질문하여 검증 전략을 수립합니다.
debug (디버그 모드): 증거 기반의 버그 헌팅 모드입니다. 코드를 수정하는 대신, 반복마다 반증 가능한 가설을 하나씩 테스트하며 버그의 근본 원인을 좁혀 나갑니다. 예를 들어, "동시 접속 부하가 걸릴 때 랜덤하게 503 에러가 반환돼."라는 증상을 입력하면, 연결 풀(Connection Pool)이나 비동기 핸들러 등을 스캔하고 가설을 세워 원인을 추적합니다.

Codex Autoresearch 설치 및 사용법

Codex Autoresearch 시스템은 터미널 기반의 AI 에이전트(Codex) 환경에 손쉽게 통합할 수 있습니다.

설치는 다음과 같이 2가지 방법으로 가능합니다:

# 방법 1. Git을 이용한 직접 설치
git clone https://github.com/leo-lilinxiao/codex-autoresearch.git
cp -r codex-autoresearch your-project/.agents/skills/codex-autoresearch

# 방법 2. skill-installer 플러그인 사용
$skill-installer install https://github.com/leo-lilinxiao/codex-autoresearch

설치 후에는 에이전트를 실행하고 자연어로 지시를 내리면, 내부적인 마법사(Wizard)가 모드를 인식하고 확인 과정을 거친 후 자동화를 시작합니다:

$codex-autoresearch 프로젝트 내의 모든 코드 포맷팅 경고를 해결해 줘

라이선스

Codex Autoresearch 프로젝트는 MIT License로 공개 및 배포되고 있습니다.

Codex Autoresearch 프로젝트 GitHub 저장소

더 읽어보기

이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.

파이토치 한국 사용자 모임이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

아래쪽에 좋아요를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~