ARIS: 아이디어에서 출판 준비 논문까지, 크로스 모델 협업 자율 ML 연구 파이프라인

ARIS 프로젝트 소개

머신러닝(Machine Learning) 연구의 전 과정은 아이디어 발굴부터 논문 제출까지 수개월이 걸리는 고된 작업입니다. 문헌 조사, 실험 설계, 코드 작성, 결과 분석, 리뷰 대응까지 각 단계마다 전문적인 지식과 엄청난 시간이 요구됩니다. ARIS(Auto-Research-In-Sleep) 는 이 전 과정을 Claude Code를 실행 에이전트로, 외부 LLM을 리뷰어로 삼는 크로스 모델(Cross-Model) 협업 방식으로 자동화하는 오픈소스 프레임워크입니다.

ARIS의 가장 독특한 특징은 단일 모델의 자기 리뷰 방식을 탈피했다는 점입니다. 프로젝트는 하나의 AI가 스스로 검토하면 맹점이 그대로 반복되는 "지역 최솟값(Local Minima)" 문제가 발생한다고 지적합니다. 이를 해결하기 위해 실험을 수행하는 Claude Code(실행자)와 별도의 GPT(또는 다른 LLM)를 리뷰어로 조합합니다. 프로젝트 설명에 따르면, 이는 확률적 밴딧(stochastic bandit) 대신 적대적 밴딧(adversarial bandit) 구조를 활용하는 것으로, 두 모델이 내시 균형(Nash Equilibrium)에 수렴하며 리뷰 품질을 최대화합니다. 초기 5.0/10점에서 출발한 논문이 4라운드의 자동 리뷰 루프를 거쳐 7.5/10점까지 개선된 사례가 문서에 기록되어 있습니다.

ARIS의 주요 워크플로우

ARIS는 연구의 각 단계별로 독립적으로 사용하거나 전체 파이프라인으로 연결할 수 있는 31개 이상의 조합 가능한 스킬(Skill)을 제공합니다. 각 워크플로우는 Claude Code 세션에서 슬래시 명령어로 바로 실행됩니다.

/idea-discovery는 문헌 조사를 수행하고 8~12개의 신규 아이디어를 생성한 뒤 참신성(Novelty)을 검증하여 랭킹 보고서를 출력합니다. 문헌 데이터는 Zotero, Obsidian, 로컬 PDF, arXiv, Google Scholar 등 다양한 소스에서 수집하며, DBLP/CrossRef를 통해 BibTeX를 직접 가져와 인용 환각(Hallucination)을 방지합니다.

/experiment-bridge는 실험 계획을 수립하고 GPU 서버에 코드를 배포합니다. 크로스 모델 코드 리뷰가 활성화되면 GPT가 실험 코드를 검토하여 오류를 미리 잡아냅니다.

/auto-review-loop는 4라운드의 자동 리뷰 사이클을 실행합니다. 각 라운드에서 실험을 추가하고, 주장을 검증하며, 서사(Narrative)를 개선합니다.

/paper-writing은 아이디어에서 개요, 그림(Figure), LaTeX 코드, PDF까지 완성된 논문 초안을 생성하며 2라운드의 자동 개선을 포함합니다.

/rebuttal은 심사위원의 리뷰를 원자적 관심사(Atomic Concerns)로 분해하고 3개의 안전 게이트를 거쳐 체계적인 반박문을 작성합니다.

아키텍처와 모델 유연성

기본 설정은 Claude Code(실행자) + Codex MCP를 통한 GPT-5.4 xhigh(리뷰어) 조합입니다. 그러나 ARIS는 특정 플랫폼에 종속되지 않으며, 다양한 에이전트와 모델 조합을 지원합니다.

실행 환경으로는 Claude Code 외에도 Codex CLI, Cursor IDE, ByteDance Trae IDE, Google Antigravity IDE, OpenClaw 등이 지원됩니다. 비용이 제한적인 환경을 위해 ModelScope의 무료 티어도 지원하여 API 키 없이도 활용할 수 있습니다. 중국어 환경을 위한 MiniMax-M2.7 + GLM-5 조합, Kimi, DeepSeek 등도 별도 가이드로 제공됩니다. 실험에 GPU 서버가 필요한 경우 rsync/SSH를 통한 원격 배포를 지원하며, Feishu/Lark를 통한 푸시 알림이나 승인 게이트 알림도 설정할 수 있습니다.

커뮤니티에서 기여한 도메인 특화 스킬도 12가지가 포함되어 있습니다. grant-proposal은 NSF, KAKENHI, NSFC 연구 제안서를 작성하고, paper-slides는 Beamer 형식의 학회 발표 슬라이드를 생성하며, paper-poster는 A0/A1 포스터를 자동으로 만들어냅니다. proof-writer는 수학적 정리의 엄밀한 증명을 작성하는 스킬입니다.

ARIS 설치 및 사용법

ARIS 설치는 저장소를 복제(Clone)하고 스킬 파일을 Claude Code의 스킬 디렉토리에 복사하는 것으로 완료됩니다:

# 1. 스킬 설치
git clone https://github.com/wanshuiyin/Auto-claude-code-research-in-sleep.git
cp -r Auto-claude-code-research-in-sleep/skills/* ~/.claude/skills/

# 2. 크로스 모델 리뷰를 위한 Codex MCP 설정
npm install -g @openai/codex
codex setup          # gpt-5.4 선택
claude mcp add codex -s user -- codex mcp-server

# 3. Claude Code에서 파이프라인 실행
claude
> /research-pipeline "your research direction"

전체 파이프라인(/research-pipeline) 대신 개별 단계만 실행할 수도 있습니다. AUTO_PROCEED 파라미터를 false로 설정하면 각 단계마다 사람이 직접 승인하는 방식으로 동작하여, 완전 자율 대신 인간 루프(Human-in-the-Loop) 방식으로도 사용 가능합니다.

실제 성과

ARIS로 작성된 논문 중 두 편의 실제 채택 사례가 문서에 공개되어 있습니다. 컴퓨터 과학 학술대회에 제출된 한 논문은 8/10점의 "명확한 수락(Clear Accept)" 평가를 받았으며, 심사위원은 "실증적 결과가 근본적인 결함을 드러낸다"고 칭찬했습니다. AAAI 2026에 제출된 또 다른 논문은 7/10점으로 "좋은 논문, 수락(Good Paper, Accept)" 판정을 받았으며, 이 논문은 순수 Codex CLI 실행으로 완성되었습니다.

라이선스

ARIS 프로젝트는 MIT 라이선스로 공개되어 있습니다.

:github: Auto-Research-In-Sleep 프로젝트 GitHub 저장소

더 읽어보기




이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. :hugs:

:pytorch:파이토치 한국 사용자 모임:south_korea:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:wrapped_gift: 아래:down_right_arrow:쪽에 좋아요:+1:를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~ :star_struck:

1개의 좋아요