Paper2Code: 머신러닝 분야의 연구 논문으로부터 코드를 생성하는 프로젝트

9bow · 7월 24, 2025, 4:00오전

Paper2Code 소개

최근 인공지능 및 기계학습 분야의 연구는 놀라운 속도로 발전하고 있지만, 연구자들이 논문에서 제안한 방법을 실제로 재현하고 활용하려면 상당한 시간과 노력이 요구됩니다. 많은 논문이 이론이나 실험 결과는 잘 기술하고 있지만, 구현 코드가 함께 제공되지 않는 경우가 많습니다. 2024년 주요 학회(ICLR, ICML, NeurIPS) 수록 논문 중 단 19.5%만이 공식 코드 구현을 포함하고 있다는 통계는 이러한 문제의 심각성을 잘 보여줍니다. 이로 인해 연구자들은 논문을 기반으로 직접 코드를 구현해야 하는 상황에 자주 처하게 되고, 이는 연구 속도를 크게 저해하는 원인이 됩니다.

이러한 문제를 해결하고자 등장한 것이 바로 Paper2Code 프로젝트입니다. 이 프로젝트는 다중 에이전트로 구성된 대형 언어 모델 기반 시스템인 PaperCoder를 통해 논문을 자동으로 코드로 전환합니다. PaperCoder는 단순한 요약이나 해석을 넘어, 논문 내용을 분석하고 계획을 수립한 뒤 실제 코드 레벨로 구현하는 데까지 도달하는 복잡한 파이프라인을 구현하고 있습니다.

이 시스템은 OpenAI API뿐 아니라 DeepSeek와 같은 오픈소스 모델도 활용 가능하며, 논문 PDF를 구조화된 JSON으로 변환한 뒤 세부 정보를 분석해 구현합니다. 결과적으로 PaperCoder는 기존의 수작업 방식보다 빠르고 정확하게 논문 구현물을 생성할 수 있는 가능성을 열어주고 있습니다. 또한 논문 기반 코드 자동화 기술의 벤치마크로 활용될 수 있는 데이터셋과 평가 도구도 함께 제공되고 있어, 학술적·실용적 측면 모두에서 주목받고 있는 시스템입니다.

기존의 논문 구현 자동화 시도는 주로 논문 요약, 키워드 추출, 혹은 모델 아키텍처 시각화 정도에 머무른 경우가 많았습니다. 반면, PaperCoder는 계획 → 분석 → 코드 생성이라는 세분화된 프로세스를 통해 보다 체계적이고 신뢰성 있는 구현을 시도합니다. 특히 각 단계마다 특화된 LLM 에이전트를 할당하고, 이들이 서로 협력하며 실행된다는 점에서 구조적 차별점을 가지고 있습니다.

또한 PaperCoder는 평가 방식에서도 참조 기반(reference-based)과 비참조(reference-free) 평가를 모두 지원하여, 구현된 코드의 신뢰성과 일관성을 수치적으로 검증할 수 있습니다. 기존에는 사람이 직접 구현의 품질을 확인해야 했던 것에 비해, 평가 자동화도 가능해졌다는 점에서 큰 장점이 있습니다.

PaperCoder 구조

PaperCoder는 다음과 같은 3단계 에이전트 기반 구조로 작동합니다:

계획 에이전트(Planner): 논문 내용을 바탕으로 구현이 필요한 구성요소 및 순서를 계획합니다.
분석 에이전트(Analyzer): 논문 내 수식, 하이퍼파라미터, 모델 구조 등의 상세 정보를 추출합니다.
코드 생성 에이전트(Coder): 계획 및 분석 결과를 바탕으로 실제 코드 파일을 작성합니다.

각 단계는 LLM 모델이 독립적으로 수행하며, 최종적으로는 Git 저장소 형태의 코드 결과물을 생성하게 됩니다.

1단계: Planning (계획 수립)

Planning 단계는 논문 내용을 소프트웨어 구현 관점에서 정형화하는 과정입니다. 이 단계는 다시 네 부분으로 나뉘며 각 과정은 다음과 같습니다:

전체 계획(Overall Plan): 논문에서 구현해야 할 주요 구성요소, 목적, 데이터 흐름을 요약합니다.
아키텍처 설계(Architecture Design): 파일 구성, 클래스 다이어그램, 시퀀스 다이어그램을 생성해 모듈 간 구조를 정립합니다.
로직 설계(Logic Design): 실제 구현 순서를 결정하고, 각 파일 간 의존성을 분석합니다.
설정 파일 생성(Configuration): 실험 설정과 하이퍼파라미터 등을 포함한 config.yaml 파일을 생성합니다.

2단계: Analysis (분석)

Planning에서 도출된 구성 요소들을 기반으로, 각 파일에 어떤 기능이 포함되어야 하는지를 정밀하게 분석합니다. 이 분석 결과는 각 파일의 입력/출력, 타 모듈과의 상호작용, 알고리즘 세부사항 등을 명시적으로 기술합니다. 이 정보는 다음 단계의 코드 생성을 위한 구체적 설계도 역할을 합니다.

3단계: Coding (코드 생성)

최종 단계인 Coding에서는 Planning 및 Analysis 결과에 따라 실제 코드 파일들을 생성합니다. 각 파일은 순차적으로 생성되며, 이전에 생성된 코드들을 참조할 수 있어 의존성을 유지한 일관된 구현이 가능합니다. 결과적으로 하나의 실행 가능한 코드 저장소가 생성됩니다.

실험 결과 및 평가

PaperCoder는 ICLR, ICML, NeurIPS의 최근 논문 90편을 기반으로 한 Paper2CodeBench에서 실험을 수행하였으며, 그 결과는 다음과 같습니다:

Reference-Based 평가: PaperCoder가 생성한 저장소는 평균 3.8점 수준으로, ChatDev(2.9점), MetaGPT(2.7점) 등을 크게 상회.
Reference-Free 평가: 평균 4.7점 이상으로, 실제 코드가 없는 논문에서도 높은 신뢰도를 확보.
Human Evaluation: 논문 저자 평가 결과, 88%의 경우 PaperCoder가 가장 우수한 구현을 생성했다고 평가.
수정률: 실행 불가능한 코드의 경우, 평균 0.81% 코드라인만 수정하면 실행이 가능할 정도로 높은 완성도.

라이선스

Paper2Code 프로젝트는 MIT 라이선스로 공개 및 배포 되고 있습니다. 상업적 사용과 수정이 자유롭습니다.

Paper2Code 논문

Paper2Code 프로젝트 GitHub 저장소

https://github.com/going-doer/Paper2Code

이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.

파이토치 한국 사용자 모임이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

아래쪽에 좋아요를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~