PaperBanana 소개
언어 모델을 활용한 자율형 AI 과학자 기술이 빠르게 발전하고 있음에도 불구하고, 학술 논문에 즉시 출판 가능한 수준의 고품질 일러스트레이션을 제작하는 작업은 여전히 연구 워크플로우에서 많은 노동력과 시간을 요구하는 병목 지점으로 남아 있습니다. 이러한 연구자들의 무거운 부담을 덜어주기 위해 고안된 프레임워크가 바로 PaperBanana 입니다. 이 기술은 최첨단 비전 언어 모델(Vision-Language Model) 과 이미지 생성 모델을 기반으로 설계되었으며, 논문에 포함된 원시적인 과학적 텍스트 문맥을 분석하여 학술적 기준에 부합하는 방법론 다이어그램과 통계 차트로 자동 변환하는 역할을 수행합니다.
PaperBanana 프레임워크가 제공하는 핵심 가치는 단일 모델의 생성 능력에 전적으로 의존하는 대신, 특화된 역할을 가진 여러 에이전트가 유기적으로 협업하는 아키텍처를 채택했다는 점입니다. 주어진 연구 내용과 캡션을 바탕으로 시스템은 참조할 만한 우수 사례를 먼저 검색하고, 이미지의 내용과 스타일을 논리적으로 기획한 뒤 시각적으로 렌더링합니다. 이후 자체적인 비평 과정을 통해 결과를 반복적으로 다듬어냅니다. 이러한 과정을 통해 기존의 단순 프롬프트 기반 생성 방식이 가지던 의미적 환각 현상이나 조잡한 디자인 문제를 극복하고, 과학적 사실에 부합하면서도 미학적인 완성도를 갖춘 삽화를 만들어냅니다.
연구진은 이 시스템의 객관적인 성능을 평가하기 위해 인공지능 분야의 최상위 학회인 NeurIPS 2025의 출판물에서 선별한 방법론 다이어그램 테스트 케이스 292개로 구성된 전용 벤치마크 데이터셋을 구축하였습니다. 다양한 연구 도메인과 일러스트레이션 스타일을 포괄하는 이 평가 환경에서, 제안된 시스템은 원문과의 충실도, 간결성, 가독성, 미학 등 모든 핵심 평가 지표에서 기존의 베이스라인 모델들을 일관되게 능가하는 성능을 입증하였습니다. 나아가 이 방법론은 복잡한 데이터 시각화가 필요한 통계적 플롯을 생성하는 영역까지 자연스럽게 확장되어 활용될 수 있는 잠재력을 보여줍니다.
PaperBanana의 주요 특징 및 에이전트 아키텍처
PaperBanana는 참조 주도형 멀티 에이전트 프레임워크로서, 총 다섯 개의 고도로 특화된 에이전트가 폐쇄 루프 형태로 협력하는 구조를 갖추고 있습니다. 각 에이전트는 독립적인 인지 및 처리 과정을 거쳐 파이프라인의 다음 단계로 정제된 정보를 전달하게 됩니다. 모든 기능은 단일 모델의 한계를 보완하기 위해 논리적으로 분리되어 있으며, 궁극적으로 학술적 엄밀성을 충족하는 결과물을 지향합니다.
첫 번째 단계에서 동작하는 검색 에이전트(Retriever Agent) 는 하위 에이전트들의 전반적인 작업 방향을 안내하기 위해, 사전에 엄선된 고품질 다이어그램 컬렉션 중에서 현재 입력된 논문 내용과 가장 관련성이 높은 참조 예시를 찾아내는 역할을 합니다.
이어지는 기획 에이전트(Planner Agent) 는 프레임워크의 인지적 핵심 역할을 담당하며, 검색된 참조 예시들을 인 컨텍스트 러닝의 기반으로 삼아 복잡한 과학적 문맥을 상세하고 구조화된 텍스트 형태의 시각적 설명서로 번역해 냅니다.
세 번째 단계인 스타일리스트 에이전트(Stylist Agent) 는 앞서 검색된 참조 자료들로부터 핵심적인 스타일 가이드라인을 종합하여, 기획된 설명서가 학술지의 미적 기준과 색상 체계를 엄격하게 준수하도록 다듬는 역할을 수행합니다.
이렇게 미학적 검토까지 마친 설계도는 시각화 에이전트(Visualizer Agent) 로 전달되어 최첨단 이미지 생성 모델의 입력으로 사용되며, 최종적인 시각적 픽셀 데이터로 변환됩니다.
마지막으로 비평 에이전트(Critic Agent) 가 생성된 이미지를 원본 논문 문맥과 꼼꼼하게 대조하여 노드 간의 연결 오류나 중복 요소 등을 찾아내고, 시각화 에이전트가 이를 수정할 수 있도록 구체적인 피드백을 제공하며 품질이 충족될 때까지 정제 과정을 반복합니다.
PaperBanana 프로젝트 홈페이지
PaperBanana 논문: Automating Academic Illustration for AI Scientists
PaperBanana 벤치마크
PaperBanana의 주요 구현체 3종 소개
PaperBanana는 연구 커뮤니티의 폭넓은 참여를 이끌어내고 기술의 발전을 도모하기 위해 다양한 형태의 저장소로 분리되어 공개 관리되고 있습니다. 아래에서 살펴볼 PaperBanana의 3가지 구현체는 각각의 철학과 활용 환경에 맞게 독자적인 특징과 확장성을 지니고 발전하고 있습니다.
Google Reseearch의 PaperVizAgent (공식 & 원본)
첫 번째는 구글 리서치에서 공식적으로 관리하는 PaperVizAgent 저장소입니다. 이 저장소는 원래의 연구 논문에서 소개된 파이프라인의 공식 원본 구현체로, 최근 프로젝트명이 변경(PaperBanana -> PaperVizAgent)되어 업로드되었습니다.
사용자는 YAML 설정 파일을 통해 여러 생성 모델의 API 키를 안전하게 관리할 수 있으며, Streamlit 기반의 직관적인 대화형 데모를 통해 다수의 후보 다이어그램을 병렬로 생성하고 고해상도로 정제하는 기능을 활용할 수 있습니다. 각 에이전트의 결합을 조절하는 다양한 실험 모드를 지원하여 파이프라인의 특정 단계만 독립적으로 실행하고 평가하는 것도 가능합니다.
논문 저자의 PaperBanana (공식 & 고도화)
두 번째 구현체는 원문 논문의 핵심 저자가 학계의 발전을 위해 직접 포크하여 지속적으로 고도화하고 있는 PaperBanana 개별 저장소입니다. 이 버전은 특정 기업의 상업적 정책이나 플랫폼 종속성에서 벗어나, 순수하게 학계 연구자들이 논문 작성에 바로 활용할 수 있도록 코드베이스를 진화시키는 데 목적을 두고 있습니다.
향후 사용자가 직접 수동으로 참조 예시를 선택하는 기능이나 통계 플롯 생성 코드, 그리고 기존에 인간이 그린 다이어그램의 미적 품질을 시스템의 스타일 가이드라인을 통해 향상시키는 고도화된 기능들이 지속적으로 업데이트될 예정입니다.
오픈소스 버전의 PaperBanana (비공식 & 커뮤니티 주도)
세 번째는 대규모 언어 모델 연구 커뮤니티 주도로 재구현 및 확장된 llmsresearch/paperbanana 저장소입니다. 이 프로젝트는 원본 논문의 에이전트 구조를 충실히 구현하면서도, 프레젠테이션 슬라이드 생성과 같은 새로운 도메인으로 시스템의 활용 범위를 대폭 확장하였습니다.
OpenAI, Azure, 구글 등 다양한 생성 모델 프로바이더를 유연하게 전환할 수 있으며, 입력 최적화 레이어를 앞단에 추가하여 원시 텍스트의 처리 품질을 한층 높였습니다. 특히 터미널에서 즉시 사용 가능한 강력한 명령줄 인터페이스와 통합 개발 환경 연동을 위한 MCP 서버 모듈, 그리고 Claude Code 연동 스킬까지 포함하고 있어 개발자와 시스템 통합 구축을 원하는 사용자에게 최적의 확장성을 제공합니다.
이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. ![]()
파이토치 한국 사용자 모임
이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일
로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)
아래
쪽에 좋아요
를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~ ![]()






