Data-to-Paper: AI가 원시(raw) 데이터를 바탕으로 자동적으로 수행하는 연구 프레임워크
소개
data-to-paper는 원시 데이터에서부터 시작하여 투명하고 인간 검증 가능한 과학 논문까지 완전한 연구 과정을 AI가 수행할 수 있도록 하는 프레임워크입니다. 이 프로젝트는 LLM(Language Model)과 규칙 기반 에이전트의 상호작용을 통해 과학적 연구 경로를 체계적으로 안내하며, 데이터 주석, 연구 가설 설정, 문헌 검색, 데이터 분석 코드 작성 및 디버깅, 결과 해석, 그리고 최종적으로 연구 논문 작성에 이르기까지 전 과정을 포함합니다.
LLM을 사용하여 연구를 하는 경우에는 일반적으로 코드 작성의 오류나 통계적 분석의 오류, 문맥이나 문헌을 잘못 이해하거나 검색하지 못했던 오류들이 발생할 수 있습니다. 또한, 연구 결과의 해석 및 윤리적 고려 사항에 대한 간과가 있을 수 있습니다.
이러한 오류들을 최소화하기 위해 data-to-paper 프로젝트는 여러 가지 안전장치와 인간 참여 과정을 포함하고 있습니다. 사용자는 연구 과정의 각 단계를 감독하고, 필요시 개입하여 오류를 수정할 수 있습니다.
주요 특징
-
분야 불문: 다양한 연구 분야에서 사용할 수 있도록 일반화된 프레임워크를 지향합니다.
-
목표 설정: 사용자가 정의한 특정 가설을 검증하거나 새로운 가설을 자율적으로 제기하고 테스트할 수 있습니다.
-
데이터 연결 문서: 결과, 방법론, 데이터가 프로그래밍적으로 연결되어 투명성과 검증 가능성을 제공합니다.
-
코딩 안전장치: 통계 패키지에 여러 안전장치를 적용하여 일반적인 코딩 오류를 최소화합니다.
-
인간 참여: 사용자가 연구 과정을 감독하고 각 단계에서 개입할 수 있는 GUI 애플리케이션을 제공합니다.
-
기록 및 재생: 모든 과정이 기록되며, 모든 LLM 응답, 인간 피드백, 문헌 검색 결과 등을 투명하게 재생할 수 있습니다.
데이터 연결적 문서 제공
**데이터 연결 문서(Data-chained Manuscripts)**는 연구 과정의 투명성과 검증 가능성을 높이기 위해 고안된 시스템입니다. 이 시스템은 연구 결과, 방법론, 데이터가 프로그래밍적으로 연결되어 있으며, 모든 숫자 값이 생성된 코드 줄로 역추적될 수 있도록 합니다. 구체적으로는 다음과 같은 방식으로 투명성을 제공합니다:
-
코드와 데이터의 연계: 연구 문서에서 사용된 모든 데이터와 결과 값은 해당 값을 생성한 코드 줄과 연결되어 있습니다. 이를 통해 독자는 연구 결과가 어떻게 도출되었는지 명확하게 확인할 수 있습니다.
-
클릭 추적 기능: 데이터 연결 문서는 연구 문서 내의 모든 숫자 값이 클릭을 통해 해당 값을 생성한 코드 줄로 추적될 수 있는 기능을 제공합니다. 이 기능은 독자가 연구 결과의 신뢰성을 직접 검증할 수 있도록 도와줍니다.
-
투명한 방법론: 연구 과정에서 사용된 모든 방법론은 문서에 명확하게 기술되며, 사용된 코드와 데이터는 독자가 직접 접근하고 검토할 수 있습니다. 이는 연구 과정의 투명성을 높이고, 다른 연구자들이 동일한 결과를 재현할 수 있도록 합니다.
-
LLM 응답 기록: 연구 과정에서 LLM이 생성한 모든 응답은 기록되며, 이를 통해 연구 과정에서 어떤 결정이 내려졌는지 명확하게 확인할 수 있습니다. 이는 연구 과정의 추적 가능성을 높이고, 오류를 발견하거나 수정하는 데 도움을 줍니다.
-
인간 피드백 기록: 연구 과정에서 인간 연구자가 제공한 피드백 역시 모두 기록됩니다. 이를 통해 연구 과정에서 인간의 개입이 어떻게 이루어졌는지 명확하게 파악할 수 있습니다.
-
문헌 검색 결과 기록: 연구 과정에서 수행된 문헌 검색의 결과도 모두 기록되며, 이를 통해 어떤 문헌이 연구에 참고되었는지 확인할 수 있습니다. 이는 연구 배경의 신뢰성을 높이는 데 기여합니다.
이러한 데이터 연결 문서 시스템을 통해 data-to-paper는 연구 과정의 투명성과 검증 가능성을 크게 향상시키며, 연구 결과의 신뢰성을 높이고, 다른 연구자들이 동일한 연구를 재현할 수 있도록 돕습니다.
설치 및 실행 방법
설치 관련 자세한 내용은 INSTALL.md를 참조하십시오. 설치 후, 다음 명령어로 프로그램을 실행할 수 있습니다:
python data_to_paper/data_to_paper/run/run.py
사용 예시
예시 사례
data-to-paper 프로젝트는 다양한 테스트 케이스에서 실행되었으며, 다음과 같은 예시 연구 논문이 생성되었습니다.
1. 건강 지표(오픈 목표)
- 데이터셋: CDC의 행동 위험 요인 감시 시스템(BRFSS) 2015 데이터셋의 청정 부분 집합
- 출처: Kaggle 데이터셋
- 예시 논문: 논문 보기
- 브랜치:
examples/diabetes
2. 소셜 네트워크(오픈 목표)
- 데이터셋: 제117회 의회의 트위터 상호작용을 나타내는 방향 그래프
- 출처: Fink et al.
- 예시 논문: 논문 보기
- 브랜치:
examples/congress_social_network
3. 치료 정책(고정 목표)
- 데이터셋: NICU에 입원한 비활동적인 신생아의 치료 및 결과 데이터셋, 치료 지침 변경 전후
- 출처: Saint-Fleur et al.
- 예시 논문: 논문 보기
- 브랜치:
examples/nicu
4. 치료 최적화(고정 목표)
- 데이터셋: 수술 후 기계적 환기를 받은 소아 환자의 데이터, 최적의 기관 삽관 깊이 및 개인화된 환자 속성
- 출처: Shim et al.
- 예시 논문: 논문 보기
- 브랜치:
examples/tube_levels
참여 및 기여
data-to-paper 프로젝트는 현재 간단한 연구 목표와 데이터셋에 초점을 맞추고 있으며, 통계 가설을 제기하고 테스트하는 데 사용됩니다. 사용자의 데이터로 프로젝트를 시도해보고 피드백을 제공하도록 초대합니다.
추가 참고사항 (사용 시 유의 사항)
면책 조항: 이 소프트웨어 사용으로 인한 모든 위험은 사용자가 부담합니다. 개발자는 소프트웨어 사용으로 인해 발생할 수 있는 손실이나 손해에 대해 책임을 지지 않습니다.
준수사항: 이 소프트웨어의 출력을 기반으로 한 모든 행동이나 결정이 모든 적용 가능한 법률, 규정 및 윤리 표준을 준수해야 합니다.
더 읽어보기
Data-to-Paper 관련 논문: Autonomous LLM-driven research from data to human-verifiable research papers
Data-to-Paper GitHub 저장소
(이 프로젝트와는 다른) Multi-Agent 관련 프로젝트
이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.
파이토치 한국 사용자 모임이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)
아래쪽에 좋아요를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~