OpenFold3-preview 소개
OpenFold3-preview는 콜롬비아대학교 AlQuraishi 연구실과 OpenFold 컨소시엄이 공동 개발한 AlphaFold3의 오픈소스 재현 모델로, Google DeepMind의 AlphaFold3를 비트 단위로 재현(bitwise reproduction)하는 것을 목표로 하고 있습니다. 이 프로젝트는 단순히 DeepMind의 AlphaFold3를 복제하는 데서 그치지 않고, 오픈소스 생태계에서 연구자들이 직접 구조 예측 파이프라인을 구축하거나 확장할 수 있도록 하는 등, 생체분자 구조 예측 연구의 개방성과 재현성을 강화하기 위해 설계되었습니다.
OpenFold3는 DeepMind의 AlphaFold2 및 AlphaFold-Multimer 모델을 완전하게 PyTorch 기반으로 재현한 OpenFold(2022) 프로젝트의 후속으로, RNA, DNA, 단백질 복합체, 그리고 단백질-리간드 상호작용까지 예측할 수 있도록 확장되었습니다.
OpenFold3-preview는 현재 ‘연구용 사전 공개(Research Preview)’ 단계로 공개되어 있으며, 커뮤니티의 피드백을 수집하고 오픈폴드 생태계를 확장하기 위한 초석이 되고 있습니다. 이를 위해 OpenFold 프로젝트는 장기적인 유지보수와 오픈소스 지원을 약속하며, Apache 2.0 라이선스 하에 학술 및 상업적 용도로 자유롭게 사용할 수 있습니다.
OpenFold 시리즈의 특징은 단 하나의 단순한 목표로 요약할 수 있습니다.
“누구나 AlphaFold 수준의 구조 예측 모델을 학습하고 개선할 수 있도록, 완전히 개방된 AI 연구 플랫폼을 제공한다.”
이 철학에 따라 OpenFold3는 Apache License 2.0 하에 공개되어 있으며, 학술 및 상업적 목적으로 자유롭게 사용할 수 있습니다.
OpenFold와 AlphaFold의 관계
OpenFold는 2022년 처음 공개된 AlphaFold2의 PyTorch 기반 재현 프로젝트입니다. 이 프로젝트는 DeepMind의 JAX 기반 코드를 충실히 복제하면서도 GPU 메모리 효율성 향상, 멀티-GPU 분산 학습, 커스텀 CUDA 커널, DeepSpeed 가속 지원 등 여러 면에서 개선을 이루었습니다.
OpenFold는 단백질 구조 예측에서 AlphaFold2와 동등한 수준의 정확도를 재현했으며, 이후 AlphaFold-Multimer와 SoloSeq 모드를 통해 복합체 구조 및 단일 서열 기반 예측까지 확장되었습니다.
OpenFold3는 이러한 경험을 바탕으로 AlphaFold3의 다중 모달 생체분자 입력 구조를 완전히 재현하면서, 오픈소스 기반에서 누구나 새로운 구조 예측 모델을 학습, 수정, 배포할 수 있도록 설계되었습니다.
AlphaFold3와의 비교
OpenFold3는 기본적으로 AlphaFold3의 구조와 알고리즘을 충실히 재현하지만, 몇 가지 중요한 차이점이 존재합니다. 가장 눈에 띄는 것은 모델의 안정적인 학습을 위한 구조적 수정입니다. AlphaFold3의 보조자료에 기재된 알고리즘은 일부 구현 시 불안정성이 보고되었으며, OpenFold3 팀은 이를 해결하기 위해 기존 연구(Protenix, Chai-1, Boltz-1 등)에서 제안된 개선 사항을 반영했습니다.
예를 들어, 거리(bin) 계산 알고리즘(Algorithm 31)을 38개의 균등 폭 bin으로 변경하였고, 각 Confidence head의 입력에는 LayerNorm을 추가했습니다. 반면, Diffusion 모듈 내에서는 LayerNorm의 bias를 제거해 학습 안정성을 높였습니다. 또한, 마지막 MSA(Multiple Sequence Alignment) 모듈 블록에서는 쓸모없는 MSA 스택을 생략하여 효율성을 개선했습니다.
학습 과정에서도 AlphaFold3의 “다단계 학습 절차(multistage training)”를 재현했지만, 정확한 학습 스텝 수가 공개되지 않아, OpenFold3는 자체적으로 모델 선택 지표(metric)의 최대값을 기준으로 학습을 중단하는 방식을 채택했습니다. 결과적으로 74,250 스텝의 초기 학습과 세 차례의 파인튜닝을 거쳐 완성된 모델을 공개했습니다.
OpenFold3-preview는 AlphaFold3의 구조와 입력 파이프라인을 공개적으로 재현함으로써, 오픈소스 환경에서 누구나 모델을 분석, 개선, 재학습할 수 있는 기반을 제공합니다. 특히 DeepSpeed4Science 및 NVIDIA cuEquivariance 같은 커널 가속을 적용하여 GPU 효율성을 극대화하였으며, 대규모 멀티-GPU 환경에서 분산 예측을 수행할 수 있도록 설계되었습니다.
OpenFold3-preview의 주요 기능
OpenFold3-preview는 AlphaFold3 논문에서 제시된 입력 특성 및 생체분자 구조 예측 프로토콜을 그대로 지원/재현하면서, 커뮤니티 개발자들이 즉시 사용할 수 있는 다양한 기능을 제공합니다. 주요 기능은 다음과 같습니다:
-
다양한 생체분자 예측 지원: 표준 및 비표준 단백질, RNA, DNA, 그리고 소분자(ligand) 구조를 통합적으로 예측할 수 있습니다.
-
MSA(Multiple Sequence Alignment) 파이프라인 제공: ColabFold 서버 또는 JackHMMER / hhblits 기반의 AlphaFold3 프로토콜을 통해 자동으로 MSA를 생성합니다.
-
템플릿 기반 구조 보정: 단백질 모노머 구조를 예측할 때, PDB70 기반의 구조 템플릿(Structure Template)을 사용하여 정확도를 향상시킬 수 있습니다.
-
커널 최적화 및 GPU 가속: NVIDIA의 cuEquivariance 및 DeepSpeed4Science 커널을 통합하여 연산 효율을 극대화했습니다. 더 상세한 내용은 이 문서를 참고해주세요.
-
멀티-GPU 분산 예측: 다중 질의(Multi-Query Job) 기능을 통해 대규모 생체분자 세트를 여러 GPU들에서 분산 예측할 수 있으며, GPU 리소스 제약 환경에서도 자동 메모리 관리가 가능합니다.
-
저메모리 모드 지원: GPU 메모리가 적은 시스템에서도 연산량을 줄이면서 구조 예측이 가능하도록 최적화된 ‘Low-Memory Mode’를 제공합니다.
이러한 기능들은 OpenFold3를 단순한 재현 수준의 프로젝트가 아닌, 실제 연구 환경에서 유연하게 적용 가능한 실용적인 예측 플랫폼으로 활용할 수 있음을 뜻합니다.
OpenFold3-preview 빠른 시작 (Quick Start)
OpenFold3-preview는 설치와 실행이 매우 간단하게 구성되어 있습니다. 기본적인 예측 파이프라인은 다음과 같은 절차로 수행할 수 있습니다.
먼저 pip 패키지를 설치합니다. 더 상세한 내용은 설치 관련 문서를 참고해주세요:
pip install openfold3
mamba install kalign2 -c bioconda
이후, OpenFold3 설정 스크립트를 실행하여 환경 설정 및 모델 파라미터를 다운로드 합니다:
setup_openfold
이후, 다음과 같이 ColabFold MSA 서버를 사용하여 예측을 실행합니다:
run_openfold predict --query_json=examples/example_inference_inputs/query_ubiquitin.json
추가적인 커스터마이징 및 고급 예측 설정은 OpenFold3 공식 문서에서 자세히 확인할 수 있습니다. 또한, Hugging Face의 OpenFold3 페이지에서 입력 및 출력 예시를 제공합니다. (단, 라이선스 동의 과정 필요)
벤치마크 성능
OpenFold3-preview는 현재까지 공개된 오픈소스 모델 중 가장 높은 수준의 RNA 구조 예측 성능을 달성했습니다. 특히 단백질 및 단백질-복합체 구조 예측에서도 기존 모델과 대등한 정확도를 보이며, AlphaFold3 수준의 결과를 재현하는 데 성공했습니다.
사용한 벤치마크 데이터셋은 다음과 같습니다:
- 단백질 및 RNA 모노머: CASP16, Ludaic et al. (2025)
- 단백질-단백질 복합체: CASP16, FoldBench
- 단백질-리간드 복합체: Runs and Poses
자세한 평가 방법과 결과 분석은 OpenFold3 백서(whitepaper)에서 확인하실 수 있습니다.
OpenFold3의 향후 개발 계획
OpenFold3의 최종 버전은 아직 개발 중이며, 연구팀은 다음과 같은 추가 기능을 준비하고 있습니다.
- AlphaFold3의 모든 모달리티 지원 완전 구현
- 학습용 데이터셋 공개 및 재학습 문서 제공
- 비-PDB 데이터 기반 학습 워크플로우 지원
이러한 기능들이 완성되면, OpenFold3는 전 세계 연구자들이 완전히 자유롭게 활용할 수 있는 차세대 오픈 생체분자 구조 예측 플랫폼이 될 것으로 기대됩니다.
라이선스
OpenFold3 프로젝트는 Apache License 2.0으로 공개 및 배포되고 있습니다. 상업적 이용이 가능하며, 소스 코드 수정 및 재배포에 제약이 없습니다.
OpenFold3 공식 문서
OpenFold3 백서(Whitepaper)
OpenFold3 프로젝트 GitHub 저장소
더 읽어보기
이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. ![]()
파이토치 한국 사용자 모임
이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일
로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)
아래
쪽에 좋아요
를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~ ![]()


