Google, 예일대와 함께 단일 세포의 행동 패턴을 이해하고 생물학적 가설을 도출하는 Cell2Sentence-Scale 모델

Gemma 모델과 C2S-Scale 27B 소개

구글 리서치는 최근 예일대학교(Yale University)와의 공동 연구를 통해 생명과학 분야에 혁신적인 성과를 발표했습니다. 바로, 단일 세포(single-cell)의 언어를 이해하도록 설계된 27B 규모의 기반 모델 ‘Cell2Sentence-Scale 27B (C2S-Scale)’ 의 공개입니다. 이 모델은 구글 딥마인드의 Gemma 오픈 모델 계열을 기반으로 개발된 것으로, 생물학 연구에서 인공지능이 새로운 가설을 제시하고 이를 실제 실험으로 검증하는 중요한 전환점을 만들어냈습니다.

C2S-Scale은 단순히 데이터를 분류하거나 분석하는 수준을 넘어, 세포의 행동 패턴을 ‘이해’하고 새로운 생물학적 가설을 도출할 수 있는 능력을 갖춘 모델로 평가받습니다. 특히, 암세포와 면역체계의 상호작용을 분석하는 과정에서 모델이 스스로 새로운 면역 반응 경로를 예측했으며, 그 예측이 실제 실험으로 검증되어 학계의 큰 주목을 받았습니다.

이 연구는 인공지능이 “언어”뿐 아니라 “생명”의 언어도 학습할 수 있음을 보여주는 대표적인 사례입니다. 즉, 자연어 모델이 문장을 예측하듯, C2S-Scale은 세포의 발현 데이터를 분석하여 어떤 생화학적 반응이 일어날지를 예측합니다. 이로써 연구자들은 단일 세포 수준에서 질병의 원리를 이해하고, 새로운 치료 경로를 탐색하는 데 필요한 통찰을 얻을 수 있게 되었습니다.

C2S-Scale 27B 모델은 기존의 생물학 AI 모델과 비교했을 때 두 가지 점에서 두드러집니다:

:one: 모델의 규모와 성능의 상관관계를 실험적으로 증명했다는 점입니다. 구글 연구진은 이전 연구에서 언어 모델처럼 생물학 모델도 크기가 커질수록 학습 능력이 선형적으로 향상된다는 ‘스케일링 법칙(scaling laws)’을 제시한 바 있습니다. 이번 C2S-Scale은 그 이론을 실제로 구현한 사례로, 대규모 모델이 단순히 기존 지식을 더 잘 재현하는 것이 아니라, 전혀 새로운 생물학적 통찰을 생성할 수 있다는 것을 보여주었습니다.

:two: C2S-Scale은 ‘조건적(reasoning under context)’ 생물학 추론 능력을 탑재했습니다. 이는 기존의 생물학 모델들이 개별 세포의 단일 반응만을 예측하는 것과 달리, 환경적 맥락(immune context) 을 고려한 반응 차이를 분석할 수 있는 기능입니다. 이를 통해 연구진은 모델이 실제 환자의 세포 환경을 반영하여 약물 효과를 다르게 예측할 수 있음을 입증했습니다.

C2S-Scale 27B의 작동 원리

암 면역치료의 주요 난제 중 하나는 ‘냉종양(cold tumor)’ 문제입니다. 이는 종양이 면역체계에 의해 인식되지 않아 공격받지 않는 상태를 의미합니다. 반대로 ‘열종양(hot tumor)’은 면역세포가 인식할 수 있는 신호(항원 제시, antigen presentation)를 발현한 상태를 말합니다. 암 치료의 핵심은 결국 냉종양을 열종양으로 바꾸는 것입니다.

C2S-Scale 27B 모델은 이 문제를 해결하기 위해, 특정 환경(면역 활성 상태)에서만 면역 신호를 증폭시킬 수 있는 약물, 즉 ‘조건적 증폭제(conditional amplifier)’를 찾는 임무를 부여받았습니다. 이를 위해 연구진은 두 가지 맥락에서 가상 스크리닝(virtual screen)을 수행했습니다:

  1. 면역 활성 환경(Immune-Context-Positive): 실제 환자 샘플 데이터를 사용하여 낮은 수준의 인터페론 신호가 존재하는 상황.
  2. 면역 중립 환경(Immune-Context-Neutral) : 면역 반응이 없는 세포주 데이터를 사용한 상황.

모델은 이 두 환경에서 4,000개 이상의 약물을 시뮬레이션하여, 면역 활성 환경에서만 항원 제시를 증가시키는 후보 물질을 예측했습니다. 놀랍게도 예측된 약물 중 10~30%는 기존 문헌에서 이미 면역 관련 효과가 보고된 약물이었고, 나머지는 완전히 새로운 후보군(surprising hits) 이었습니다.

예측에서 실험적 검증으로

모델이 가장 흥미로운 결과로 제시한 것은 CK2 키나아제 억제제인 ‘실미타서티브(Silmitasertib, CX-4945)’ 였습니다. 모델은 이 약물이 면역 활성 환경에서만 항원 제시(MHC-I 발현)를 강하게 증가시킬 것이라고 예측했습니다. 흥미롭게도, 이 약물은 기존 문헌에서 MHC-I 발현과의 직접적인 연관성이 보고된 적이 없었습니다.

이에 연구진은 인간 신경내분비 세포(neuroendocrine cells)를 대상으로 실험을 진행했습니다. 결과는 놀라웠습니다.

  • 실미타서티브 단독 처리: 변화 없음
  • 저용량 인터페론 단독 처리: 약한 반응
  • 두 약물 병용 처리: 항원 제시 약 50% 증가

이 실험은 모델의 가설이 실제 세포 수준에서도 유효함을 입증했습니다. 즉, AI 모델이 기존에 알려지지 않은 암 면역 반응 경로를 예측하고, 이를 실험으로 검증한 최초의 사례 중 하나 가 된 것입니다.

이 결과는 단순히 약물 발견을 넘어, AI가 생물학적 맥락을 이해하고 조건적 생물학 반응을 탐색할 수 있는 시대가 도래했음을 보여줍니다.

연구의 의미와 향후 방향

이번 연구는 대규모 AI 모델이 단순히 데이터 해석 도구를 넘어 새로운 과학적 발견의 파트너로 진화할 수 있음을 증명한 사건입니다.

C2S-Scale은 예측과 실험의 순환적 구조를 가능하게 하며, AI가 생명과학의 “가설 생성 엔진(hypothesis generator)”로 작동할 수 있다는 가능성을 열었습니다.

현재 예일대학교 연구진은 C2S-Scale이 제시한 다른 예측들을 추가 검증하고 있으며, 다양한 면역 환경에서 유사한 경로가 재현되는지를 탐색 중입니다. 이러한 접근은 향후 복합 약물 요법(combination therapy) 개발에 실질적인 도움을 줄 것으로 기대됩니다.

:scroll: Cell2Sentence-Scale 모델 공개 블로그

:scroll: Cell2Sentence-Scale 모델 논문: Scaling Large Language Models for Next-Generation Single-Cell Analysis

https://www.biorxiv.org/content/10.1101/2025.04.14.648850v2

:hugs: Cell2Sentence-Scale 27B 모델 다운로드

:github: Cell2Sentence-Scale 모델 GitHub 저장소

더 읽어보기




이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. :hugs:

:pytorch:파이토치 한국 사용자 모임:south_korea:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:wrapped_gift: 아래:down_right_arrow:쪽에 좋아요:+1:를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~ :star_struck: