ThinkSound 소개
영화의 폴리(foley) 아티스트는 영상에 등장하는 객체와 사건을 단순히 인식하는 것을 넘어서, 시각적 동역학과 음향 환경, 시간적 관계를 종합적으로 추론하여 사운드를 설계합니다. 예를 들어 같은 장면에서도 올빼미가 우는지, 날개를 퍼덕이는지에 따라 다른 효과음이 필요하고, 나뭇가지의 미세한 흔들림이나 여러 사운드 이벤트의 동시성까지 고려해야 합니다. 그러나 기존의 비디오-투-오디오(Video-to-Audio, V2A) 생성 모델들은 대부분 종단간(end-to-end) 블랙박스 형태로 학습되어, 이러한 단계적이고 복합적인 추론 과정을 표현하지 못한 채 일반적이거나 시간적 정렬이 어긋난 사운드를 만들어내는 경우가 많았습니다.
이 한계를 해결하기 위해 멀티모달 대규모 언어 모델(Multimodal Large Language Model, MLLM)을 V2A에 도입한 시도들이 있었지만, 각각 뚜렷한 약점이 있었습니다. SonicVisionLM은 비디오를 텍스트 캡션으로 변환한 뒤 별도의 텍스트-투-오디오(Text-to-Audio, T2A) 모델을 호출하는 구조라 시각적 디테일과 모션 동역학이 손실되었고, DeepSound-V1은 오디오 생성/보컬 제거/무음 검출 등 작업을 별도의 특화 모델로 쪼개어 처리하기 때문에 MLLM의 통합 추론 능력을 충분히 활용하지 못했습니다.
ThinkSound 는 NeurIPS 2025 메인 컨퍼런스에 채택된 연구로, MLLM의 체인 오브 소트(Chain-of-Thought, CoT) 추론을 활용하여 비디오, 텍스트, 오디오 등 임의의 입력 조합에서 고품질 오디오를 생성하고 편집할 수 있는 통합 프레임워크 입니다. 흐름 매칭(flow matching) 기반의 단일 오디오 파운데이션 모델 위에 MLLM이 생성한 CoT 추론을 조건으로 주입하여, 폴리 생성 → 객체 중심 정제 → 자연어 기반 편집까지 세 단계의 작업을 하나의 모델로 일관되게 처리합니다. 또한 시각 콘텐츠와 텍스트 설명, 사운드 합성을 잇는 구조화된 추론 주석을 담은 대규모 데이터셋 AudioCoT 를 함께 공개하였으며, 학습 후 모델은 in-distribution 벤치마크인 VGGSound 테스트셋과 out-of-distribution 벤치마크인 Movie Gen Audio Bench 모두에서 SOTA를 달성합니다.
ThinkSound는 홍콩과학기술대학교(HKUST), 알리바바 Tongyi Fun 팀, 저장대학교 공동 연구로 진행되었으며, Apache 2.0 라이선스로 공개되어 있습니다 (단, 상업적 사용은 별도 허가 필요). 1.3k 이상의 GitHub 스타를 획득하였고, Hugging Face Spaces를 통해 온라인 데모를 직접 체험할 수 있습니다. 또한 같은 저장소의 prismaudio 브랜치에는 ThinkSound의 후속 연구인 PrismAudio가 공개되어 있으며, 이 연구는 ICLR 2026에 채택되었습니다.
ThinkSound의 주요 기여
논문은 V2A를 위한 새로운 패러다임으로 다음 네 가지 핵심 기여를 제시합니다.
- CoT 기반 3단계 인터랙티브 V2A 프레임워크: 폴리 생성, 객체 중심 정제, 지시 기반 편집을 점진적으로 결합하여 사용자가 사운드스케이프를 단계적으로 구성하고 다듬을 수 있도록 합니다. 모든 단계는 MLLM이 생성하는 CoT 추론으로 통합 제어됩니다.
- 임의 모달리티 조합을 처리하는 통합 오디오 파운데이션 모델: 비디오, 텍스트, 오디오의 어떤 조합이 입력되더라도 단일 흐름 매칭 모델이 고품질 오디오를 합성할 수 있도록 설계되었습니다. CoT 추론이 복잡한 사운드 씬을 다룰 수 있는 구성 요소로 분해해주기 때문에, 글로벌 일관성과 부분적 사운드 이벤트 합성을 동시에 달성합니다.
- AudioCoT 데이터셋: 시각 콘텐츠 / 텍스트 설명 / 사운드 합성을 잇는 오디오 특화 CoT 추론 주석이 포함된 대규모 멀티모달 데이터셋입니다. VGGSound, AudioSet 비음성 서브셋 등 비디오-오디오 쌍과 AudioSet-SL, Freesound, AudioCaps, BBC Sound Effects 등 오디오-텍스트 쌍을 결합하고, VideoLLaMA 2 / Qwen2-Audio / GPT-4.1-nano를 조합한 자동 파이프라인으로 추론 체인을 구축하였습니다.
- 객관 지표와 주관 평가 모두에서 SOTA 달성: 추론 기반 생성이 단순한 키워드 나열이 아닌 단계별 논리 구조 자체에서 성능 향상을 가져온다는 점을 광범위한 ablation으로 입증합니다.
ThinkSound의 3단계 파이프라인
ThinkSound 전체 프레임워크 아키텍처1930×734 186 KB
ThinkSound는 V2A를 세 가지 직관적이고 사용자 친화적인 단계로 분해합니다. 각 단계마다 MLLM이 의미적/시간적으로 정렬된 CoT 명령을 생성하고, 통합 오디오 파운데이션 모델이 이 명령을 조건으로 받아 사운드트랙을 생성하거나 갱신합니다.
1단계: 폴리 생성(CoT-Guided Foley Generation)
비디오 전체를 분석하여 주된 사운드 이벤트, 환경음, 음향 특성, 시간적 의존 관계를 식별합니다. 파인튜닝된 MLLM이 "어떤 객체가 언제 소리를 내고 그 소리들이 어떻게 상호작용하는지"를 명시적인 CoT 형태로 추론하면, 흐름 매칭 모델이 의미와 시간이 모두 일치하는 사운드스케이프를 합성합니다.
2단계: 객체 중심 정제(Interactive Object-Centric Refinement)
1단계 결과를 기반으로, 사용자가 비디오 프레임의 특정 객체를 클릭하면 해당 영역(ROI)에 집중한 사운드를 정제합니다. ROI 좌표는 Grounded SAM 2를 활용해 시간적으로 추적되며, MLLM은 ROI에 대한 의미 정보와 결합한 CoT 추론을 통해 "어떤 사운드를 어떻게 추가/교체/제거할지"를 지시합니다. 다른 배경음은 유지된 채 클릭한 객체의 사운드만 선택적으로 조작할 수 있습니다.
3단계: 자연어 지시 기반 편집(Instruction-Based Audio Editing)
"빗소리를 더 키워줘", "자동차 경적 대신 기차 경적으로 교체" 같은 자연어 지시를 받아 이미 생성된 오디오를 편집합니다. 확장(extension), 인페인팅(inpainting), 추가(addition), 제거(removal) 네 가지 핵심 연산이 정의되어 있으며, MLLM이 각 연산에 맞는 CoT 추론을 생성하여 흐름 매칭 모델의 마스킹된 오디오 컨텍스트와 함께 작동합니다.
세 단계는 모두 동일한 파운데이션 모델 위에서 수행되며, classifier-free guidance dropout으로 어떤 모달리티 조합도 입력으로 받을 수 있도록 학습되어 있어 한 모델로 일관된 워크플로우를 제공합니다.
ThinkSound의 모델 아키텍처
ThinkSound는 크게 두 모듈로 구성됩니다.
MLLM 추론 엔진 (VideoLLaMA 2 기반)
VideoLLaMA 2를 AudioCoT 데이터로 파인튜닝하여 오디오 추론에 특화된 모듈로 변환합니다. 표준 cross-entropy 기반의 다음 토큰 예측 손실로 학습되며, 이 과정에서 (1) 음향 특성 / 사운드 전파 / 오디오-비주얼 시간적·인과적 관계 추론과 같은 오디오 중심 이해, (2) 복잡한 생성/편집 작업을 명시적·실행 가능한 단계로 분해하는 구조화된 CoT 분해, (3) 다양한 모달리티의 명령을 정확히 따르는 멀티모달 instruction following 세 가지 능력을 갖추도록 설계됩니다. 추론 시에는 환각이나 장황함을 막기 위해 CoT 길이를 3문장, 77 토큰 이하로 제한 합니다.
통합 오디오 파운데이션 모델 (MM-DiT 기반)
오디오는 Stable Audio Tools의 사전 학습된 VAE를 사용해 44.1kHz 스테레오 잠재 표현으로 인코딩되며, 학습은 conditional flow matching으로 진행됩니다. 텍스트 인코딩은 듀얼 패스웨이로 설계되어, MetaCLIP 이 비주얼 캡션을 임베딩하여 씬 수준의 글로벌 컨디션을 제공하고, T5-v1-xl 이 구조화된 CoT 추론을 임베딩하여 시간적·인과적 관계를 포함한 세밀한 컨디션을 제공합니다.
핵심 아키텍처는 향상된 MM-DiT 로, 다음 세 가지 설계가 적용되어 있습니다.
- Multi-stream + Single-stream 하이브리드 트랜스포머 백본: 모달리티별로 분리된 파라미터(multi-stream)를 두면서도 attention은 공유하여, 모달리티 간 학습을 잃지 않고 효율적으로 처리합니다.
- 게이트 기반 적응형 융합 모듈(adaptive gated fusion): 비디오 특징을 업샘플링하여 오디오 잠재 표현과 게이트 메커니즘으로 결합합니다. 단순 합산 대비 시각 정보의 selective injection이 가능해, ablation에서 DeSync 0.50 → 0.46 등 일관된 개선을 보였습니다.
- 글로벌 컨디셔닝 + AdaLN 주입: 캡션과 비디오의 CLIP 특징을 평균 풀링한 결과에 sync feature(MMAudio 방식)를 더해 timestep embedding과 합친 뒤, AdaLN으로 multi-stream / single-stream 블록 모두에 주입합니다.
학습은 24×A800 GPU로 VAE를 500k 스텝 학습한 뒤 디코더만 추가로 500k 스텝 미세 조정하고, 파운데이션 모델은 8×A100 GPU에서 100k 스텝(effective batch 256, lr 1e-4) 학습 후 작업별 50k 스텝 fine-tuning이 이어집니다. 모델 크기는 Small(533M), Medium(724M), Large(1.3B)의 3가지가 공개되어 있습니다.
AudioCoT 데이터셋
ThinkSound 학습을 위해 새로 구축된 AudioCoT 는 자동화된 3단계 파이프라인으로 만들어진 멀티모달 추론 데이터셋입니다.
- 소스 데이터: 비디오-오디오 쌍은 VGGSound와 비음성으로 큐레이션된 AudioSet 서브셋, 오디오-텍스트 쌍은 AudioSet-SL, Freesound, AudioCaps, BBC Sound Effects에서 수집되었습니다.
- Stage 1 (폴리 CoT): VideoLLaMA 2가 비디오의 시간적/의미적 정보를 추출하고 Qwen2-Audio가 오디오 캡션을 생성한 뒤, GPT-4.1-nano가 이를 통합하여 사운드 이벤트와 컨텍스트의 관계를 담은 CoT 추론 체인을 합성합니다.
- Stage 2 (객체 중심 CoT): Grounded SAM 2로 사운드 발생 후보 객체에 대한 ROI 박스를 시간축으로 추적하고, VideoLLaMA 2가 ROI별 의미 설명을 생성합니다. 추출/제거 같은 복합 조작을 위해 다른 비디오의 CoT를 병합한 계층적 컨텍스트를 만든 뒤, GPT-4.1-nano가 일관된 조작 근거를 생성합니다.
- Stage 3 (지시 기반 편집 CoT): Stage 1 결과를 확장 / 인페인팅 / 추가 / 제거 4개 연산 관점에서 재구성하여, (Instruction-CoT, 입력 오디오, 출력 오디오) 트리플렛을 만듭니다.
실험 결과
논문은 VGGSound 테스트셋(in-distribution), Movie Gen Audio Bench(out-of-distribution), AudioCoT 테스트셋(객체 중심 / 편집)에서 광범위한 평가를 수행하였습니다. 객관 지표는 OpenL3 임베딩 기반 Fréchet Distance(FD), PaSST/PaNNs 기반 KL Divergence, Synchformer 기반 DeSync, 캡션 및 CoT 정렬을 측정하는 CLAPcap / CLAPCoT 점수를 사용하고, 주관 평가는 15명의 평가자가 50쌍씩 5점 Likert로 매긴 MOS-Q(품질)와 MOS-A(정렬)로 진행하였습니다.
비디오-투-오디오 생성 (VGGSound 테스트셋)
가장 강력한 베이스라인인 MMAudio와 비교하여 객관/주관 지표 모두에서 우위를 보였습니다.
- KLPaSST: 1.52 (MMAudio 1.65)
- CLAPCoT: 0.46 (MMAudio 0.40)
- CLAPcap: 0.49 (MMAudio 0.43, MovieGen 0.44)
- MOS-Q: 4.02 vs MMAudio 3.84
- MOS-A: 4.18 vs MMAudio 3.97
- DeSync는 베이스라인과 동등한 수준으로 시간 정렬이 유지됨
CoT 추론을 제거하면 CLAPCoT가 0.46 → 0.41로 크게 떨어져, 사운드 이벤트와 시간 관계, 음향 특성에 대한 CoT 정보가 결정적임을 보여줍니다.
Out-of-Distribution 일반화 (Movie Gen Audio Bench)
GT 오디오가 제공되지 않아 FD/KL 비교가 불가능한 OOD 벤치마크에서도, ThinkSound는 CLAPCoT 0.51 로 베이스라인 중 최고 점수를 기록하고 DeSync도 베스트와 동등한 수준을 유지하였습니다. 주관 평가의 정렬·품질 항목 모두 1위로, 일반화 능력이 강하다는 것이 확인되었습니다.
객체 중심 생성과 자연어 기반 편집
ROI 설계가 없는 MMAudio 및 CoT를 제거한 ThinkSound 변형과 비교한 결과, ThinkSound가 객체별 사운드 품질과 기존 사운드와의 통합 모두에서 유의미하게 우수했습니다. 자연어 기반 편집(AudioCoT 테스트셋)에서는 AudioLDM-2와 Edit Friendly DDPM을 모든 지표에서 능가했으며, FD 34.78, KLPaSST 1.45, CLAP 0.51 로 가장 좋은 충실도와 의미 정합도를 보였습니다.
Ablation 핵심 결과
- 텍스트 인코더 융합: CLIP-only 대비 T5+CoT 사용 시 FD가 39.84 → 37.65로 향상되고, CLIP과 T5를 결합하면 KLPaSST 1.52, KLPaNNs 1.32까지 추가 개선됩니다.
- 비디오-오디오 융합 방식: audio-only / linear addition / gated fusion 비교에서 게이트 융합이 모든 지표에서 가장 우수했습니다(FD 34.56, DeSync 0.46).
- CoT 구조의 중요성: 키워드만 사용한 "Tags Only"나 문장을 무작위로 섞은 "Randomized CoT"에서 모두 성능이 크게 떨어져, 단순한 키워드 등장이 아닌 단계적 논리 구조 자체가 성능 향상의 원인임을 입증합니다.
- CoT 간결성: 길이 제한 없이 장황하게 생성한 CoT는 일관되게 성능을 저하시켰습니다. ≤3문장 / ≤77 토큰의 제약이 핵심입니다.
- 모델 크기: Small(533M) → Medium(724M) → Large(1.3B)로 갈수록 모든 지표에서 성능이 향상되어, 충분한 모델 용량이 필요함을 확인하였습니다.
정성 분석
스펙트로그램 비교에서 ThinkSound는 자동차 문이 닫힘 → 열림 → 닫힘 순서로 발생하는 구조적 시퀀스를 정확하게 재현하고, 풀밭에서 새가 갑자기 날개를 퍼덕이며 짧게 우는 미세한 사건도 시간적으로 정확하게 합성합니다. 베이스라인은 첫 닫힘 사운드를 잘못된 시점에 열림으로 해석하거나 짧은 chirp을 누락/지연시키는 경향을 보였습니다.
ThinkSound 사용법
ThinkSound 결과 예시 (teaser)1446×935 329 KB
환경 설정:
git clone -b master https://github.com/liuhuadai/ThinkSound.git
cd ThinkSound
conda create -n thinksound python=3.10
conda activate thinksound
pip install thinksound
conda install -y -c conda-forge 'ffmpeg<7'
# 모델 가중치 다운로드
git lfs install
git clone https://huggingface.co/liuhuadai/ThinkSound ckpts
Windows 사용자는 setup_windows.bat를 실행하면 자동 설치됩니다.
단일 비디오 오디오 생성:
chmod +x scripts/demo.sh
./scripts/demo.sh <video_path> <title> <CoT_description> [use-half]
CoT_description에는 영상 내 사운드 이벤트에 대한 단계적 추론 설명을 입력합니다. use-half 옵션을 추가하면 FP16으로 추론해 메모리를 절약할 수 있습니다.
배치 추론:
./scripts/eval_batch.sh <video_path> <csv_path> <save_path> [use-half]
웹 인터페이스 실행:
python app.py
한계 및 향후 방향
논문은 다음과 같은 현재 한계와 향후 과제를 명시하고 있습니다.
- MLLM은 의미 정보 이해에는 강하지만, 정확한 시간/공간 정보(예: 사운드 이벤트의 정확한 타임스탬프 위치) 추론에서는 여전히 실패하는 경우가 있습니다.
- 현재 공개된 비디오-오디오 데이터셋은 다양성과 커버리지가 제한적이어서, 희귀하거나 문화 특화적인 사운드 이벤트는 잘 다루지 못할 수 있습니다.
- 향후 더 다양한 데이터셋과 더 효과적인 시간/공간 정렬 기법을 통해 성능을 개선할 계획입니다.
또한 논문은 합성 미디어 오용 가능성과 학습 데이터 편향으로 인한 사운드-인구통계 연관성 왜곡을 잠재적 부정적 영향으로 명시하고, 단계적 모델 공개와 사용 가이드라인 제공을 안전장치로 두고 있습니다.
라이선스
ThinkSound는 Apache 2.0 라이선스 로 공개되어 있어 연구 및 교육 목적으로 자유롭게 사용할 수 있습니다. 단, 상업적 사용 시에는 별도의 허가가 필요하며, VAE 구성 요소는 Stability AI의 상업적 사용 허가가 추가로 요구됩니다.
ThinkSound 데모
ThinkSound 프로젝트 홈페이지
ThinkSound 논문 (NeurIPS 2025)
ThinkSound 프로젝트 GitHub 저장소
ThinkSound 모델 다운로드
더 읽어보기
-
Step-Audio: 오디오 이해와 생성이 통합된, 다국어 대화 및 감정 표현이 가능한 음성 모델에 대한 연구
-
Step-Audio-R1: 오디오 분야에서의 추론 시 연산 시간 확장(Test-time Scaling) 기법 적용에 대한 연구 및 모델
-
Qwen3-TTS: 500만 시간의 학습 데이터, 12Hz 초저지연 토크나이저로 완성한 오픈소스 Omni-Audio 모델
-
Stable Audio Open, 샘플 오디오 및 사운드 디자인을 위한 Text-to-Audio 모델 (feat. Stability AI)
이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. ![]()
파이토치 한국 사용자 모임
이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일
로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)
아래
쪽에 좋아요
를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~ ![]()
