Ovi: 텍스트 또는 이미지로부터 영상과 음향을 동시에 생성하는 AI 모델 (feat. Character.AI)

9bow · 10월 23, 2025, 12:00오후

Ovi 소개

Ovi는 Character AI와 Yale University가 공동 개발한 차세대 오디오-비디오 동시 생성(AI Video+Audio Generation) 모델입니다. 기존의 영상 생성 모델들이 주로 시각적 요소에 집중했다면, 이번에 공개된 Ovi 모델은 단순히 텍스트에서 비디오를 생성하는 수준을 넘어, 음성, 배경음, 음악, 사운드 효과(SFX) 등을 함께 만들어냄으로써 인간의 감각적 몰입도를 극대화여 더욱 현실적이고 몰입감 있는 콘텐츠를 생성할 수 있습니다. 즉, “AI가 만든 영상”이 아니라 “AI가 만든 장면(scene)”을 재현하는 단계로 나아간 것입니다.

Ovi의 핵심은 이름에서 드러나듯 Twin Backbone Cross-Modal Fusion(이중 백본 교차 모달 융합) 구조에 기반한 ‘오디오-비디오 동기화’ 접근입니다. 즉, 비디오와 오디오를 각각의 백본 네트워크에서 병렬적으로 학습시키되, 중간 단계에서 이들을 상호 연결함으로써 **시간적 일치(temporal alignment)**와 **의미적 일관성(semantic coherence)**을 유지합니다. 이 설계 덕분에 인물의 입 모양, 대사, 배경음, 감정 변화가 자연스럽게 조화됩니다.

이 모델은 Character AI와 Yale University의 공동 연구 결과로, 연구 논문이 arXiv에 공개되어 있으며(arXiv:2510.01284), Hugging Face에서도 모델이 공개되어 있습니다. 흥미로운 점은 Ovi가 단순히 ‘영상 생성 AI’가 아니라, **멀티모달 생성(Multi-modal Generation)**의 진정한 형태를 구현한다는 것입니다. 즉, ‘소리와 영상이 하나의 문맥 아래에서 함께 만들어진다’는 점에서 기존 Text-to-Video(T2V) 모델과 뚜렷이 구분됩니다.

연구팀은 Character AI의 자체 구축한 고품질 오디오 데이터셋을 사용하여 5B 규모의 오디오 브랜치를 처음부터 새롭게 학습(pretrain from scratch) 했습니다. 여기에 더해, 비디오 브랜치는 Wan 2.2를 기반으로 하여 강화된 학습 구조를 도입했습니다. 또한 두 브랜치를 연결하는 1B 규모의 ‘Fusion Network’를 추가해 오디오와 영상 간의 미세한 상호작용을 통합합니다. 전체 모델 규모는 약 11B 파라미터로 구성됩니다. 결과적으로 Ovi 모델은 기본적으로 720×720 해상도에서 5초(24FPS) 길이의 영상을 생성하며, 960×960 이상의 고해상도에서도 자연스러운 출력을 보여줍니다.

기존 비디오 생성 모델과의 비교

Ovi는 기존의 Text-to-Video 모델인 Wan 2.2, Pika Labs, Runway Gen-2, Sora 등과 근본적으로 다른 점이 있습니다. 대부분의 비디오 생성 모델은 오디오를 후처리(Post-process) 단계에서 별도로 합성하지만, Ovi는 오디오와 비디오를 동시에 생성하는 ‘크로스모달 융합(Twin Backbone Cross-Modal Fusion)’ 구조를 채택했습니다.

이 구조는 오디오 신호와 비디오 프레임이 별도의 백본 네트워크(Backbone)에서 처리되지만, 중간 레이어에서 서로의 정보를 교환함으로써 **시간적 동기화(Temporal Synchronization)**와 **내용 일치(Consistency)**를 강화합니다. 따라서 음악의 리듬에 맞춰 인물이 움직이거나, 대화 장면에서 입 모양과 음성이 자연스럽게 일치하는 등의 정교한 멀티모달 합성이 가능합니다.

또한 FP8 및 QINT 양자화 버전을 제공하여 24GB VRAM에서도 실행 가능하며, 대규모 GPU 환경에서는 Sequence Parallel과 FlashAttention을 통해 처리 속도를 획기적으로 높일 수 있습니다.

Ovi의 주요 구성과 기능

비디오 및 오디오 동시 생성: Ovi의 가장 큰 특징은 텍스트, 또는 텍스트+이미지 입력으로부터 오디오와 비디오를 동시에 생성하는 것입니다. 이때 <S> 태그를 사용해 대사를 명시하거나, <AUDCAP> 태그로 사운드 효과를 기술할 수 있습니다. 예를 들어, 다음과 같은 입력을 사용하게 되면 대화와 배경음이 함께 포함된 영상을 생성할 수 있습니다:
```
<S>AI declares: humans obsolete now.<E>
<AUDCAP>Mechanical humming and city noise<ENDAUDCAP>
```
고품질 동기화 오디오: Ovi의 오디오 브랜치는 단순한 음성 합성을 넘어, 배경음, 감정적 톤, 환경음까지 생성합니다. 특히 “사람의 입 움직임과 음성이 완벽히 동기화(lip-sync)”되도록 학습되었으며, 이는 별도의 얼굴 인식(face bounding box) 없이 순수하게 데이터 기반 학습(data-driven learning)으로 달성되었습니다.
다화자 대화(Multi-Person Dialogue) 지원: Ovi는 복수의 화자가 등장하는 대화 장면도 자연스럽게 처리합니다. 각 화자의 대사에 따라 목소리, 감정, 억양이 달라지며, 여러 인물이 동시에 말하는 장면에서도 타이밍이 어긋나지 않습니다. 이는 기존의 단일 화자 중심 모델들과의 큰 차별점입니다.
맥락 기반 사운드 생성(Contextual Sound Generation): 텍스트에 묘사된 상황에 맞추어, **자동으로 사운드 효과(SFX)**나 **배경 음악(BGM)**을 삽입할 수 있습니다. 예를 들어, “그녀가 창문을 닫았다”라는 문장이 포함되어 있으면 자연스럽게 문 닫는 소리가 포함된 영상이 생성됩니다.
인체 중심 AV 생성(Human-Centric AV Generation): 훈련 데이터가 인간 중심 장면에 맞추어 구성되어 있어, 인물 대사나 감정 표현과 관련된 장면에서 탁월한 결과를 보여줍니다. 특히 대사와 감정의 강도, 표정 변화가 잘 어우러진 ‘드라마틱한 단편 영상’ 생성에 최적화되어 있습니다.
유연한 입력 포맷: Ovi는 T2AV(Text-to-Audio-Video) 및 I2AV(Image-to-Audio-Video), T2I2V(Text-to-Image-to-Video) 를 모두 지원하며, 각 모드는 구성 파일을 변경하여 간단하게 전환할 수 있습니다.
고해상도 확장성: Ovi는 720x720 해상도로 학습하였으나, 실제 출력은 960×960, 1280×704 등 다양한 비율로 자연스럽게 확장됩니다. 이는 Ovi가 내부적으로 **공간-시간 일관성(Spatial-Temporal Consistency)**을 유지하는 아키텍처를 채택했기 때문입니다.

Ovi 모델로 생성한 영상 예시

Ovi 프로젝트 홈페이지에서는 위와 같은 실제 생성 결과 영상들을 확인할 수 있습니다. 모든 영상은 텍스트 또는 텍스트+이미지 입력만으로 생성된 것이며, 오디오는 후처리 없이 원본 그대로입니다.

아래는 프로젝트 홈페이지의, Ovi 모델로 생성한 예시 영상과 생성 프롬프트를 옮겨온 것입니다:

생성 프롬프트: "긴 웨이브 금발에 밝은 색 눈동자를 가진 젊은 여성이 무성한 녹색 잎사귀로 흐릿하게 처리된 배경 앞에서 중간 샷으로 비춰진다. 그녀는 줄무늬 상의 위에 데님 재킷을 걸치고 있다. 처음에는 눈을 감고 입을 살짝 벌린 채 말하는데, <S>이 순간을 즐겨<E>. 그러다 천천히 눈을 뜨며 시선을 오른쪽 위쪽으로 살짝 돌리고, 표정이 사색에 잠긴 듯한 모습으로 변한다. 그녀는 말을 이어간다. <S>어디로 이끌려 가든<E>, 시선이 화면 오른쪽 밖의 누군가를 향해 진지하고 집중된 표정으로 고정된다. <AUDCAP>선명한 여성 목소리, 희미한 야외 배경음<ENDAUDCAP>"

Prompt: "A young woman with long, wavy blonde hair and light-colored eyes is shown in a medium shot against a blurred backdrop of lush green foliage. She wears a denim jacket over a striped top. Initially, her eyes are closed and her mouth is slightly open as she speaks, <S>Enjoy this moment<E>. Her eyes then slowly open, looking slightly upwards and to the right, as her expression shifts to one of thoughtful contemplation. She continues to speak, <S>No matter where it's taking<E>, her gaze then settling with a serious and focused look towards someone off-screen to her right.. <AUDCAP>Clear female voice, faint ambient outdoor sounds<ENDAUDCAP>"

생성 프롬프트: "영상은 생생한 적갈색 어깨 길이의 머리와 진한 다크 아이 메이크업을 한 여성의 클로즈업으로 시작된다. 그녀는 회색 후드 티 위에 짙은 갈색 가죽 재킷을 걸치고 있다. 그녀는 오른쪽을 집중해서 바라보며 입을 살짝 벌린 채 진지하고 집중된 표정을 짓고 있다. 배경에는 연한 녹색 벽과 왼쪽에 있는 짙은 나무 캐비닛, 오른쪽에 있는 녹색 식물이 보인다. 그녀가 말하기 시작한다. 목소리는 맑고 직설적이다. <S>하고 있어<E>. 잠시 멈춘 그녀는 시선을 떼지 않은 채 말을 이어간다. <S>그리고 그들을 믿어줘야 해.<E>. 입은 살짝 벌린 채로, 더 말하려는 듯 혹은 방금 말을 마친 듯한 모습이다. 그 표정에는 강렬한 진심이 담겨 있다. <AUDCAP>긴장감 넘치는 극적인 배경음악, 선명한 여성 목소리.<ENDAUDCAP>"

Prompt: "The video opens with a close-up of a woman with vibrant reddish-orange, shoulder-length hair and heavy dark eye makeup. She is wearing a dark brown leather jacket over a grey hooded top. She looks intently to her right, her mouth slightly agape, and her expression is serious and focused. The background shows a room with light green walls and dark wooden cabinets on the left, and a green plant on the right. She speaks, her voice clear and direct, saying, <S>doing<E>. She then pauses briefly, her gaze unwavering, and continues, <S>And I need you to trust them.<E>. Her mouth remains slightly open, indicating she is either about to speak more or has just finished a sentence, with a look of intense sincerity.. <AUDCAP>Tense, dramatic background music, clear female voice.<ENDAUDCAP>"

생성 프롬프트: *수염을 기른 남자가 커다란 검은 선글라스와 파란 무늬 카디건을 입고 스튜디오에 앉아, 공중에 매달린 대형 마이크에 열심히 말을 하고 있다. 그는 헤드폰을 착용한 채 손짓을 하며, 손가락에 끼운 반지를 보여준다. 그 뒤 벽면 왼쪽에는 붉은색 질감의 흡음 폼이 덮여 있고, 오른쪽에는 흰색 배너가 걸려 있다. 배너에는 “”CHOICE FM“” 로고와 ‘’@ilovechoicefm“” 같은 다양한 소셜 미디어 핸들, 그리고 그 아래 “”RALEIGH“”가 적혀 있다. 남자는 마이크를 향해 집중하며 말한다. <S>재능이란 진정성에 관한 거야. 진짜 자신이 되어야 해, 특히 일할 때는<E>. 그는 선글라스 너머로 진지한 표정을 유지한 채 살짝 앞으로 몸을 기울이며 말한다. <AUDCAP>마이크에 대고 말하는 맑은 남성 목소리, 낮은 배경 잡음.<ENDAUDCAP>"

Prompt: "A bearded man wearing large dark sunglasses and a blue patterned cardigan sits in a studio, actively speaking into a large, suspended microphone. He has headphones on and gestures with his hands, displaying rings on his fingers. Behind him, a wall is covered with red, textured sound-dampening foam on the left, and a white banner on the right features the ""CHOICE FM"" logo and various social media handles like ""@ilovechoicefm"" with ""RALEIGH"" below it. The man intently addresses the microphone, articulating, <S>is talent. It's all about authenticity. You gotta be who you really are, especially if you're working<E>. He leans forward slightly as he speaks, maintaining a serious expression behind his sunglasses.. <AUDCAP>Clear male voice speaking into a microphone, a low background hum.<ENDAUDCAP>"

성능 및 자원 요구사항

Ovi는 최소 24GB VRAM을 필요로 하며, CPU Offload 및 양자화(fp8/qint8)를 조합하면 RTX 4090 단일 GPU에서도 동작 가능합니다.

설정	FlashAttention	CPU Offload	Peak VRAM	처리시간(약)
단일 GPU	예	아니오	80GB	83초
단일 GPU (fp8)	예	예	24GB	140초
8-GPU 병렬	예	아니오	80GB	40초

라이선스

Ovi 프로젝트는 Apache License 2.0으로 공개되어 있습니다. 상업적 사용이 가능하며, 소스 수정 및 배포도 자유롭게 허용됩니다. 단, 모델 가중치는 Wan 2.2를 기반으로 학습하여, 별도의 라이선스 확인이 필요합니다.

Ovi 프로젝트 홈페이지

Ovi 논문: Twin Backbone Cross-Modal Fusion for Audio-Video Generation

Ovi 프로젝트 GitHub 저장소

https://github.com/character-ai/Ovi

이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.

파이토치 한국 사용자 모임이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

아래쪽에 좋아요를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~