LTX-2: 영상과 음향을 함께 생성하는 차세대 오픈소스 멀티모달 AI 영상 생성 모델

LTX-2 소개

LTX-2는 Lightricks에서 공개한 차세대 오픈소스 멀티모달 AI 모델로, 오디오와 비디오를 동시에 생성할 수 있는 새로운 형태의 영상 생성 기술입니다. 이 모델은 기존 LTXV 0.9.8을 기반으로 크게 진화하여, 4K 해상도, 실시간 성능, 낮은 연산 비용, 그리고 세밀한 창의적 제어 기능을 제공합니다. 특히, 비디오 생성 중 오디오(대사, 음악, 환경음 등)를 동시에 합성할 수 있다는 점에서 다른 생성형 모델과 뚜렷이 구별됩니다.

LTX-2의 가장 큰 특징은 완전한 오픈소스화입니다. Lightricks에서는 다음 달인 2025년 11월 말, 모델 가중치(weights)와 코드, 벤치마크를 모두 공개할 예정이라고 밝혔으며, 연구자와 개발자가 자유롭게 커스터마이징하고 파인튜닝할 수 있게 됩니다. Lightricks는 이를 통해 AI 창작 생태계를 확장하고, 개발자와 크리에이터가 영상 생성의 한계를 뛰어넘을 수 있도록 돕는 것을 목표로 하고 있습니다.

영상 생성 기술이 발전함에 따라, 단순히 “이미지에서 비디오로”의 전환을 넘어, “텍스트에서 완전한 오디오-비디오 경험으로”의 진화가 이루어지고 있습니다. LTX-2는 이러한 변화의 중심에 있으며, 특히 개인 크리에이터나 소규모 팀이 고품질 영상을 빠르게 제작할 수 있도록 설계된 점이 돋보입니다.

다른 영상 생성 모델과의 비교

현재 영상 생성 분야에서 대표적인 모델로는 Pika Labs , Runway Gen-3 Alpha , Synthesia , Sora(OpenAI) 등이 있습니다. 이들 모델은 대부분 고해상도 영상을 생성하지만, 오디오와 비디오를 동시에 합성하는 기능은 제공하지 않거나, 별도의 후처리 과정이 필요합니다.

LTX-2는 이러한 한계를 극복하여, 단일 패스(single pass)에서 동기화된 오디오와 영상을 함께 생성할 수 있습니다. 또한, 소비자용 GPU에서도 구동 가능한 효율성다중 GPU 병렬 추론(multi-GPU inference) 구조를 통해, 동일한 성능 대비 약 50% 낮은 연산 비용을 달성합니다.

Runway나 Pika Labs가 주로 클라우드 기반 서비스로 제공되는 반면, LTX-2는 API 및 오픈소스 배포를 통해 누구나 직접 모델을 조정하고 통합할 수 있습니다. 이러한 접근은 개발자와 연구자에게 훨씬 넓은 실험 공간을 제공합니다.

Ovi 모델과의 비교

최근 공개한 영상과 음향을 함께 생성하는 Ovi 모델과 비교하면 다음과 같습니다. 다만, 아직 LTX-2와 관련한 논문 또는 아키텍처 등이 공개되지 않아 아래 내용은 Lightricks에서 공개한 블로그 글을 기준으로 정리하였습니다:

항목 LTX-2 특징 Ovi 특징 비교 및 해석
오디오+비디오 동시 생성 LTX-2는 오디오와 비디오를 하나의 프로세스에서 동시에 생성한다는 점을 강조하고 있습니다 (“Audio + Video, Together”). Ovi도 오디오와 비디오를 통합된 생성 과정으로 설계했으며, 모델 설계 자체에 cross-modal fusion을 포함하고 있습니다. 두 모델 모두 오디오+비디오 통합 생성이라는 동일한 방향성을 갖고 있습니다. 차이라면 아키텍처 설계나 구현 디테일, 공개 범위 등이 다를 수 있습니다.
해상도 및 영상 길이 LTX-2는 4K 해상도, 50fps, 최대 약 10초 길이까지 지원한다는 발표가 있습니다. Ovi 논문 쪽에서는 ‘영화급’ 클립 생성 가능하다는 언급이 있지만, 명시적인 4K/50fps 지원이나 길이 제약에 대한 상세 수치는 공개된 요약만으로는 확인하기 어렵습니다. LTX-2 쪽이 “4K, 50fps” 등 구체적 사양을 강조하고 있어, 현재로서는 LTX-2가 고해상도 동영상 생성 측면에서 우위가 있을 가능성이 있습니다.
연산 / 효율성 LTX-2는 “소비자용 GPU에서도 동작 가능”, “연산 비용 최대 50% 절감” 등의 효율성을 강조하고 있습니다. Ovi 쪽 논문 요약에서는 연산 효율이나 비용 측면에 대한 상세한 언급이 제한적입니다. 효율성 측면에서는 LTX-2 쪽이 명시적 수치를 제시하고 있어 현장 적용 가능성에서 강점이 보입니다. Ovi는 아키텍처 혁신 측면이 강조된 듯 합니다.
제어 기능 및 제작 워크플로우 LTX-2는 “멀티 키프레임 조건부 생성”, “3D 카메라 논리”, “LoRA 기반 파인튜닝” 등 세밀한 제작 제어 기능을 갖추고 있다는 특징이 있습니다. Ovi 논문에서는 주로 오디오/비디오 융합 구조에 집중되어 있으며, 키프레임 제어나 카메라 로직 등 제작 세부 제어 기능에 대한 언급은 상대적으로 적습니다. 제작자(크리에이터)·영상 팀에게 제어 가능성이 중요한 경우, LTX-2 쪽이 좀 더 실용적 제어 옵션을 갖췄다고 볼 수 있습니다.
공개 및 오픈소스 전략 LTX-2는 2025년 11월 말 모델 가중치와 코드를 오픈소스 공개할 예정이라는 발표가 있습니다. Ovi 논문에는 “모델 코드 및 가중치가 공개될 예정”이란 언급이 있지만, 공개 시점이나 라이선스 등이 LTX-2만큼 상세히 언급되지 않았습니다. 오픈소스 및 커뮤니티 참여 측면에서는 두 모델 모두 기조가 맞지만, LTX-2의 발표가 더 구체적입니다.

LTX-2의 주요 기능과 기술적 구조

  • 오디오 + 비디오 동시 생성: LTX-2의 가장 큰 특징은 오디오와 비디오를 동시에 생성하는 능력입니다. 이 모델은 텍스트, 이미지, 비디오, 오디오, 그리고 깊이 맵(depth map)과 같은 다양한 입력을 처리하며, 생성된 영상의 움직임, 대사, 배경음악, 환경음을 동기화하여 자연스러운 시청 경험을 제공합니다. 이 기능은 광고 영상, 단편 영화, 게임 시네마틱, 교육 콘텐츠 등 여러 분야에서 즉시 활용할 수 있습니다.

  • 4K 해상도와 렌더링 효율성: LTX-2는 기본적으로 16:9 비율의 QHD 및 4K 영상을 지원하며, 50fps의 부드러운 움직임을 제공합니다. 또한, 멀티 스케일 렌더링(Multi-scale rendering) 기능을 통해 저해상도 미리보기를 빠르게 생성한 후, 동일한 시퀀스를 고해상도로 확장할 수 있습니다. 이를 통해 영상 제작자는 작업 효율을 높이면서도 품질 저하 없이 결과물을 얻을 수 있습니다.

  • 세밀한 제어 기능: LTX-2는 멀티 키프레임 조건부 생성(Multi-keyframe conditioning)3D 카메라 로직을 지원하여 장면의 전환, 카메라 움직임, 스타일 일관성 등을 정밀하게 제어할 수 있습니다. 또한 LoRA(저랭크 어댑터) 기반 파인튜닝 기능을 통해 브랜드 스타일, 캐릭터 일관성, 색감 등을 세밀히 조정할 수 있습니다.

  • 아키텍처 및 추론 구조: LTX-2는 확산(diffusion)트랜스포머(transformer) 의 하이브리드 구조로 설계되어, 속도와 품질, 제어성을 동시에 달성합니다. 특히 멀티 GPU 추론 스택을 활용해 재생 속도보다 빠른 영상 생성을 지원하며, 비용 효율적인 연산 구조를 유지합니다.

  • 다양한 API 모드: LTX-2 API는 사용 목적에 따라 세 가지 모드를 제공합니다:

    • Fast 모드: 실시간 미리보기, 모바일 환경, 빠른 아이디어 스케치에 적합.
    • Pro 모드: 품질과 속도의 균형이 필요한 일반 제작 환경에 최적화.
    • Ultra 모드 (예정): 4K 해상도와 완전한 오디오 동기화를 제공하는 시네마급 품질의 출력.
  • 통합 및 생태계: LTX-2는 Fal, Replicate, RunDiffusion, ComfyUI와 같은 플랫폼과 직접 통합되며, 영상 편집 도구, 게임 엔진, VFX 파이프라인 등과도 연동됩니다. 또한, API Playground를 통해 개발자와 팀이 완전한 API 통합 전에 4K 영상 생성을 실험할 수 있습니다.

오픈소스 공개 및 생태계 전략

Lightricks는 LTX-2를 단순한 모델이 아니라 플랫폼으로 정의하고 있습니다. 2025년 11월 말, GitHub 저장소에 모델 가중치, 코드, 벤치마크를 공개하여, 연구자와 개발자가 직접 모델을 실험하고 발전시킬 수 있도록 할 예정입니다. 이러한 오픈소스 전략은 Lightricks의 ‘커뮤니티 중심’ 철학을 반영하며, LTX-2가 크리에이티브 AI 생태계의 중심으로 자리 잡을 수 있도록 설계되었습니다.

:house: LTX-2 공식 홈페이지

:framed_picture: LTX-2 API Playground (로그인 필요)

:scroll: Lightricks의 LTX-2 공개 블로그

https://ltx.video/blog/introducing-ltx-2

:github: LTX-2 프로젝트 GitHub 저장소

(LTX-2는 2025년 11월 말 공개 예정입니다.)




이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. :hugs:

:pytorch:파이토치 한국 사용자 모임:south_korea:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:wrapped_gift: 아래:down_right_arrow:쪽에 좋아요:+1:를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~ :star_struck:

2개의 좋아요