Goku: 흐름 기반(Flow-Based) 영상 생성 기반 모델 (feat. ByteDance)

9bow · 2월 13, 2025, 3:30오전

Goku 연구 소개

최근 비디오 생성 기술은 콘텐츠 제작, 광고, 게임 개발 등 다양한 산업에서 중요한 역할을 하고 있으며, 이에 대한 연구가 활발히 진행되고 있습니다. 특히, 비디오 생성 기술은 콘텐츠 제작뿐만 아니라 광고, 게임, AI 시뮬레이션 등에서 혁신적인 도구로 자리 잡고 있습니다. 최근 몇 년간 GAN(Generative Adversarial Networks), Diffusion Models, Transformer-based Models 등의 발전과 함께, 비디오 생성의 품질과 효율성이 크게 향상되었습니다.

본 논문에서는 Goku라는 최첨단 이미지 및 비디오 생성 모델을 소개하며, Rectified Flow Transformer를 활용하여 기존의 생성 모델보다 높은 성능을 달성하였습니다. 데이터 수집 및 처리, 모델 아키텍처, 학습 방법론, 인프라 최적화 등의 요소를 개선함으로써 이미지와 비디오를 함께 생성하는 강력한 모델을 구축하는 데 성공하였습니다. Goku는 GenEval(0.76), DPG-Bench(83.65), VBench(84.85) 등의 주요 벤치마크에서 기존 모델들을 능가하는 성능을 보였습니다.

Goku는 단순한 텍스트-이미지 생성(T2I, Text-to-Image)이 아니라, 텍스트-비디오 생성(T2V, Text-to-Video)까지 통합하는 모델로 설계되었습니다. 이를 위해 기존의 생성 모델들이 가지는 문제점들을 해결하는 다양한 접근법이 적용되었습니다. 주요 초점은 데이터 품질 개선, 모델 구조 최적화, 효율적인 학습 방법론, 대규모 병렬 학습 인프라 구축에 있습니다.

Goku 모델의 영상 생성 예시

프롬프트: 세련된 여성이 따뜻하고 빛나는 네온과 애니메이션 같은 도시 간판이 가득한 도쿄의 거리를 걷고 있습니다. 그녀는 검은색 가죽 재킷, 긴 빨간 드레스, 검은색 부츠를 신고 검은색 지갑을 들고 있습니다. 그녀는 선글라스와 빨간 립스틱을 하고 있습니다. 그녀는 자신감 있게 그리고 자연스럽게 걷고 있습니다. 거리는 습하고 반사되어 화려한 불빛의 거울 효과를 만들어 냅니다. 많은 보행자들이 걸어 다닙니다.

Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

프롬프트: 눈 덮인 초원을 걷는 거대한 털북숭이 매머드 몇 마리가 다가옵니다. 걸을 때 긴 털이 살랑살랑 바람에 흩날리고, 멀리 눈 덮인 나무와 눈 덮인 산이 보입니다. 오후의 햇살이 구름 사이로 비치고, 멀리 태양이 높이 떠서 따뜻한 빛을 발합니다. 낮은 카메라 앵글이 아름다운 사진과 피사계 심도로 털북숭이 매머드를 멋지게 담아냅니다.

Prompt: Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance creates a warm glow, the low camera view is stunning capturing the large furry mammal with beautiful photography, depth of field.

프롬프트: 화려하게 표현된 종이 공예 세계의 산호초, 형형색색의 물고기와 바다 생물들로 가득합니다.

Prompt: A gorgeously rendered papercraft world of a coral reef, rife with colorful fish and sea creatures.

프롬프트: 60대 중반의 수염을 기른 백발의 남자가 파리의 한 카페에 앉아 우주의 역사를 깊이 생각하며 앉아 있다. 그는 주로 가만히 앉아 있고, 화면 밖에서 걷는 사람들을 응시한다. 그는 버튼다운 셔츠와 울 코트 수트 코트를 입고, 갈색 베레모와 안경을 쓰고 있으며, 매우 교수다운 외모를 하고 있다. 그리고 마지막에 그는 삶의 수수께끼에 대한 답을 찾은 듯 미묘하게 닫힌 입으로 미소를 짓습니다. 배경에 황금빛 빛과 파리의 거리와 도시가 있는 조명은 매우 영화적이며, 피사계 심도는 35mm 영화의 깊이입니다.

Prompt: An extreme close-up of an gray-haired man with a beard in his 60s, he is deep in thought pondering the history of the universe as he sits at a cafe in Paris, his eyes focus on people offscreen as they walk as he sits mostly motionless, he is dressed in a wool coat suit coat with a button-down shirt , he wears a brown beret and glasses and has a very professorial appearance, and the end he offers a subtle closed-mouth smile as if he found the answer to the mystery of life, the lighting is very cinematic with the golden light and the Parisian streets and city in the background, depth of field, cinematic 35mm film.

프롬프트: 해질녘 해변에서 웃고 노는 친구들을 쫓아가는 핸드헬드 샷.

Prompt: A handheld shot chasing after a group of friends laughing and playing on the beach at sunset.

Goku 모델 개요 및 구조

이미지-비디오 통합 VAE (Variational Autoencoder)

기존의 비디오 생성 모델들은 주로 2D 이미지 생성을 기반으로 하여 비디오를 확장하는 방식을 사용하였습니다. 그러나 이러한 접근 방식은 이미지 생성과 비디오 생성 간의 구조적 차이로 인해 일관성 있는 비디오 생성이 어려운 한계를 가집니다. 이를 해결하기 위해 Goku는 **3D Joint Image-Video Variational Autoencoder (VAE)**를 적용하여 이미지와 비디오 데이터를 통합된 잠재 공간(latent space)으로 압축합니다.

Goku의 이미지-비디오 VAE는 비디오 데이터를 8×8×4의 압축 비율로 인코딩하며, 이미지의 경우 8×8의 압축 비율을 적용합니다. 이러한 방식은 비디오의 시간적 정보(temporal information)까지 효율적으로 압축할 수 있도록 설계되어 있으며, 기존 2D VAE 기반의 비디오 생성 모델보다 훨씬 더 자연스러운 움직임을 생성할 수 있도록 합니다.

또한, VAE의 구조는 3D 컨볼루션(3D CNN) 기반의 인코더(Encoder)와 디코더(Decoder)로 이루어져 있으며, 이를 통해 프레임 간의 연속성을 유지하면서도 고해상도의 비디오를 생성할 수 있습니다. 특히, 이 모델은 Transformer와 함께 사용될 수 있도록 최적화되어 있으며, 이후 설명할 Goku Transformer 아키텍처와 결합되어 더욱 강력한 비디오 생성 능력을 발휘합니다.

Transformer 기반 아키텍처 설계

Goku의 핵심 구조는 Transformer 모델을 기반으로 합니다. GenTron 아키텍처를 확장하여, 이미지와 비디오 데이터를 통합적으로 학습하는 Transformer 블록을 설계하였습니다. Goku가 개선한 Transformer의 주요 요소들은 다음과 같습니다:

Full Attention Mechanism: 기존의 텍스트-비디오 생성 모델들은 시간적 Attention과 공간적 Attention을 별도로 계산하여 효율성을 높이는 전략을 사용하였습니다. 하지만 이는 긴 시간축을 고려한 경우 비디오 내 프레임 간의 일관성을 떨어뜨리는 문제가 발생합니다.
이를 해결하기 위해 Goku는 Full Attention Mechanism을 도입하여, 비디오 내 모든 프레임이 동시에 서로의 관계를 학습할 수 있도록 합니다.
Full Attention은 Transformer의 Self-Attention을 비디오의 시간축까지 확장한 형태로, 각 프레임을 독립적으로 처리하는 것이 아니라 전체 시퀀스를 하나의 연속적인 데이터로 인식하여 더 자연스럽고 일관된 비디오를 생성합니다.
Patch n’ Pack 기법: 비디오 및 이미지 데이터를 학습할 때, 데이터의 해상도 및 길이(프레임 수) 가 서로 다를 수 있습니다. 이를 해결하기 위해 Goku는 NaViT (Nested Vision Transformer)에서 영감을 얻은 Patch n' Pack 기법을 사용합니다.
이 기법은 비디오와 이미지를 동일한 시퀀스 데이터로 변환하여 하나의 미니배치에서 동시에 학습할 수 있도록 합니다.
즉, 다양한 크기의 이미지 및 비디오 데이터를 별도로 그룹핑할 필요 없이, 하나의 통합된 데이터셋으로 학습할 수 있게 하는 최적화된 방법입니다.
3D RoPE (Rotary Position Embedding): Transformer 기반 모델에서 위치 정보를 인코딩하는 방법은 성능에 큰 영향을 미칩니다. 기존의 2D RoPE(Position Embedding) 기법은 이미지 데이터에서 우수한 성능을 보였지만, 비디오에서는 시간축(temporal dimension)까지 고려할 필요가 있습니다.
Goku는 3D RoPE 기법을 도입하여 시간축까지 포함된 위치 정보를 반영함으로써, 더 다양한 해상도와 프레임 속도(framerate)를 처리할 수 있도록 최적화하였습니다.
Q-K Normalization: Transformer 기반 대형 모델에서는 학습 과정 중 손실(loss)이 급격히 변하는 경우가 많습니다. 특히, 비디오 생성 모델은 이미지 생성보다 훨씬 더 복잡한 데이터를 학습해야 하기 때문에, 모델이 제대로 학습되지 않는 현상이 발생할 수 있습니다.
이를 방지하기 위해 Goku는 Q-K Normalization (Query-Key Normalization) 기법을 도입하여, Self-Attention 과정에서 입력 벡터들의 크기를 정규화하여 안정적인 학습을 유도합니다.

Rectified Flow 기반 학습

Goku 모델은 기존의 Denoising Diffusion Probabilistic Models (DDPM) 또는 Score-Based Generative Models과 같은 확률적 방법론이 아닌, Rectified Flow (RF)를 기반으로 학습됩니다. RF는 데이터 분포에서 샘플을 생성하는 과정을 보다 직관적으로 모델링하는 방식으로, Diffusion Model이 여러 단계를 거쳐 노이즈를 제거하는 방식과 달리, 데이터와 노이즈 간의 선형 경로를 직접 학습하는 점진적인 변화 방식을 사용합니다.

기존의 Diffusion 모델에서는 데이터를 생성하는 과정이 수십에서 수백 개의 노이즈 제거 단계를 거쳐야 하지만, Rectified Flow에서는 이러한 단계를 줄이고 더욱 효율적으로 데이터 분포를 모델링할 수 있습니다. 이는 학습 과정에서 필요한 계산량을 획기적으로 줄이고, 더 빠르게 수렴할 수 있도록 돕는 역할을 합니다.

Rectified Flow의 학습 과정은 다음과 같이 정리할 수 있습니다:

노이즈 샘플 x_0 을 표준 정규 분포에서 샘플링: 일반적으로 x_0 \sim N(0, I) 에서 시작합니다.
실제 데이터 x_1 과 보간: 시간 단계 t 에 대해, x_t 는 다음과 같이 정의됩니다. 여기서 t 는 0에서 1까지 변하는 보간(interpolation) 계수입니다:

x_t = t \cdot x_1 + (1-t) \cdot x_0

모델이 데이터 변화율을 예측하도록 학습: 네트워크는 x_t 에서 x_1 으로 이동하는 속도를 학습하는 역할을 수행합니다.
추론(Inference) 시, 단일 통합 경로를 통해 샘플을 생성: 일반적인 Diffusion 모델이 여러 번의 스텝을 반복해야 하는 것과 달리, RF는 더 적은 연산으로 고품질 샘플을 생성할 수 있습니다.

결과적으로, Goku는 기존 Diffusion 모델 대비 최대 2배 이상 빠른 학습 속도를 기록했으며, 더 적은 스텝으로도 동일하거나 더 나은 품질의 비디오 및 이미지 생성이 가능했습니다. 이러한 개선을 통해 Goku는 기존 AI 기반 비디오 생성 모델들이 가지던 속도 및 비용 문제를 해결하고 더 실용적인 활용이 가능한 모델입니다.

또한, Goku는 단순한 단일 단계 학습 방식이 아니라, 여러 단계를 거치는 Multi-Stage Training 전략을 사용하여 성능을 최적화하였습니다. 이러한 학습 방식은 모델이 먼저 기본적인 이미지 및 텍스트 관계를 학습한 후, 점진적으로 비디오 생성 능력을 습득하는 방식을 따릅니다.

Goku의 학습 과정은 크게 세 가지 주요 스테이지(Stage)로 구성됩니다:

텍스트-이미지 관계 학습: 이 단계에서는 Goku 모델이 텍스트와 이미지 간의 관계를 먼저 학습합니다. 텍스트-이미지 생성 능력을 먼저 익히는 것이 중요한 이유는, 비디오 생성의 기초가 되는 개념적 표현이 이미지에서 시작되기 때문입니다. 이 과정을 거치면, Goku는 텍스트가 표현하는 시각적 정보를 정확하게 이미지로 변환할 수 있는 능력을 갖추게 됩니다.
이미지-비디오 통합 학습: 이후, Goku는 이미지와 비디오를 동시에 학습합니다. 이 과정에서 사용된 핵심 기술은 Patch n' Pack 기법이며, 이는 다양한 해상도와 길이를 가진 이미지-비디오 데이터를 통합하여 효과적으로 학습하는 방법입니다. 이 단계에서는 비디오 데이터를 추가하여 모델이 시간적인 요소를 이해하고, 정적인 이미지에서 동적인 시퀀스로 발전하는 과정을 학습하게 됩니다.
이미지 및 비디오 개별 최적화 (Fine-Tuning): 마지막 단계에서는 모델이 텍스트-이미지, 텍스트-비디오 간의 미세한 차이를 구별하고, 각각의 생성 능력을 최적화하는 과정을 수행합니다. 이미지 생성 최적화 단계는 더 정교한 디테일과 색감을 보완하는 과정이고, 비디오 생성 최적화 단계는 움직임의 자연스러움, 프레임 간의 일관성 개선합니다.

이러한 세 단계의 학습을 거치면서 Goku는 이미지 생성에서 시작하여, 최종적으로 완벽한 비디오 생성까지 수행할 수 있는 모델로 완성됩니다.

이미지-비디오 변환 (Image-to-Video Generation)

Goku는 단순히 텍스트에서 비디오를 생성하는 것뿐만 아니라, 이미지에서 비디오를 생성하는 Image-to-Video 기능도 제공합니다. 이를 위해, 모델은 참조 이미지(Reference Image)를 활용하여 특정 스타일이나 구도를 유지하면서도 비디오로 확장할 수 있도록 학습되었습니다.

이 기능은 특히 애니메이션 제작, 광고 영상 제작, 게임 시네마틱 장면 생성 등에 활용 가능하며, 기존 AI 비디오 생성 모델보다 더욱 일관된 프레임을 생성할 수 있도록 최적화되었습니다.

인프라 최적화 (Infrastructure Optimization)

Goku는 단순한 모델 개선뿐만 아니라, 대규모 AI 모델을 효율적으로 학습시키기 위해 다양한 최적화 기법을 적용하였습니다. 특히, 대량의 이미지 및 비디오 데이터를 처리할 수 있도록 병렬 연산 및 메모리 효율화를 극대화하는 인프라를 구축하였으며, GPU 클러스터에서 발생할 수 있는 오류를 자동으로 감지하고 복구하는 기술도 도입되었습니다.

대규모 모델 병렬화 기법 (Model Parallelism Strategies)

Goku 모델의 학습 과정에서 가장 큰 문제는 방대한 모델 크기와 220K 토큰 이상의 긴 시퀀스 길이로 인해 단일 GPU 메모리로는 처리할 수 없다는 점입니다. 이를 해결하기 위해, **3D 병렬화 전략(Sequence Parallelism, Data Parallelism, Model Parallelism)**과 FSDP(Fully Sharded Data Parallelism)을 적용하였습니다.

시퀀스 병렬화(Sequence Parallelism)는 긴 시퀀스 데이터를 여러 GPU에 나누어 처리하도록 설계되었으며, 이를 통해 불필요한 메모리 사용을 줄이고 연산 효율성을 극대화할 수 있었습니다. 또한, Fully Sharded Data Parallelism(FSDP)을 도입하여 모델 파라미터, 그래디언트, 옵티마이저 상태를 여러 GPU에 분산 저장함으로써 기존 데이터 병렬화 방식보다 30% 이상의 메모리 절감 효과를 거두었습니다. 특히, HYBRID_SHARD 전략을 적용하여 일부 파라미터를 공유하는 방식으로 통신 비용을 최소화하였으며, 이를 통해 대형 모델도 보다 효율적으로 학습할 수 있도록 최적화하였습니다.

메모리 최적화 측면(Memory Optimization) 에서는 Activation Checkpointing 기법이 활용되었습니다. 일반적으로, 순전파(Forward Pass) 단계에서 모든 활성화 값(Activation)을 저장한 후, 역전파(Backward Pass) 단계에서 이를 재사용하는 방식으로 학습이 진행됩니다. 그러나 이 방식은 대규모 모델에서는 GPU 메모리 사용량을 과도하게 증가시키는 원인이 되기 때문에, Goku 모델은 활성화 값 중 일부만 저장하고 나머지는 필요할 때 다시 계산하는 Activation Checkpointing을 적용하였습니다. 이를 통해 Goku 모델 학습 시 GPU 메모리 사용량을 40% 이상 절감하는 데 성공하였습니다. 또한, 동일한 GPU 자원에서 더 큰 배치 크기로 학습을 진행할 수 있게 되었으며, 모델 학습 속도 또한 향상되었습니다.

체크포인트 저장과 복원(Activation Checkpointing) 도 중요한 최적화 대상입니다. Goku 모델은 ByteCheckpoint 기법을 활용하여 기존 대비 4배 빠른 체크포인트 저장 속도와 3배 빠른 모델 복원 속도를 구현하였습니다. 이는 대규모 GPU 클러스터에서 학습을 수행하는 환경에서 필수적인 기능으로, 시스템 장애나 중단 발생 시에도 빠르게 체크포인트를 불러와 학습을 지속할 수 있도록 설계되었습니다. 특히, Goku 모델은 수천 개의 GPU를 사용하는 환경에서도 4초 이내에 체크포인트 저장이 완료될 수 있도록 최적화되어, 안정적인 학습을 보장하였습니다.

마지막으로, 대규모 GPU 클러스터에서 발생할 수 있는 장애를 감지하고 자동으로 복구하는 Fault Tolerance(장애 복구 시스템) 을 구축하였습니다. MegaScale 기반의 자가 진단(Self-Diagnosis) 시스템을 통해 GPU 장애를 실시간으로 감지하고, 문제가 발생하면 자동으로 롤백(Auto-Rollback)하여 가장 최근의 체크포인트에서 재시작할 수 있도록 하였습니다. 또한, 부하 균형(Load Balancing) 기능을 도입하여 특정 GPU에 과부하가 걸릴 경우, 자동으로 다른 GPU로 작업을 분산시켜 학습이 지속될 수 있도록 최적화하였습니다. 이러한 기술적 개선을 통해 Goku 모델은 대규모 학습 환경에서도 높은 안정성과 효율성을 유지하며 학습을 진행할 수 있도록 설계되었습니다.

데이터 정제 파이프라인 (Data Curation Pipeline)

Goku 모델의 성능을 극대화하기 위해서는 고품질의 이미지 및 비디오 데이터셋을 확보하는 것이 필수적입니다. 이를 위해, Goku는 텍스트-이미지 160M 개, 텍스트-비디오 36M 개의 데이터셋을 구축하였으며, 구축한 데이터셋을 생성 모델 학습에 최적화하기 위해 정교한 데이터 처리 및 정제(Data Filtering) 기술을 적용하였습니다. 이 과정은 크게 데이터 수집(Collection), 전처리(Preprocessing), 필터링(Filtering), 캡션 생성(Captioning), 데이터 균형 조정(Data Balancing)으로 구성됩니다:

먼저, 데이터 수집 단계에서는 다양한 오픈소스 및 내부 데이터셋을 결합하여 방대한 이미지 및 비디오 데이터를 확보하였습니다. 이러한 데이터는 원본 상태에서 다양한 문제가 포함될 가능성이 크기 때문에, 적절한 정제 과정을 거쳐야 합니다. 전처리 단계에서는 영상의 인코딩 형식, 해상도, 프레임 속도(FPS) 등을 표준화하고, 품질이 낮거나 학습에 적절하지 않은 데이터를 제거하는 필터링 작업이 수행되었습니다.

필터링 단계에서는 여러 가지 평가 지표를 활용하여 데이터 품질을 선별하였습니다. 첫 번째로, Aesthetic Score(미적 점수) 필터링을 적용하여, 시각적으로 품질이 낮은 이미지 및 비디오를 제거하였습니다. 또한, OCR 필터링을 사용하여 과도한 텍스트가 포함된 데이터를 걸러내었으며, Motion Score(움직임 점수) 필터링을 활용하여 지나치게 정적인 영상이나, 반대로 너무 빠른 움직임이 포함된 영상도 제거하였습니다. 특히, DINOv2 기반의 이미지 유사도 분석을 적용하여 중복된 데이터나 품질이 낮은 데이터를 자동으로 탐지 및 제거함으로써 더욱 정교한 데이터 정제 작업이 가능하였습니다.

이후, 캡션 생성(Captioning) 단계에서는 고품질의 텍스트-이미지 및 텍스트-비디오 매칭을 확보하기 위해, 다양한 언어 모델(LLM, Large Language Model)을 활용하여 캡션을 자동 생성하고 보정하는 작업을 수행하였습니다. 특히, InternVL 2.0을 활용하여 각 이미지 및 비디오 샘플에 대한 상세한 캡션을 자동 생성하였으며, Tarsier2 모델을 추가적으로 사용하여 영상 내 카메라 움직임, 주요 객체 및 배경 요소를 포함한 캡션을 생성하였습니다. 이를 통해, 단순한 이미지 설명을 넘어 더 정밀하고 의미 있는 캡션의 확보가 가능합니다. 또한, 캡션의 품질을 보정하기 위해 Qwen2 모델을 활용하여 문장의 정확도와 유창성을 향상시켰습니다.

마지막으로, 데이터 균형 조정(Data Balancing) 단계에서는 데이터셋 내에서 특정 유형의 샘플이 과대 혹은 과소 대표되는 문제를 해결하기 위해, 내부 비디오 분류 모델을 활용하여 데이터의 의미적 분포를 분석하였습니다. 예를 들어, 인간(Human), 동물(Animals), 풍경(Scenery), 도시(Urban) 등의 주요 카테고리별로 데이터를 분류하고, 각 카테고리 내에서도 서브 카테고리(예: Selfie, Landscape, Night Scene 등)별로 균형을 맞추는 작업을 수행하였습니다. 특히, 사람을 포함한 데이터는 학습이 더욱 어려운 특성이 있기 때문에, 이를 보완하기 위해 데이터 증강 기법을 활용하여 인간 관련 데이터 샘플을 보강하는 작업도 수행되었습니다.

이러한 종합적인 데이터 정제 파이프라인을 통해, Goku는 고품질의 이미지 및 비디오 데이터셋을 학습하여 더욱 정확하고 자연스러운 텍스트-비디오 및 텍스트-이미지 생성이 가능해졌습니다. 결과적으로, 기존 모델 대비 더 나은 텍스트-비주얼 정합성(Text-Visual Alignment)과 일관된 객체 표현(Object Consistency)을 유지하면서도, 더욱 다양한 스타일과 표현력을 갖춘 생성 결과를 도출할 수 있게 되었습니다.

실험 (Experiments)

Goku 모델은 텍스트-이미지(Text-to-Image) 및 텍스트-비디오(Text-to-Video) 생성 성능을 평가하기 위해 다양한 벤치마크에서 테스트되었습니다. 실험 결과를 통해 Goku 모델이 기존의 최고 성능을 자랑하는 생성 모델들과 비교했을 때, 이미지 품질, 텍스트-비주얼 정합성(Text-Visual Alignment), 비디오 모션 일관성(Motion Consistency) 등에서 뛰어난 성능을 보였다는 점이 확인되었습니다. 특히, 대규모 데이터셋을 활용한 학습과 최적화된 인프라 덕분에, Goku 모델은 더 빠르고 효율적인 연산을 수행하면서도 고품질의 이미지 및 비디오를 생성할 수 있었습니다.

먼저, 이미지 생성을 위한 Goku-T2I 모델은 GenEval과 T2I-CompBench에서 최고 수준의 성능을 기록했으며, 특히 DALL-E 3보다 우수한 결과를 보였습니다. 또한, 긴 문장을 입력했을 때 더욱 높은 정합도를 유지하며, 복잡한 프롬프트에서도 정확한 이미지 생성을 수행할 수 있다는 점이 확인되었습니다.

또한, 영상을 생성하는 Goku-T2V 모델은 FVD(Frechet Video Distance)와 IS(Inception Score) 측정 기준을 활용하여 평가되었으며, 기존 모델들보다 뛰어난 성능을 기록하였습니다. 특히, 모든 해상도에서 기존 모델 대비 가장 낮은 FVD 점수를 기록하여 최고 수준의 비디오 품질을 보였습니다. 이는 생성된 비디오가 더욱 자연스러운 모션을 보이며, 장면의 일관성이 뛰어남을 의미합니다.

VBench는 AI 비디오 생성 모델을 평가하는 가장 종합적인 벤치마크 중 하나로, 비디오 품질을 16가지 평가 기준에 따라 정량적으로 측정합니다. Goku-T2V는 VBench에서 84.85점으로 최고 성능을 기록했으며, 비디오 내 객체 표현과 동작 표현이 가장 자연스럽고 정교한 것으로 평가되었습니다. 이는 기존 모델들보다 훨씬 더 사실적인 동작을 생성할 수 있음을 의미합니다.

그 외, 참조 이미지(Reference Image)를 기반으로 특정 스타일이나 구도를 유지하면서 영상을 생성하는 I2V(Image-to-Video) 기능에 있어서도 Goku-I2V는 정확한 프레임 일관성을 유지하면서도 자연스러운 비디오 모션을 생성하였으며, 기존 모델보다 더 부드럽고 끊김 없는 영상 생성이 가능하였습니다.

결론

지금까지 살펴본 연구에서는 Goku 모델을 소개하며, 이미지 및 비디오 생성을 통합적으로 수행할 수 있는 새로운 AI 생성 모델을 제안하였습니다. Goku는 산업 수준(Industry-Standard)의 성능을 갖춘 모델로서, 정교한 데이터 정제(Data Curation) 및 강력한 모델 아키텍처를 기반으로 고품질의 이미지 및 비디오 출력을 제공합니다. 특히, 텍스트-이미지 및 텍스트-비디오 생성 모델을 단일 아키텍처에서 통합적으로 다룰 수 있도록 설계되었으며, 이를 통해 다양한 비주얼 생성 작업을 효과적으로 수행할 수 있습니다.

Goku 프로젝트 홈페이지

Goku 논문: `Goku: Flow Based Video Generative Foundation Models`

Goku GitHub 저장소

이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.

파이토치 한국 사용자 모임이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

아래쪽에 좋아요를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~