Sana, 0.6B/1.6B 규모의 빠르고 효율적인 고해상도 이미지 생성 모델 (feat. NVIDIA)

Sana 소개

Sana는 텍스트에서 최대 4096x4096 해상도의 이미지를 빠르고 효율적으로 생성할 수 있는 Text-to-Image 생성 모델입니다. 이 모델은 FUSE와 같은 기존 모델보다 100배 빠른 속도로 이미지를 생성할 수 있으며, 적은 자원으로 고품질 이미지를 만들 수 있습니다. 또한, 16GB 메모리의 GPU를 탑재한 랩탑에서도 원활하게 작동하기 때문에 일반 사용자와 콘텐츠 크리에이터에게도 매우 유용한 도구입니다.

기존 이미지 생성 AI 모델들이 파라미터 수를 늘려 성능을 높이는 데 집중했다면, Sana는 효율성에 중점을 두어 0.6B 파라미터 규모의 모델로도 뛰어난 성능을 자랑합니다. 특히, 1초 미만의 속도로 1024x1024 해상도의 이미지를 생성할 수 있어, 실시간 콘텐츠 제작에 유용합니다.

Sana의 주요 구성 요소

Sana의 핵심적인 기술 요소들을 살펴보면 다음과 같습니다:

먼저 32배까지 압축하는 오토인코더(DC-AE, Deep Compression AutoEncoder), 선형 디퓨전 트랜스포머(Linear DiT, Linear Diffusion Transformer), Gemma 기반 텍스트 인코더, 그리고 Flow-DPM-Solver를 활용한 효율적인 학습/추론 전략 등이 있습니다. 다음과 같이 각 요소들을 활용하여 고해상도 이미지를 빠르고 효율적으로 생성할 수 있습니다:

Sana의 주요 기술 요소: SANA-F32C32, DC-AE(Deep Compression AutoEncoder)

  • 깊은 압축 오토인코더(Deep Compression Autoencoder): Sana의 오토인코더는 기존 8배 압축에서 32배로 압축하여 고해상도 이미지의 처리 속도와 메모리 사용 효율을 대폭 향상시켰습니다. SANA-F32C32라는 DCAE(Deep Compression Autoencoder) 설계를 통해 이미지의 잠재 토큰 수를 크게 줄여, 4K 해상도 이미지 생성을 가능하게 합니다.

Sana의 주요 기술 요소: DiT 및 Small LLM(Gemma)를 활용한 Sana의 전반적인 모델 구성

  • 선형 디퓨전 트랜스포머(Linear Diffusion Transformer, DiT): 기존의 O(N^2) 복잡도를 가지는 기본적인 어텐션(Vanilla Attention) 메커니즘을 O(N) 복잡도를 가진 선형 어텐션 메커니즘으로 대체하여, 고해상도 이미지 생성을 효율적으로 처리할 수 있게 했습니다. 이와 함께 3x3 깊이별 합성곱을 추가하여 지역 정보를 효과적으로 처리하며, 포지셔널 인코딩을 사용하지 않고도 고품질 이미지를 생성할 수 있습니다.

  • 디코더 전용 소형 대형 언어 모델(LLM) 텍스트 인코더: Sana는 텍스트 인코딩에 기존 CLIP 또는 T5 대신 소형 디코더 전용 LLM인 Gemma를 사용하여 텍스트 이해 능력을 크게 향상시켰습니다. 특히 문맥 내 학습(In-Context Learning, ICL)을 통해 복잡한 텍스트 지시어를 더 잘 처리하고, 텍스트와 이미지 간의 정렬을 높이는 데 도움을 줍니다.

Sana의 주요 기술 요소: 효율적인 학습 및 추론 전략

  • 효율적인 학습 및 추론 전략: Sana는 다양한 학습과 추론 전략을 통해 효율성을 극대화합니다. 여러 비전-언어 모델을 사용해 생성된 캡션을 평가하고, CLIP-Score 기반 샘플링을 통해 고품질 텍스트-이미지 정렬을 가속화합니다. 또한 Flow-DPM-Solver를 통해 샘플링 단계를 절반 이하로 줄이며, 더 나은 성능을 제공합니다. 그 결과 기존 샘플링 단계를 28-50단계에서 14-20단계로 줄여 더 빠르고 효율적인 이미지 생성을 가능하게 합니다.

성능 및 다른 모델과의 비교

Sana는 같은 고해상도 이미지 생성 모델 중에서도 특히 FLUX와 비교해 성능과 효율성 면에서 뛰어납니다. FLUX는 12B 파라미터를 사용하는 반면, Sana는 0.6B 파라미터로도 비슷한 성능을 내며, 이미지 생성 속도는 최대 100배까지 빠르게 이미지를 생성할 수 있습니다. 이를 통해 사용자는 텍스트 프롬프트를 입력하여 원하는 이미지 스타일을 생성할 수 있으며, 16GB 랩탑 GPU에서도 쉽게 실행 가능합니다. 또한, 해상도 측면에서는 Sana가 4K 이미지 생성에서도 매우 효율적입니다.

:house: Sana 프로젝트 홈페이지

https://nvlabs.github.io/Sana/

:scroll: Sana 논문

:framed_picture: Sana-1.6B 모델을 사용한 온라인 이미지 생성 데모

Sana-1.6B 모델을 사용한 온라인 이미지 생성 데모
https://sana-gen.mit.edu/

:github: Sana 모델 코드

(준비 중, 향후 공개 예정)




이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. :hugs:

:pytorch:파이토치 한국 사용자 모임:kr:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:gift: 아래:arrow_lower_right:쪽에 좋아요:+1:를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~ :star_struck:

2개의 좋아요