Imagen 3: Google DeepMind가 공개한 최신 Text-to-Image 생성 모델

9bow · 8월 17, 2024, 9:28오전

Imagen 3 소개

Imagen 3는 DeepMind의 최신 텍스트-이미지 변환 모델로, 이전 모델보다 더 세밀하고, 풍부한 조명과 적은 잡음을 가진 이미지를 생성할 수 있습니다. 이 모델은 다양한 시각적 스타일을 생성하고 긴 프롬프트에서도 작은 세부 사항을 잘 포착할 수 있도록 프롬프트 이해 능력이 크게 향상되었습니다.

Imagen 3는 이전 모델에 비해 디테일과 조명, 그리고 시각적 잡음 부분에서 크게 개선되었습니다. 다양한 작업에 최적화된 여러 버전이 제공되며, 빠른 스케치 생성부터 고해상도 이미지 생성까지 다양한 작업에 사용될 수 있습니다. 이 모델은 ImageFX와 Vertex AI에서 사용할 수 있습니다.

Imagen 3의 주요 특징

다양한 스타일과 프롬프트 이해력 향상

Imagen 3는 다양한 형식과 스타일의 고품질 이미지를 생성할 수 있습니다. 여기에는 사실적인 풍경, 질감이 풍부한 유화, 그리고 유쾌한 클레이메이션 장면 등이 포함됩니다. 이 모델은 자연스럽고 일상적인 언어로 작성된 프롬프트도 잘 이해하여 복잡한 프롬프트 엔지니어링 없이 원하는 출력을 얻을 수 있습니다. 또한, 카메라 각도나 구도를 포함한 복잡한 프롬프트에서 세부 사항을 잘 포착할 수 있도록 이미지에 대한 설명을 더욱 풍부하게 작성하여 학습시켰습니다.

고품질 이미지 생성

Imagen 3는 조명과 구도가 뛰어난 시각적으로 풍부한 고품질 이미지를 생성할 수 있습니다. 작은 주름이나 복잡한 질감과 같은 세부 사항도 정확하게 렌더링할 수 있습니다.

텍스트 렌더링 개선

텍스트 렌더링 기능도 크게 개선되어, 스타일화된 생일 카드, 프레젠테이션 등의 새로운 사용 사례에 활용될 수 있습니다.

안전성과 책임을 고려한 설계 및 배포

Imagen 3는 최신 안전성과 책임 혁신을 바탕으로 설계 및 배포되었습니다. 데이터와 모델 개발에서부터 제품화에 이르기까지 광범위한 필터링과 데이터 라벨링을 통해 유해 콘텐츠를 최소화했습니다. 또한, 공정성, 편향성, 콘텐츠 안전성 등의 주제에 대한 평가와 레드 팀을 통해 검증을 진행했습니다. 이 모델은 SynthID라는 워터마킹 도구를 포함하여 최신 개인정보 보호, 안전, 보안 기술과 함께 배포되고 있습니다.

추가 기능 및 향후 계획

앞으로 몇 달에 걸쳐 Imagen 2의 인기 기능인 인페인팅(inpainting) 및 아웃페인팅(outpainting)이 Imagen 3에서도 제공될 예정입니다. 또한, Imagen 3의 사용 범위를 Gemini 앱 및 웹 경험, Workspace, Ads 등 Google의 다양한 제품에 확대할 예정입니다.

Imagen 3 공개 글

Imagen 3 기술 문서

이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.

파이토치 한국 사용자 모임이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

아래쪽에 좋아요를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~