CM3leon(카멜레온): 텍스트와 이미지를 위한 더 효율적이고 최첨단의 생성형 모델 by Meta

9bow · 8월 4, 2023, 9:58오전

이 글은 GPT 모델로 자동 요약한 설명으로, 잘못된 내용이 있을 수 있으니 원문을 참고해주세요!
읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다!

소개

이 블로그 게시물은 Meta AI의 최신 연구 결과인 CM3leon('카멜레온'으로 발음) 에 대해 설명하고 있습니다. CM3leon은 텍스트와 이미지를 모두 처리할 수 있는 생성형 AI 모델로, 다양한 작업을 성공적으로 처리할 수 있는 능력을 갖추고 있습니다. 이 모델은 텍스트를 이미지로 변환하는 능력을 보여주며, 이를 통해 사용자가 텍스트 설명을 통해 원하는 이미지를 생성하는 것이 가능하게 됩니다.

요약

카멜레온(CM3leon)은 텍스트 전용 언어 모델에서 적용된 레시피를 수정하여 학습한 최초의 멀티-모달 모델입니다. 이 모델은 사용자가 텍스트 설명을 제공하면, 그에 따라 이미지를 생성하는 능력을 가지고 있습니다. 예를 들어, "햇빛 아래에서 산을 배경으로 커피 한잔"이라는 설명을 제공하면, CM3leon은 이 설명에 따라 이미지를 생성합니다. 이러한 기능은 사용자가 원하는 시나리오를 시각적으로 표현할 수 있게 해주며, 이는 디자인, 교육, 연구 등 다양한 분야에서 활용될 수 있습니다.

특히, CM3leoon 모델의 레시피는 간단하며 강력한 모델을 생성하고, 토크나이저 기반 트랜스포머가 기존의 생성형 확산 기반 모델만큼 효율적으로 훈련될 수 있음을 보여줍니다. CM3leon은 텍스트-이미지 생성에 대한 최첨단 성능을 달성하며, 이전의 트랜스포머 기반 방법보다 5배 더 적은 컴퓨팅을 사용하여 학습하였습니다. CM3leon은 자동 회귀 모델의 다양성과 효과성을 갖추고 있으며, 동시에 낮은 학습 비용과 추론 효율성을 유지합니다. 이는 임의의 다른 이미지 및 텍스트 콘텐츠 시퀀스에 조건을 부여하여 텍스트와 이미지의 시퀀스를 생성할 수 있는 원인 마스크 혼합 모달(CM3) 모델이기 때문입니다.

즉, CM3leon의 아키텍처는 잘 알려진 텍스트 기반 모델과 유사한 디코더 전용 변환기이면서, 텍스트와 이미지를 모두 입력하고 생성할 수 있는 점이 특징입니다. 이는 CM3leon이 위에서 공유한 다양한 작업을 성공적으로 처리할 수 있게 합니다. 이는 이전 모델들이 오직 텍스트-이미지 또는 오직 이미지-텍스트만 가능했던 것과 대비하여 기능성을 크게 확장합니다.

텍스트 전용 생성 모델은 일반적으로 다양한 작업에 대해 다중 작업 지시 튜닝을 받아 지시 프롬프트를 따르는 능력을 향상시키지만, 이미지 생성 모델은 대신 특정 작업에 특화되도록 특별히 조정됩니다. 우리는 CM3leon에 대해 이미지와 텍스트 생성 모두에 대한 대규모 다중 작업 지시 튜닝을 적용하고, 이것이 이미지 캡션 생성(image captioning), 시각적 질문 응답(VQA), 텍스트 기반 편집, 조건부 이미지 생성 등의 작업에서 성능을 크게 향상시킴을 보여줍니다. 이는 텍스트 전용 모델에 대해 개발된 스케일링 레시피가 우리의 토크나이징 기반 이미지 생성 모델에 직접 일반화됨을 또 다른 강력한 예시를 제공합니다.

가장 널리 사용되는 이미지 생성 벤치마크인 제로샷 MS-COCO에서의 성능을 비교할 때, CM3Leon은 FID (Fréchet Inception Distance) 점수가 4.88로, 텍스트-이미지 생성에서 새로운 최첨단 기술을 설정하며 Google의 텍스트-이미지 모델인 Parti를 능가합니다. 이 성과는 검색 증강의 잠재력을 강조하며, 자동 회귀 모델의 성능에 대한 스케일링 전략의 영향을 강조합니다. CM3Leon은 또한 선글라스와 모자를 쓴 화분 선인장과 같은 복잡한 구성 객체를 생성하는 능력을 보여줍니다. CM3leon은 시각적 질문 응답과 장문 캡셔닝을 포함한 다양한 시각-언어 작업에서 잘 수행됩니다. 오직 30억 개의 텍스트 토큰으로만 학습된 데이터셋에서도, CM3Leon의 제로샷 성능은 더 광범위한 데이터셋에서 훈련된 더 큰 모델들과 유리하게 비교됩니다.

참고 자료

CM3leon 논문 - 이 논문은 CM3leon의 구조와 학습 방법에 대한 자세한 설명을 제공합니다.
Parti 논문 - 이 논문은 CM3leon의 성능을 비교한 모델인 Parti에 대한 자세한 설명을 제공합니다.
MS-COCO 데이터셋 - 이 데이터셋은 CM3leon의 성능을 평가하는 데 사용된 주요 벤치마크입니다.

원문

https://ai.meta.com/blog/generative-ai-text-images-cm3leon/

소개

요약

CM3leon은 텍스트를 이미지로 변환하는 능력을 가진 생성형 AI 모델입니다.

CM3leon의 또 다른 중요한 특징은 고해상도 이미지 생성을 위한 별도의 학습 단계를 포함하고 있다는 것입니다. 이는 원래의 모델 출력에서 더 높은 해상도의 이미지를 생성하는 데 사용됩니다. 이 기능은 텍스트에서 이미지 생성 작업에 대해 CM3leon이 매우 잘 작동함을 보여줍니다.

CM3leon의 학습은 우리의 최근 작업을 따르며, 이는 결과 모델의 효율성과 제어 가능성을 크게 향상시킵니다. 마지막으로, 위에서 설명한 것처럼, 우리는 다양한 이미지와 텍스트 생성 작업에 대해 지시사항을 세밀하게 조정하였습니다.

AI 산업이 계속 발전함에 따라, CM3leon과 같은 생성형 모델은 점점 더 복잡해지고 있습니다. 이러한 모델은 수백만 개의 예제 이미지에 대해 학습하여 시각적 요소와 텍스트 간의 관계를 학습하지만, 학습 데이터에 존재하는 모든 편향을 반영할 수도 있습니다. 산업이 이러한 도전을 이해하고 해결하는 초기 단계에 있음에도 불구하고, 우리는 투명성이 진보를 가속화하는 데 중요할 것이라고 믿습니다.

따라서, 우리의 논문에서 설명한 것처럼, 우리는 라이선스가 부여된 데이터셋을 사용하여 CM3leon을 학습시켰습니다. 이는 모든 이전 모델이 사용한 것과 매우 다른 데이터 분포로도 강력한 성능이 가능함을 보여줍니다. 우리의 작업을 투명하게 만듦으로써, 우리는 생성형 AI 분야에서의 협업과 혁신을 장려하고자 합니다. 우리는 함께 일함으로써,

우리는 이러한 도구를 더욱 책임감 있고 유용하게 만들 수 있다고 믿습니다.

참고자료

Scaling Autoregressive Multi-Modal Models: Pretraining and Instruction Tuning

CM3leon 관련 논문입니다.

Generative Adversarial Networks (GANs): What they are, and why they’ve become a major force in AI

이 기사는 생성형 AI에 대한 기본적인 이해를 돕습니다. CM3leon이 어떻게 작동하는지 이해하는 데 도움이 될 수 있습니다.

https://venturebeat.com/2021/05/22/generative-adversarial-networks-gans-what-they-are-and-why-theyve-become-a-major-force-in-ai/

Understanding the Transformer Architecture

트랜스포머 아키텍처에 대해 설명하는 글입니다. CM3leon의 아키텍처를 이해하는 데 도움이 될 수 있습니다.

https://towardsdatascience.com/transformers-141e32e69591