안녕하세요 국내 최대 오프라인 인공지능 커뮤니티 모두의연구소입니다!
오늘은 접두사 토큰을 활용한 분류 데이터셋과 캡션 데이터 셋 학습전략에 대한 이야기, LLM 프롬프팅으로 하는 머신러닝에서 사용한 부스팅 기법 활용하기, 마지막으로 DragGAN의 장점을 가져온 DragDiffusion 모델에 대한 이야기입니다.
현재 웹 스케일에서 통상 진행하는 이미지 캡션 데이터셋을 활용한 멀티모달 모델이 기존 모델에 대한 대안으로 새롭게 떠오르고 있습니다.
이미지 캡션 데이터의 경우 다양한 장면과 어휘를 포함하고 있어야 하며 제로샷으로 강력한 성능을 가진 모델을 생성해야 합니다. 그렇기 때문에 구글 리서치에서는 기존에 사용하고 있는 분류 데이터셋과 캡션 데이터셋을 활용해 사전 학습 전략을 만들었습니다. 그리고 접두사 토큰을 활용해 시각적인 개념에서 편향을 제거하는 방식을 차용하는 모델까지 만들었는데요, 해당 내용에 대해 더 궁금하시다면 블로그를 꼭 한번 읽어주세요!
머신 러닝의 핵심 개념이라면 무엇이 있을까요?
그것은 바로 주어진 데이터 분포에서 작은 차이라도 무작위 분석보다 더 나은 성능을 달성하는 분류기라고 볼 수 있지 않을까요? 그렇다면 챗GPT와 같은 LLM에게 프롬프트 엔지니어링으로 명령을 시키는 것은 또 어떨까요?
이번 논문은 일반적인 머신러닝에서 사용하는 부스팅 기법을 LLM 프롬프트 엔지니어링을 활용해서 진행하는 방법에 대한 논문입니다.
해당 방법론을 들으니 신선한 접근이라는 생각이 들면서 정말 그럴싸한데요!
최근 이미지 생성 파트에서 핵심이 되는 연구는 정밀하게 제어가 가능한 이미지 편집 기술 입니다. 현재 DragGAN의 경우 인터렉티브한 포인트 기반 이미지 편집이 가능할 뿐만 아니라 픽셀 수준의 정밀도까지 가능하기 때문에 고품질의 인상 깊은 이미지 결과를 얻을 수 있습니다. 그러나 DragGAN은 그 이름에서 알 수 있듯 GAN을 기반으로 하기 때문에 범용성 높은 편집을 진행하기 어렵습니다. 그래서 DragGAN기법의 장점을 고루 섞은 Diffusion 모델이 출시되었습니다.
새로운 DragDiffusion은 Diffusion모델의 장점인 범용성과 Drag기법의 장점인 고품질 편집, 이 두 마리 토끼를 모두 잡았는데요, DragDiffusion 새로운 면모가 궁금하시다면 데모페이지도 구경해보세요!
모두의연구소와 지식을 나누고 함께 성장할 개발자를 기다립니다.
모두의연구소가 만든 AI학교 쏘카 캠퍼스 모집 중 ⇒ 아이펠 캠퍼스 - 모두의연구소가 만든 AI학교 아이펠