안녕하세요
국내 최대 오프라인 인공지능 커뮤니티 모두의연구소입니다.
오늘은 Med-PaLM M, 이미지로 편집하는 방법론, 마지막으로 트랜스포머를 개선하는 SoftMoE에 대한 소식입니다!
구글 리서치에서 공개한 Med-PaLM M을 소개합니다! 보통 병원에서 환자를 진료할 때 진료 이미지, 임상 기록, 실험 테스트를 거쳐 진단을 하고, 진료 결과는 구두로 전달하죠. 이 과정을 AI에 대입한다고 하면 멀티모달 AI가 필수로 필요하지 않을까 생각합니다! 구글에서 만든 Med-PaLM2 모델은 단순히 의료지식만 갖고 있는 것이 아닌 유전학, 병리학과 같은 의료에 필요한 지식까지 전부 학습이 되었다고 합니다! OpenAI는 범용적 모델을 지속적으로 만들고 있는데 구글은 특정 도메인에서 잘 사용되는 모델을 만들고 있어 두 회사의 방향성이 기대가 되네요
현재 진행되고 있는 Text-2-image 모델 연구는 이미지를 내가 원하는 대로 편집하는 것인데요~! ControlNet과 같은 모델은 프롬프트를 활용해서 이미지를 수정하게 되어있습니다. 그래서 프롬프트를 활용하게 되면 프롬프트 특유의 랜덤성이 들어가다보니 사용자가 원하는 대로 편집하기 어려운데요! 오늘 소개해드리는 논문에서는 내가 원하는 내가 원하는 방식의 그림을 주는 시각적 방침을 제공해 이미지 편집을 용이하게 만들었다고 합니다! 저도 AI로 그림을 만들 때 이 부분이 정말 애를 많이 먹곤 했는데요 앞으로는 좀 더 쉽게 활용할 수 있을 것 같네요!
ImageBrush: Learning Visual In-Context Instructions for Exemplar-Based Image Manipulation
지난 2017년 트랜스포머가 세상에 공개된 이후 지금까지 모델의 성능 개선을 위해 많은 노력을 해왔습니다. 그 중 구글에서는 ‘스위치 트랜스포머’를 선보였고 이 모델에는 MoE 아키텍쳐가 포함되어 있습니다. 구글 딥마인드의 MoE는 훈련이나 추론 비용이 크게 늘지 않고 용량을 확장하는데 훈련이 불안정하고 토큰이 누락되거나 미세조정이 비효율적인 문제가 있었는데요! 이를 해결하기 위해서 모든 입력 토큰의 서로 다른 가중치 조합을 전달하는 방식인 Soft MoE를 만들었다고 합니다! Soft MoE는 기존에 사용하던 MoE보다 낮은 추론으로 성능이 동일하게 나오며 확장성이 뛰어난다고 하니 현재 거대 모델들을 만들 때 사용하는 트랜스포머의 성능도 점점 개선된다면 차후 모델을 만들 때 더 효율적으로 만들어질것 같네요!
From Sparse to Soft Mixtures of Experts
AI 90% 순도 높은 아이펠만의 커리큘럼으로 배우세요!
- AI학교 아이펠 무료 입학하기 : 아이펠 캠퍼스 - 모두의연구소가 만든 AI학교 아이펠