안녕하세요
국내 최대 오프라인 인공지능 커뮤니티 모두의연구소입니다!
오늘은 PPO-max를 통한 RLHF 구현에 대한 이야기, 미분방정식까지 풀 수 있는 머신러닝 알고리즘, 멀티모달을 지원하는 범용모델에 대한 이야기입니다.
LLM이 현재 급속도로 성장하고 있는 여러가지 요소 중 하나는 RLHF입니다. RLHF란 Reinforcement Learning with Human feedback의 준말로 사람의 피드백을 기반으로 하는 강화학습을 의미합니다. 그러나 LLM에 RLHF를 바로 도입하기에는 특히 보상 설계, 환경 상호작용, 에이전트 훈련 등과 같은 장벽들이 존재합니다. 오늘 소개해드리는 논문에서는 RLHF의 프레임워크를 분석하고 PPO 내부 작동을 재평가해 어떻게 LLM에 적용하는가에 대한 주제로 구성되어 있습니다. 기존에 사용하던 PPO보다 업그레이드한 PPO-max까지 만들었다고 하니, LLM을 연구하는 사람들은 해당 논문으로 RLHF를 보다 쉽게 구현할 수 있을거란 생각이 듭니다! Secrets of RLHF in Large Language Models Part I: PPO
이제는 머신러닝이 미분방정식까지 풀 수 있게 만든 알고리즘이 나왔네요! 미분방정식은 수치계산보다 계산적으로 효율적인 대안을 제시해 공학분야에서 광범위하게 영향을 줍니다. 오늘 소개해드리는 연구는 딥러닝의 수많은 기법중에서 Self-Supervised Learning을 활용해서 미분방정식의 범용 표현을 학습시켜 기존 방법론보다 성능을 뛰어나게 만들었다고 합니다! 이번 모델이 처음 미분방정식에 대한 모델이 등장했기에 추후에는 범용적으로 미분방정식을 계산하는 모델이 나올것 같네요!
Self-Supervised Learning with Lie Symmetries for Partial Differential Equations
멀티모달을 지원하는 또 다른 거대모델이 나왔습니다! Emu라는 모델은 멀티모달 데이터 입력을 받으며 하나의 모델에 대한 모든 자동회귀 학습 프로세스로 결과가 출력되는 모델입니다. Emusms 제로샷으로 다양한 task를 소화하는 범용모델이라고 해서 상당히 매력적인 모델인데요. Emu는 다양한 모델로 구성되어 있는데 LLaMA, BLIP-2, Stable Diffusion, FastChat을 사용했다고 합니다. 비록 직접 하나로 이어붙여서 만든 모델은 아니지만 적재적소에 모델들을 연결해서 하나의 모델로 작용하는 방식은 현재 거대 모델을 연구할 때 필요하다고 생각합니다!
Generative Pretraining in Multimodality
모두의연구소와 함께 지식을 나누고 성장할 여러분을 기다립니다.
AI학교 아이펠 쏘카 캠퍼스 모집 중 ⇒ 아이펠 캠퍼스 - 모두의연구소가 만든 AI학교 아이펠