안녕하세요
국내 최대 오프라인 커뮤니티 모두의연구소입니다.
오늘은 Llama 2 공개와 업스테이지의 Llama 튜닝으로 리더보드 전체 2등을 기록한 소식 마지막으로 트랜스포머의 계승자인 RetNet에 대한 이야기입니다.
메타와 마이크로소프트가 Llama의 새로운 모델 Llama2를 상업적 용도로도 사용 가능한 라이선스로 배포했습니다. 기존 Llama의 경우 연구용으로만 사용할 수 있었는데요, 이번 배포로 Llama2는 상업적으로도 사용이 가능해졌으며 성능 또한 많이 개선되었습니다.
Llama 2는 기존과 비슷하게 7B, 13B, 70B 모델이 각각 공개되었으며 70B의 경우 Hugging Face 리더보드에서 1등을 차지했습니다. 현재 대부분의 오픈소스 모델들이 Llama를 기반으로 움직이고 있는데 Llama 2공개로 오픈소스 LLM이 더 많은 활력을 갖게 될 것이라는 생각을 하게 되네요~
업스테이지에서 Llama instruct Tuning으로 Hugging Face LLM 리더보드에서 전체 2등을 차지했습니다. 사실 오늘 오전에 Llama 2 공개만 없었다면 사실상 1등을 업스테이지가 차지했을 것이라는 생각이 드는데요, 해당 모델의 경우 Instruct Tuning만 진행했다고 하는데요, 정말 대단하다고 생각됩니다. 아직 모델 공개가 모두 다 이뤄지지 않았지만 실제 성능을 지금 빨리 체험해보고 싶어지네요~
마이크로소프트 리서치와 칭화대학교가 LLM에서 트랜스포머보다 더 좋은 모델인 RetNet을 새롭게 공개했습니다.
RetNet은 기존의 Transformer의 Attention과 RNN이 갖고 있는 Recursive의 특성을 동시에 갖고 있는 모델입니다. 그렇기에 벤치마크를 살펴보면 VRAM이 더 효율적으로 사용되며 Latency 또한 기존 Transformer보다 더 개선되었다는 것을 바로 확인해볼 수 있습니다.
현재 딥러닝에서 Transformer 아키텍쳐가 정말 많이 사용되고 있는데요, RetNet으로 LLM을 만들어서 더 개선된 모습으로 하루 빨리 출시되면 좋을 것 같네요!
모두의연구소와 함께 지식을 나누고 성장할 여러분을 기다립니다.
AI학교 아이펠 쏘카 캠퍼스 모집 중 ⇒ https://me2.kr/IvLsN