DeepSeek의 R1-Lite-Preview 모델 소개
DeepSeek에서 새로운 모델 DeepSeek-R1-Lite-Preview를 공개하며 AIME와 MATH 벤치마크에서 o1-preview 수준의 성능을 자랑합니다. 모델은 실시간으로 투명한 사고 과정을 제공합니다. 사용자가 이를 직접 체험할 수 있도록 온라인 데모가 함께 공개되었으며, 오픈소스 모델 및 API도 곧 제공될 예정입니다.
DeepSeek Chat에서 로그인 후 사용 가능하며, 위와 같이 Deep Think
토글을 활성화하여 하루에 50번 메시지를 주고 받을 수 있습니다:
DeepSeek-R1-Lite-Preview는 OpenAI의 o1-preview에 필적하는 AIME 및 MATH 벤치마크 성능을 보일뿐만 아니라, 사용자는 모델의 사고 흐름을 투명하게 볼 수 있어 학습과 디버깅에 유용한 것이 주요 특징입니다.
또한, DeepSeek이 공개한 글에 따르면, 더 오랜 시간 추론(Longer Reasoning)을 하는 경우 성능이 향상(Better Performance, Accuracy 측면)되는 것을 확인할 수 있습니다:
X의 사용자 wh(@nrehiew_)이 전한 루머에 따르면, DeepSeek-R1-Lite 모델은 총 16B 규모의 MoE 모델로, 2.4B 규모의 파라매터만 활성화된다고 합니다. (= 40GB VRAM을 갖는 단일 GPU에 배포할 수 있다고 합니다.)
DeepSeek이 공개한 R1-Lite-Preview 업데이트 공지
온라인 데모 사용해보기 (로그인 필요)
그 외 관련 Twitter
https://x.com/nrehiew_/status/1859265550767067518
이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.
파이토치 한국 사용자 모임이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)
아래쪽에 좋아요를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~