PyTorchKR
- Cohere에서 공개한 Command R+ 모델에 대해서 GeekNews에 올라온 글을 통해 소개해드렸는데요, 트위터(X)와 Reddit에서 Apple M2 Ultra + MLX 프레임워크의 조합으로 Command R+ 모델을 파인튜닝하고 초당 약 7.5토큰의 속도로 실행한 내용이 화제입니다.
- MLX는 작년 말 Apple이 공개한 Apple 전용 칩(M1/M2/M3)을 지원하는 머신러닝 프레임워크로, 빠르진 않지만 꾸준히 사용자가 늘며 성장하고 있습니다. MLX와 관련한 내용은 관련 글(MLX: 애플 전용칩(Apple silicon: M1, M2, M3 등)을 지원하는 새로운 머신러닝 프레임워크)을 참고해주세요.
소개
MLX에서 제공하는 QLoRA(Command R+ 104b)는 M2 Ultra와 같은 프로슈머(Pro-sumer) 기기에서도 실행 가능한 인공지능 모델입니다. 이 기술은 초당 약 25 토큰의 처리 속도를 제공하며, GPU 클러스터에 비해 속도가 떨어지기는 하지만, 접근성과 편의성 측면에서 뛰어납니다.
바로 실행을 해보기 원하는 사용자는 Cohere의 Command R+ 모델을 MLX 프레임워크용으로 포팅한 모델을 Hugging Face에서 받아서 실행해볼 수 있습니다.
Awni Hannun (@awnihannun)](x.com)이 게시한 영상(출처)
또는, 직접 M2 Ultra 등의 하드웨어에서 파인튜닝을 해보길 원하는 사용자는, GitHub에 공개된 Tiny-Llama 파인튜닝 노트북을 활용하여 직접 실험해볼 수 있습니다.
더 읽어보기
@awnihannun의 트윗
https://x.com/awnihannun/status/1775942513653924049?s=20
Reddit LocalLLaMA 게시판의 글
https://www.reddit.com/r/LocalLLaMA/comments/1bwbgum/qlora_of_command_r_104b_on_an_m2_ultra_mlx/
MLX에서 직접 파인튜닝 시 참고할 노트북 저장소
https://github.com/mark-lord/MLX-text-completion-notebook
Cohere의 Command R+ 모델
MLX 커뮤니티에서 QLoRA를 통해 공개한 Command R+ 4bit 모델
더 읽어볼만한 글들
- [GN⁺] Cohere의 Command R+, 비즈니스를 위해 구축된 확장 가능한 LLM
- QLoRA: 48GB GPU로 65B 모델의 미세조정(파인튜닝)이 가능하다고요?
- MLX: 애플 전용칩(Apple silicon: M1, M2, M3 등)을 지원하는 새로운 머신러닝 프레임워크
이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.
파이토치 한국 사용자 모임
이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일
로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)
아래
쪽에 좋아요
를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~