Apple M2 Ultra와 MLX 프레임워크로 Command R+ QLoRA 파인튜닝 모델 실행

:pytorch:PyTorchKR:kr:


소개

Apple M2 Ultra + MLX 프레임워크로 Command R+ 104B 모델 파인튜닝 (QLoRA)

MLX에서 제공하는 QLoRA(Command R+ 104b)는 M2 Ultra와 같은 프로슈머(Pro-sumer) 기기에서도 실행 가능한 인공지능 모델입니다. 이 기술은 초당 약 25 토큰의 처리 속도를 제공하며, GPU 클러스터에 비해 속도가 떨어지기는 하지만, 접근성과 편의성 측면에서 뛰어납니다.

바로 실행을 해보기 원하는 사용자는 Cohere의 Command R+ 모델MLX 프레임워크용으로 포팅한 모델을 Hugging Face에서 받아서 실행해볼 수 있습니다.


Awni Hannun (@awnihannun)](https://twitter.com/awnihannun)이 게시한 영상(출처)

또는, 직접 M2 Ultra 등의 하드웨어에서 파인튜닝을 해보길 원하는 사용자는, GitHub에 공개된 Tiny-Llama 파인튜닝 노트북을 활용하여 직접 실험해볼 수 있습니다.

더 읽어보기

@awnihannun의 트윗

https://x.com/awnihannun/status/1775942513653924049?s=20

Reddit LocalLLaMA 게시판의 글

https://www.reddit.com/r/LocalLLaMA/comments/1bwbgum/qlora_of_command_r_104b_on_an_m2_ultra_mlx/

MLX에서 직접 파인튜닝 시 참고할 노트북 저장소

Cohere의 Command R+ 모델

MLX 커뮤니티에서 QLoRA를 통해 공개한 Command R+ 4bit 모델

더 읽어볼만한 글들


이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. :hugs:

:pytorch:파이토치 한국 사용자 모임:kr:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:gift: 아래:arrow_lower_right:쪽에 좋아요:heart:를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~ :star_struck:

Reddit의 LocalLLaMA 게시판은 재미있네요 :astonished:

Apple M2 Ultra + MLX 프레임워크로 Mistral 7B 4bit 양자화 모델을 실행하여 초당 100토큰을 생성한 인증샷도 있어서 퍼와봅니다 ㅎㅎ


출처: Reddit r/LocalLLaMA