Apple M2 Ultra와 MLX 프레임워크로 Command R+ QLoRA 파인튜닝 모델 실행

9bow · 4월 7, 2024, 1:13오후

PyTorchKR

Cohere에서 공개한 Command R+ 모델에 대해서 GeekNews에 올라온 글을 통해 소개해드렸는데요, 트위터(X)와 Reddit에서 Apple M2 Ultra + MLX 프레임워크의 조합으로 Command R+ 모델을 파인튜닝하고 초당 약 7.5토큰의 속도로 실행한 내용이 화제입니다.

MLX는 작년 말 Apple이 공개한 Apple 전용 칩(M1/M2/M3)을 지원하는 머신러닝 프레임워크로, 빠르진 않지만 꾸준히 사용자가 늘며 성장하고 있습니다. MLX와 관련한 내용은 관련 글(MLX: 애플 전용칩(Apple silicon: M1, M2, M3 등)을 지원하는 새로운 머신러닝 프레임워크)을 참고해주세요.

소개

MLX에서 제공하는 QLoRA(Command R+ 104b)는 M2 Ultra와 같은 프로슈머(Pro-sumer) 기기에서도 실행 가능한 인공지능 모델입니다. 이 기술은 초당 약 25 토큰의 처리 속도를 제공하며, GPU 클러스터에 비해 속도가 떨어지기는 하지만, 접근성과 편의성 측면에서 뛰어납니다.

바로 실행을 해보기 원하는 사용자는 Cohere의 Command R+ 모델을 MLX 프레임워크용으로 포팅한 모델을 Hugging Face에서 받아서 실행해볼 수 있습니다.

Awni Hannun (@awnihannun)](x.com)이 게시한 영상(출처)

또는, 직접 M2 Ultra 등의 하드웨어에서 파인튜닝을 해보길 원하는 사용자는, GitHub에 공개된 Tiny-Llama 파인튜닝 노트북을 활용하여 직접 실험해볼 수 있습니다.

더 읽어보기

Cohere의 Command R+ 모델

MLX 커뮤니티에서 QLoRA를 통해 공개한 Command R+ 4bit 모델

더 읽어볼만한 글들

이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.

파이토치 한국 사용자 모임이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

아래쪽에 좋아요를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~

9bow · 4월 7, 2024, 1:32오후

Reddit의 LocalLLaMA 게시판은 재미있네요

Apple M2 Ultra + MLX 프레임워크로 Mistral 7B 4bit 양자화 모델을 실행하여 초당 100토큰을 생성한 인증샷도 있어서 퍼와봅니다 ㅎㅎ

출처: Reddit r/LocalLLaMA

Apple M2 Ultra와 MLX 프레임워크로 Command R+ QLoRA 파인튜닝 모델 실행

PyTorchKR

소개

더 읽어보기

@awnihannun의 트윗

Reddit LocalLLaMA 게시판의 글

MLX에서 직접 파인튜닝 시 참고할 노트북 저장소

Cohere의 Command R+ 모델

MLX 커뮤니티에서 QLoRA를 통해 공개한 Command R+ 4bit 모델

더 읽어볼만한 글들