M1에서 gemma.cpp를 사용해보았습니다 (w/ 추론 속도 영상)

Google:google:에서 2B / 7B 크기의 작은(?) LLM Gemma를 공개했는데요,
gemma.cpp까지 공개했다는걸 뒤늦게 알게되어 집에서 사용 중인 M1 mac mini에서 빌드 및 실행을 해봤습니다 ㅎㅎ

gemma.cpp에 대한 소개는 gemma.cpp: Gemma 모델의 빠른 실행을 위한 C++ 추론 엔진 (by Google) 에서,
로컬 빌드 및 사용 환경 구성기(?)는 위 글의 2번째 글에서 확인하실 수 있습니다.


gemma.cpp 추론 속도 (영상)
트래픽(서버비)이 무서워 영상을 빙자한 Animated GIF입니다 :sweat_smile:


2B 모델의 경우에도 한국어를 못하지는 않는데 내용이 만족스러운 정도는 아니네요. :sweat_smile:
Gemma는 감기를 무서워하는 것으로...

밤이 늦었으니 일단 자고, 다른 모델들도 한 번 사용해보고 후기 남겨보겠습니다 :smiley:

이번 주말에는 Gemma와 함께 놀아보시면 어떨까요? :rofl:

2개의 좋아요

간간히 mac 메모장을 사용해 올려주신 NotesOllama를 사용해봤는데 정말 편하네요. 속도도 괜찮고 ollama에서 gemma까지 빠르게 지원해서. 그나마 원본 model이 llama2 보다 6배 학습을 많이해서 그런지 한국어를 조금 잘 알아듣네요. ㅎㅎ 공유 감사합니다.

1개의 좋아요