GeekNews의 xguru님께 허락을 받고 GN에 올라온 글들 중에 AI 관련된 소식들을 공유하고 있습니다.
소개
- 애플 M1/M2 및 소비자용 nVidia GPU에서 LLama2-70B 같은 모델을 파인튜닝
- 양자화(quantization)를 사용하는 대신, 포워드/백워드 패스 모두에서 모델의 일부를 SSD또는 메인 메모리로 오프로드 하는 방식
- 현재 버전을 LoRA를 사용하여 업데이트를 더 작은 매개변수 셋으로 제한
- 첫번째 버전은 전체 파인튜닝도 가능했지만 지금은 제거
원문
https://github.com/okuvshynov/slowllama
출처 / GeekNews
더 읽어보기
llama2
https://github.com/facebookresearch/llama
llama.cpp
https://github.com/ggerganov/llama.cpp
llama2.c
https://github.com/karpathy/llama2.c
cubestat
https://github.com/okuvshynov/cubestat