파이토치 한국 사용자 모임

[GN] LLaMA: INT8 에디션

읽을거리&정보공유

9bow (박정환) 3월 11, 2023, 8:08오전 1

GeekNews 의 xguru님께 허락을 받고 GN에 올라온 글들 중에 AI 관련된 소식들을 공유하고 있습니다. ^^

[소개 글]

Meta의 LLaMA-13B를 24 GiB램만으로 돌릴 수 있게 해주는 포크 버전
- 즉, RTX4090/3090 한대만으로 운영이 가능
이론상 LLaMA-65B 를 80GB A100 하나로 운영 가능
변경 내역
- 병렬 처리 구조체 제거
- 호스트 머신의 Weights를 정량화
- 메모리 문제 방지를 위해 Weights를 점진적으로 로드
- bitsandbytes 와 tqdm 이용
- 반복 페널티 설정(기본값 1.15)
RTX4090 + 64GB Ubuntu 머신에서 모델 로드하고 정량화 하는데 약 25초 소요

[원문]

https://github.com/tloen/llama-int8

[출처/GeekNews]