Introducing torchchat: Accelerating Local LLM Inference on Laptop, Desktop...

Introducing torchchat: Accelerating Local LLM Inference on Laptop, Desktop and Mobile

안녕하세요 :wave:

최근 PyTorch에서 torchchat이라는 새로운 라이브러리를 발표했길래 공유합니다! 로컬 디바이스에서 LLM을 구동시키는 것에 관심 있는 분들께 유용할 것 같네요ㅎㅎ

torchchat이란? :thinking:

torchchat은 Llama 3, 3.1 같은 LLM들을 노트북, 데스크톱, 심지어 모바일에서도 로컬로 실행할 수 있게 해주는 라이브러리입니다. 기회가 된다면 Ollama와 비교도 해보고 싶네요 :thinking:

주요 특징 :star2:

  1. 다양한 환경 지원:

    • Python으로 REST API 사용 가능
    • C++로 만든 데스크톱용 프로그램
    • 모바일에서도 실행 가능한 파일 제공
  2. 유용한 기능들:

    • 모델 export
    • 양자화 (모델 경량화)
    • 성능 평가

성능 :zap:

Llama 3 8B Instruct on Apple MacBook Pro M1 Max 64GB Laptop

Mode DType Llama 3 8B Tokens/Sec
Arm Compile float16 5.84
int8 1.63
int4 3.99
Arm AOTI float16 4.05
int8 1.05
int4 3.28
MPS Eager float16 12.63
int8 16.9
int4 17.15

Llama 3 8B Instruct on Linux x86 and CUDA
Intel(R) Xeon(R) Platinum 8339HC CPU @ 1.80GHz with 180GB Ram + A100 (80GB)

Mode DType Llama 3 8B Tokens/Sec
x86 Compile bfloat16 2.76
int8 3.15
int4 5.33
CUDA Compile bfloat16 83.23
int8 118.17
int4 135.16

Llama3 8B Instruct on Mobile
Torchchat achieves > 8T/s on the Samsung Galaxy S23 and iPhone using 4-bit GPTQ via ExecuTorch.

기여 포인트 :point_up_2:

  • 추가 모델 지원 :brain:
  • 새로운 하드웨어 타겟 :computer:
  • 양자화 기법 :1234:
  • 성능 개선 :chart_with_upwards_trend:

원문 링크

4개의 좋아요

우왓 감사합니다! :hugs:
안 그래도 블로그 글 번역해서 올려야지 생각하고 있었는데, 곧 정리해보겠습니다. ^^

1개의 좋아요