ipex-llm: Intel CPU 및 GPU에서 로컬 LLM의 추론 및 미세 조정을 위한 PyTorch LLM 라이브러리

9bow · 4월 12, 2024, 2:09오전

PyTorchKR

인텔의 ipex-llm 프로젝트는 Intel CPU가 탑재된 로컬 PC나 Intel의 Arc, Flex, Max와 같은 별도의 GPU에서 로컬 LLM의 추론 및 미세 조정(fine-tuning)용 PyTorch LLM 가속 라이브러리입니다. 이 라이브러리는 LLaMA, Mistral, ChatGLM, Qwen, Baichuan, Mixtral, Gemma 등의 다양한 LLM 모델들을 지원하며, llama.cpp, HuggingFace, LangChain, LlamaIndex, DeepSpeed, vLLM, FastChat, ModelScope 등과의 원활한 통합 또한 제공합니다.

ipex-llm: Intel CPU 및 GPU에서 로컬 LLM의 추론 및 미세 조정을 위한 PyTorch LLM 라이브러리

소개

ipex-llm은 Intel의 CPU 및 GPU에서 대규모 언어 모델(LLM)을 효율적으로 실행할 수 있게 해주는 PyTorch 라이브러리입니다. Intel Extension for PyTorch(IPEX)를 기반으로 하며, llama.cpp, bitsandbytes, vLLM, qlora, AutoGPTQ, AutoAWQ 등의 우수한 작업에 기반을 두고 있습니다. 이 라이브러리는 50개 이상의 모델을 최적화/검증했으며, 인텔 코어 울트라 랩톱이나 Arc GPU를 사용할 때 매우 낮은 지연 시간으로 LLM을 실행할 수 있습니다.

주요 기능

다양한 LLM 지원: LLaMA2, Mistral, Mixtral, Gemma, LLaVA, Whisper, ChatGLM, Baichuan, Qwen, RWKV 등 50개 이상의 모델 최적화 및 검증.
통합성: llama.cpp, ollama, Text-Generation-WebUI, HuggingFace transformers 등과 같은 다양한 도구 및 라이브러리와의 원활한 통합 제공.
성능 최적화: Intel CPU와 GPU에서 실행할 때 낮은 지연 시간 및 높은 처리량 제공.
사용 용이성: 사용자 친화적인 설치 및 실행 과정을 통해 누구나 쉽게 사용할 수 있음.

사용 방법

ipex-llm은 몇 가지 간단한 단계로 설치 및 실행할 수 있습니다. 예를 들어, Windows GPU 환경에서는 Intel GPU와 함께 ipex-llm을 설치할 수 있으며, Docker를 사용하여 Intel CPU와 GPU에서 ipex-llm docker를 사용할 수 있습니다. 또한, llama.cpp, ollama, vLLM, FastChat, LangChain-Chatchat RAG, Text-Generation-WebUI 등을 사용하여 Intel GPU와 CPU에서 LLM을 실행할 수 있습니다. 이러한 다양한 실행 방법은 사용자가 자신의 필요에 맞게 LLM을 손쉽게 사용할 수 있게 해줍니다.

ipex-llm 데모

Intel Core Ultra Laptop에서의 데모

Text-Generation-WebUI

Local RAG using LangChain-Chatchat

Intel Arc GPU에서의 데모

llama.cpp

HuggingFace transformers

검증된 모델

Model	CPU Example	GPU Example
LLaMA (such as Vicuna, Guanaco, Koala, Baize, WizardLM, etc.)	link1, link2	link
LLaMA 2	link1, link2	link
ChatGLM	link
ChatGLM2	link	link
ChatGLM3	link	link
Mistral	link	link
Mixtral	link	link
Falcon	link	link
MPT	link	link
Dolly-v1	link	link
Dolly-v2	link	link
Replit Code	link	link
RedPajama	link1, link2
Phoenix	link1, link2
StarCoder	link1, link2	link
Baichuan	link	link
Baichuan2	link	link
InternLM	link	link
Qwen	link	link
Qwen1.5	link	link
Qwen-VL	link	link
Aquila	link	link
Aquila2	link	link
MOSS	link
Whisper	link	link
Phi-1_5	link	link
Flan-t5	link	link
LLaVA	link	link
CodeLlama	link	link
Skywork	link
InternLM-XComposer	link
WizardCoder-Python	link
CodeShell	link
Fuyu	link
Distil-Whisper	link	link
Yi	link	link
BlueLM	link	link
Mamba	link	link
SOLAR	link	link
Phixtral	link	link
InternLM2	link	link
RWKV4		link
RWKV5		link
Bark	link	link
SpeechT5		link
DeepSeek-MoE	link
Ziya-Coding-34B-v1.0	link
Phi-2	link	link
Yuan2	link	link
Gemma	link	link
DeciLM-7B	link	link
Deepseek	link	link
StableLM	link	link

더 읽어보기

프로젝트 홈페이지

https://ipex-llm.readthedocs.io/

GitHub 저장소

https://github.com/intel-analytics/ipex-llm

이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.

파이토치 한국 사용자 모임이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

아래쪽에 좋아요를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~