ipex-llm: Intel CPU 및 GPU에서 로컬 LLM의 추론 및 미세 조정을 위한 PyTorch LLM 라이브러리

:pytorch:PyTorchKR:kr:

  • 인텔의 ipex-llm 프로젝트는 Intel CPU가 탑재된 로컬 PC나 Intel의 Arc, Flex, Max와 같은 별도의 GPU에서 로컬 LLM의 추론 및 미세 조정(fine-tuning)용 PyTorch LLM 가속 라이브러리입니다. 이 라이브러리는 LLaMA, Mistral, ChatGLM, Qwen, Baichuan, Mixtral, Gemma 등의 다양한 LLM 모델들을 지원하며, llama.cpp, HuggingFace, LangChain, LlamaIndex, DeepSpeed, vLLM, FastChat, ModelScope 등과의 원활한 통합 또한 제공합니다.


ipex-llm: Intel CPU 및 GPU에서 로컬 LLM의 추론 및 미세 조정을 위한 PyTorch LLM 라이브러리

소개

ipex-llm은 Intel의 CPU 및 GPU에서 대규모 언어 모델(LLM)을 효율적으로 실행할 수 있게 해주는 PyTorch 라이브러리입니다. Intel Extension for PyTorch(IPEX)를 기반으로 하며, llama.cpp, bitsandbytes, vLLM, qlora, AutoGPTQ, AutoAWQ 등의 우수한 작업에 기반을 두고 있습니다. 이 라이브러리는 50개 이상의 모델을 최적화/검증했으며, 인텔 코어 울트라 랩톱이나 Arc GPU를 사용할 때 매우 낮은 지연 시간으로 LLM을 실행할 수 있습니다.

주요 기능

  • 다양한 LLM 지원: LLaMA2, Mistral, Mixtral, Gemma, LLaVA, Whisper, ChatGLM, Baichuan, Qwen, RWKV 등 50개 이상의 모델 최적화 및 검증.

  • 통합성: llama.cpp, ollama, Text-Generation-WebUI, HuggingFace transformers 등과 같은 다양한 도구 및 라이브러리와의 원활한 통합 제공.

  • 성능 최적화: Intel CPU와 GPU에서 실행할 때 낮은 지연 시간 및 높은 처리량 제공.

  • 사용 용이성: 사용자 친화적인 설치 및 실행 과정을 통해 누구나 쉽게 사용할 수 있음.

사용 방법

ipex-llm은 몇 가지 간단한 단계로 설치 및 실행할 수 있습니다. 예를 들어, Windows GPU 환경에서는 Intel GPU와 함께 ipex-llm을 설치할 수 있으며, Docker를 사용하여 Intel CPU와 GPU에서 ipex-llm docker를 사용할 수 있습니다. 또한, llama.cpp, ollama, vLLM, FastChat, LangChain-Chatchat RAG, Text-Generation-WebUI 등을 사용하여 Intel GPU와 CPU에서 LLM을 실행할 수 있습니다. 이러한 다양한 실행 방법은 사용자가 자신의 필요에 맞게 LLM을 손쉽게 사용할 수 있게 해줍니다.

ipex-llm 데모

Intel Core Ultra Laptop에서의 데모

Text-Generation-WebUI


Local RAG using LangChain-Chatchat

Intel Arc GPU에서의 데모

llama.cpp


HuggingFace transformers

검증된 모델

Model CPU Example GPU Example
LLaMA (such as Vicuna, Guanaco, Koala, Baize, WizardLM, etc.) link1, link2 link
LLaMA 2 link1, link2 link
ChatGLM link
ChatGLM2 link link
ChatGLM3 link link
Mistral link link
Mixtral link link
Falcon link link
MPT link link
Dolly-v1 link link
Dolly-v2 link link
Replit Code link link
RedPajama link1, link2
Phoenix link1, link2
StarCoder link1, link2 link
Baichuan link link
Baichuan2 link link
InternLM link link
Qwen link link
Qwen1.5 link link
Qwen-VL link link
Aquila link link
Aquila2 link link
MOSS link
Whisper link link
Phi-1_5 link link
Flan-t5 link link
LLaVA link link
CodeLlama link link
Skywork link
InternLM-XComposer link
WizardCoder-Python link
CodeShell link
Fuyu link
Distil-Whisper link link
Yi link link
BlueLM link link
Mamba link link
SOLAR link link
Phixtral link link
InternLM2 link link
RWKV4 link
RWKV5 link
Bark link link
SpeechT5 link
DeepSeek-MoE link
Ziya-Coding-34B-v1.0 link
Phi-2 link link
Yuan2 link link
Gemma link link
DeciLM-7B link link
Deepseek link link
StableLM link link

더 읽어보기

프로젝트 홈페이지

https://ipex-llm.readthedocs.io/

GitHub 저장소




이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. :hugs:

:pytorch:파이토치 한국 사용자 모임:kr:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:gift: 아래:arrow_lower_right:쪽에 좋아요:heart:를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~ :star_struck: