Cake: 대규모 모델 분산 추론 프레임워크 (feat. Rust)

9bow · 7월 16, 2024, 12:35오후

Cake 프레임워크 소개

Cake는 Candle 기반의 대규모 모델 분산 추론을 위한 Rust 프레임워크입니다. Llama3와 같은 대규모 모델을 단일 GPU 메모리에 적재할 수 없는 경우, 여러 장치에 변환기 블록을 분산시켜 추론을 수행할 수 있도록 합니다. 이를 통해 AI 모델을 보다 쉽게 접근하고 활용할 수 있습니다. 이 프로젝트는 계획된 진부화를 도구로 활용하여 AI의 접근성을 높이는 것을 목표로 합니다.

Cake는 Rust 언어로 작성되어 있으며, 특히 여러 종류의 소비자 하드웨어를 활용한 이종 클러스터 구성에 최적화되어 있습니다. 또한, Candle 기반으로 설계되어 있어 대규모 모델 추론에 특화된 기능을 제공합니다.

주요 기능

*출처: @evilsocket on x.com

다양한 OS 지원: GNU/Linux, Windows, macOS, Android, iOS 등 다양한 운영체제를 지원합니다.
다양한 아키텍처 지원: arm, arm64, x86_64 등 다양한 아키텍처를 지원합니다.
CUDA 및 BLAS 가속 지원: CUDA >= 12.2가 필요한 CUDA 가속 시스템 및 BLAS 가속을 지원합니다.
이종 클러스터 구성: 여러 장치에 변환기 블록을 분산시켜 대규모 모델을 효율적으로 추론할 수 있습니다.

지원 플랫폼 및 가속화 지원 여부

운영 체제	아키텍처	가속화	상태
GNU/Linux	arm, arm64, x86_64	-
GNU/Linux	arm, arm64, x86_64	CUDA
GNU/Linux	arm, arm64, x86_64	BLAS
Windows	x86_64	BLAS	테스트 미완료
Windows	x86_64	CUDA	테스트 미완료
macOS	intel	-
macOS	aarch64	-
macOS	aarch64	Metal
Android	arm, arm64, x86_64	-
Android	arm, arm64, x86_64	CUDA	테스트 미완료
iOS / iPadOS	aarch64	-
iOS / iPadOS	aarch64	Metal	90% 완료, 진행 중
Web	-	WebGPU	이론적으로 가능, 진행 안 됨

CUDA >= 12.2는 CUDA 가속 시스템에 필요합니다.

라이선스

Cake 프로젝트는 GPL 3 라이선스로 공개 및 배포되고 있습니다. 프로젝트 의존성 라이선스 확인은 cargo install cargo-license로 cargo license 명령을 실행하면 됩니다.

Cake 프레임워크 GitHub 저장소

https://github.com/evilsocket/cake

이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.

파이토치 한국 사용자 모임이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

아래쪽에 좋아요를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~