파이토치 한국 사용자 모임

[GN] Web LLM - Llama2 7B/13B 지원 시작

읽을거리&정보공유

9bow (박정환) 8월 31, 2023, 12:26오후 1

GeekNews의 xguru님께 허락을 받고 GN에 올라온 글들 중에 AI 관련된 소식들을 공유하고 있습니다.

소개

Web LLM은 서버 없이 브라우저에서 직접 실행하는 MLC LLM의 컴패니언 프로젝트
웹 브라우저에서 Llama, RedPajama, Vicuna 같은 LLM을 WASM으로 구동하는 서비스
- Llama 2 7B/13B 지원 시작 llama2
- Llama 2 70B도 지원하지만, 애플 실리콘 맥 + 64GB 램 이상에서만 사용 가능
WebGPU를 사용하여 가속 기능 사용 가능 (Chrome 113+에서만 지원) webgpu
- Llama-7B, Vicuna-7B 실행을 위해서는 약 6GB의 VRAM 사용이 가능한 GPU 필요 llama
- RedPajama-3B 실행을 위해서는 약 3GB의 VRAM 사용이 가능한 GPU 필요 redpajama

원문

demo

홈페이지

사용해 볼 수 있는 데모

사용해 볼 수 있는 모델:

Llama-2-7b-chat-hf-q4f32_1
Llama-2-13b-chat-hf-q4f32_1
Llama-2-7b-chat-hf-q4f16_1
Llama-2-13b-chat-hf-q4f16_1
Llama-2-70b-chat-hf-q4f16_1
RedPajama-INCITE-Chat-3B-v1-q4f32_0
RedPajama-INCITE-Chat-3B-v1-q4f16_0
Vicuna-v1-7b-q4f32_0

GitHub 저장소

https://github.com/mlc-ai/web-llm

MLC LLM 프로젝트 소개 mlc-llm

[GN] MLC LLM - LLM모델을 어떤 디바이스에든 배포 가능하게 해주는 오픈소스 솔루션 읽을거리&정보공유

GeekNews의 xguru 님께 허락을 받고 GN에 올라온 글들 중에 AI 관련된 소식들을 공유하고 있습니다. 소개 [image] 누구나 AI 모델을 개발하고 최적화해서 어떤 디바이스에든 배포 가능하게 만드는 것을 목표 MLC(Machine Learning Compilation) 와 Apache TVm Unity 를 이용 지원 플랫폼 아이폰/아이패드/안드로이드 Metal GPU 와 Intel&ARM 맥북 AMD/Intel 및 NVidia GPU(윈도우/리눅스에서 Vulkan) NVidia GPU(윈도우/리눅스에서 CUDA) 브라우저의 WebGPU 원문 https://github.com/mlc-ai/mlc-llm 출처 / GeekNews https://news.hada.io/topic?id=9153

튜토리얼 예제

get-started: 가볍게 시작해볼 수 있는 예제
web-worker: Web-worker 지원 채팅 예제
simple-chat: 작은 규모의 완전한 채팅 앱

허깅페이스 데모 스페이스

web-llm-embed: transformers.js 임베딩과 함께 react-llm을 사용하는 문서 채팅 프로토타입 데모 스페이스

출처 / GeekNews

[GN] Web Stable Diffusion - 웹 브라우저에서 Stable Diffusion 실행하기