[GN] Web LLM - Llama2 7B/13B 지원 시작

GeekNewsxguru님께 허락을 받고 GN에 올라온 글들 중에 AI 관련된 소식들을 공유하고 있습니다. :smiley_cat:


소개

  • Web LLM은 서버 없이 브라우저에서 직접 실행하는 MLC LLM의 컴패니언 프로젝트
  • 웹 브라우저에서 Llama, RedPajama, Vicuna 같은 LLM을 WASM으로 구동하는 서비스
  • WebGPU를 사용하여 가속 기능 사용 가능 (Chrome 113+에서만 지원) webgpu
    • Llama-7B, Vicuna-7B 실행을 위해서는 약 6GB의 VRAM 사용이 가능한 GPU 필요 llama
    • RedPajama-3B 실행을 위해서는 약 3GB의 VRAM 사용이 가능한 GPU 필요 redpajama

원문

demo

홈페이지

https://webllm.mlc.ai/

사용해 볼 수 있는 데모

사용해 볼 수 있는 모델:

  • Llama-2-7b-chat-hf-q4f32_1
  • Llama-2-13b-chat-hf-q4f32_1
  • Llama-2-7b-chat-hf-q4f16_1
  • Llama-2-13b-chat-hf-q4f16_1
  • Llama-2-70b-chat-hf-q4f16_1
  • RedPajama-INCITE-Chat-3B-v1-q4f32_0
  • RedPajama-INCITE-Chat-3B-v1-q4f16_0
  • Vicuna-v1-7b-q4f32_0

https://webllm.mlc.ai/#chat-demo

GitHub 저장소

MLC LLM 프로젝트 소개 mlc-llm

튜토리얼 예제

:hugs: 허깅페이스 데모 스페이스

  • web-llm-embed: transformers.js 임베딩과 함께 react-llm을 사용하는 문서 채팅 프로토타입 데모 스페이스

출처 / GeekNews