Club-3090: RTX 3090 GPU에서 vLLM, llama.cpp, SGLang으로 LLM을 서빙하는 커뮤니티 레시피 모음

Club-3090 프로젝트 소개

소비자용 GPU인 RTX 3090으로 대규모 언어 모델(Large Language Model, LLM)을 서빙하려는 시도는 매력적이지만 실제로 해보면 수많은 장벽에 부딪힙니다. 메모리 최적화, 엔진 설정, 모델 양자화, 멀티 GPU 구성 등 각 환경마다 최적의 설정이 다르기 때문에 시행착오에 많은 시간이 소요됩니다. club-3090은 바로 이 문제를 커뮤니티 협업으로 해결하려는 프로젝트입니다. RTX 3090 환경에서 LLM을 서빙하기 위한 실전 설정과 레시피를 체계적으로 모아둔 오픈소스 저장소로, 개인 개발자와 소규모 팀이 고가의 데이터센터 GPU 없이도 최신 모델을 운영할 수 있도록 돕습니다.

이 프로젝트의 핵심은 멀티 엔진 지원입니다. vLLM, llama.cpp, SGLang 세 가지 주요 LLM 추론 엔진을 모두 지원하며, 각 엔진의 특성에 맞는 최적화된 설정 파일을 제공합니다. vLLM은 높은 처리량(throughput)과 PagedAttention 기반의 효율적인 KV 캐시 관리로 API 서버 용도에 적합하고, llama.cpp는 양자화된 모델의 CPU/GPU 혼합 추론에 강점이 있으며, SGLang은 복잡한 프롬프트 패턴과 구조화된 출력을 다룰 때 유리합니다. club-3090은 이 세 엔진을 RTX 3090 환경에서 어떻게 구성하는지 실전 경험을 바탕으로 정리해두었습니다.

현재 club-3090이 중점적으로 제공하는 설정은 Qwen3.6-27B 모델을 위한 것입니다. RTX 3090 1장(24GB VRAM) 환경과 2장 환경 모두에 대한 설정을 별도로 제공하여, 보유한 GPU 구성에 따라 바로 적용할 수 있습니다. Apache-2.0 라이선스로 공개되어 있어 커뮤니티 기여도 활발하게 진행되고 있으며, 모델-하드웨어 조합이 늘어날수록 레시피 풀이 확장되는 구조입니다.

club-3090의 지원 엔진 비교

club-3090이 지원하는 세 엔진은 각각 다른 사용 사례에 적합합니다.

엔진 주요 특징 최적 사용 시나리오 메모리 효율
vLLM PagedAttention, 고처리량 배치 API 서버, 동시 요청 처리 ★★★
llama.cpp GGUF 양자화, CPU+GPU 혼합 저사양 환경, 단일 사용자 ★★★★
SGLang 구조화 출력, RadixAttention 복잡한 프롬프트 체인 ★★★

각 엔진의 설치 방법부터 RTX 3090 특화 설정까지 club-3090 저장소에 체계적으로 정리되어 있습니다.

club-3090의 Qwen3.6-27B 설정 구조

현재 저장소에서 제공하는 Qwen3.6-27B 설정은 RTX-3090 GPU 1장 및 2장 환경을 모두 커버합니다. vLLM 기준 기본 설정 예시는 다음과 같습니다:

# RTX 3090 1장 환경 - Qwen3.6-27B vLLM 서빙
vllm serve Qwen/Qwen3.6-27B \
  --quantization awq \
  --max-model-len 8192 \
  --gpu-memory-utilization 0.92 \
  --dtype float16

# RTX 3090 2장 환경 - tensor parallelism 활용
vllm serve Qwen/Qwen3.6-27B \
  --tensor-parallel-size 2 \
  --max-model-len 16384 \
  --gpu-memory-utilization 0.90

llama.cpp 기반으로 GGUF 양자화 모델을 실행하는 경우:

# Q4_K_M 양자화 모델로 메모리 절약
./llama-server \
  -m Qwen3.6-27B-Q4_K_M.gguf \
  -ngl 48 \
  --host 0.0.0.0 \
  --port 8080 \
  -c 4096

SGLang의 경우 OpenAI 호환 API 서버로 실행할 수 있습니다:

python -m sglang.launch_server \
  --model-path Qwen/Qwen3.6-27B \
  --port 30000 \
  --quantization awq

Club-3090 프로젝트 설치 및 시작하기

저장소를 클론하고 원하는 엔진의 레시피를 적용하면 됩니다:

git clone https://github.com/noonghunna/club-3090.git
cd club-3090

# 원하는 모델/엔진 조합의 디렉토리로 이동
# 예: vLLM + Qwen3.6-27B
ls configs/

각 엔진의 설치는 공식 가이드를 따르되, club-3090의 설정 파일을 그대로 적용하면 RTX 3090 최적화된 설정으로 바로 서빙을 시작할 수 있습니다.

# vLLM 설치
pip install vllm

# llama.cpp 빌드 (CUDA 지원)
cmake -DGGML_CUDA=ON ..
make -j8

# SGLang 설치
pip install sglang[all]

라이선스

Club-3090 프로젝트는 Apache-2.0 라이선스로 공개되어 있어 개인 및 상업적 목적으로 자유롭게 사용하고 수정할 수 있습니다.

:github: Club-3090 GitHub 저장소

더 읽어보기




이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. :hugs:

:pytorch:파이토치 한국 사용자 모임:south_korea:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:wrapped_gift: 아래:down_right_arrow:쪽에 좋아요:+1:를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~ :star_struck: