Club-3090 프로젝트 소개
소비자용 GPU인 RTX 3090으로 대규모 언어 모델(Large Language Model, LLM)을 서빙하려는 시도는 매력적이지만 실제로 해보면 수많은 장벽에 부딪힙니다. 메모리 최적화, 엔진 설정, 모델 양자화, 멀티 GPU 구성 등 각 환경마다 최적의 설정이 다르기 때문에 시행착오에 많은 시간이 소요됩니다. club-3090은 바로 이 문제를 커뮤니티 협업으로 해결하려는 프로젝트입니다. RTX 3090 환경에서 LLM을 서빙하기 위한 실전 설정과 레시피를 체계적으로 모아둔 오픈소스 저장소로, 개인 개발자와 소규모 팀이 고가의 데이터센터 GPU 없이도 최신 모델을 운영할 수 있도록 돕습니다.
이 프로젝트의 핵심은 멀티 엔진 지원입니다. vLLM, llama.cpp, SGLang 세 가지 주요 LLM 추론 엔진을 모두 지원하며, 각 엔진의 특성에 맞는 최적화된 설정 파일을 제공합니다. vLLM은 높은 처리량(throughput)과 PagedAttention 기반의 효율적인 KV 캐시 관리로 API 서버 용도에 적합하고, llama.cpp는 양자화된 모델의 CPU/GPU 혼합 추론에 강점이 있으며, SGLang은 복잡한 프롬프트 패턴과 구조화된 출력을 다룰 때 유리합니다. club-3090은 이 세 엔진을 RTX 3090 환경에서 어떻게 구성하는지 실전 경험을 바탕으로 정리해두었습니다.
현재 club-3090이 중점적으로 제공하는 설정은 Qwen3.6-27B 모델을 위한 것입니다. RTX 3090 1장(24GB VRAM) 환경과 2장 환경 모두에 대한 설정을 별도로 제공하여, 보유한 GPU 구성에 따라 바로 적용할 수 있습니다. Apache-2.0 라이선스로 공개되어 있어 커뮤니티 기여도 활발하게 진행되고 있으며, 모델-하드웨어 조합이 늘어날수록 레시피 풀이 확장되는 구조입니다.
club-3090의 지원 엔진 비교
club-3090이 지원하는 세 엔진은 각각 다른 사용 사례에 적합합니다.
| 엔진 | 주요 특징 | 최적 사용 시나리오 | 메모리 효율 |
|---|---|---|---|
| vLLM | PagedAttention, 고처리량 배치 | API 서버, 동시 요청 처리 | ★★★ |
| llama.cpp | GGUF 양자화, CPU+GPU 혼합 | 저사양 환경, 단일 사용자 | ★★★★ |
| SGLang | 구조화 출력, RadixAttention | 복잡한 프롬프트 체인 | ★★★ |
각 엔진의 설치 방법부터 RTX 3090 특화 설정까지 club-3090 저장소에 체계적으로 정리되어 있습니다.
club-3090의 Qwen3.6-27B 설정 구조
현재 저장소에서 제공하는 Qwen3.6-27B 설정은 RTX-3090 GPU 1장 및 2장 환경을 모두 커버합니다. vLLM 기준 기본 설정 예시는 다음과 같습니다:
# RTX 3090 1장 환경 - Qwen3.6-27B vLLM 서빙
vllm serve Qwen/Qwen3.6-27B \
--quantization awq \
--max-model-len 8192 \
--gpu-memory-utilization 0.92 \
--dtype float16
# RTX 3090 2장 환경 - tensor parallelism 활용
vllm serve Qwen/Qwen3.6-27B \
--tensor-parallel-size 2 \
--max-model-len 16384 \
--gpu-memory-utilization 0.90
llama.cpp 기반으로 GGUF 양자화 모델을 실행하는 경우:
# Q4_K_M 양자화 모델로 메모리 절약
./llama-server \
-m Qwen3.6-27B-Q4_K_M.gguf \
-ngl 48 \
--host 0.0.0.0 \
--port 8080 \
-c 4096
SGLang의 경우 OpenAI 호환 API 서버로 실행할 수 있습니다:
python -m sglang.launch_server \
--model-path Qwen/Qwen3.6-27B \
--port 30000 \
--quantization awq
Club-3090 프로젝트 설치 및 시작하기
저장소를 클론하고 원하는 엔진의 레시피를 적용하면 됩니다:
git clone https://github.com/noonghunna/club-3090.git
cd club-3090
# 원하는 모델/엔진 조합의 디렉토리로 이동
# 예: vLLM + Qwen3.6-27B
ls configs/
각 엔진의 설치는 공식 가이드를 따르되, club-3090의 설정 파일을 그대로 적용하면 RTX 3090 최적화된 설정으로 바로 서빙을 시작할 수 있습니다.
# vLLM 설치
pip install vllm
# llama.cpp 빌드 (CUDA 지원)
cmake -DGGML_CUDA=ON ..
make -j8
# SGLang 설치
pip install sglang[all]
라이선스
Club-3090 프로젝트는 Apache-2.0 라이선스로 공개되어 있어 개인 및 상업적 목적으로 자유롭게 사용하고 수정할 수 있습니다.
Club-3090 GitHub 저장소
더 읽어보기
이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. ![]()
파이토치 한국 사용자 모임
이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일
로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)
아래
쪽에 좋아요
를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~ ![]()

