|
Mooncake: Kimi를 떠받치는 KVCache 중심 분리형 LLM 서빙 플랫폼
|
|
0
|
139
|
6월 30, 2026
|
|
MOSS-TTS-Local-Transformer-v1.5, 로컬 서빙에 최적화된 48kHz 스트리밍 TTS 모델 (feat. SGLang-Omni)
|
|
0
|
173
|
6월 22, 2026
|
|
Club-3090: RTX 3090 GPU에서 vLLM, llama.cpp, SGLang으로 LLM을 서빙하는 커뮤니티 레시피 모음
|
|
0
|
332
|
5월 4, 2026
|
|
Xiaomi, 1.02T 파라미터 오픈소스 MoE 추론 모델 MiMo-v2.5 및 MiMo-v2.5-Pro 출시
|
|
1
|
332
|
5월 1, 2026
|
|
DFlash: 블록 확산(Block Diffusion) 기반으로 LLM 추론 속도를 높이는 오픈소스 라이브러리 (feat. Z.ai)
|
|
0
|
676
|
4월 24, 2026
|
|
Mini-SGLang: SGLang의 핵심을 담은 경량화 고성능 LLM 추론 프레임워크
|
|
0
|
1300
|
12월 18, 2025
|
|
TileRT: LLM의 연산을 Tile 단위 작업으로 분해하여 실행하는 초저지연(Ultra-Low Latency) 런타임
|
|
0
|
317
|
11월 26, 2025
|
|
RadixAttention과 SGLang을 활용한 LLM 프로그래밍 혁신 (feat. LMSYS)
|
|
0
|
3126
|
1월 20, 2024
|