|
tiny-vllm: C++와 CUDA로 vLLM을 직접 구현하며 배우는 LLM 추론 엔진
|
|
0
|
3339
|
6월 1, 2026
|
|
mlxcel: 애플 실리콘에 최적화된 Rust 기반의 LLM/VLM 추론 런타임 및 서버 (feat. lablup)
|
|
0
|
211
|
5월 23, 2026
|
|
Orthrus: Dual-View 디퓨전 디코딩으로 LLM 추론을 가속하는 무손실 병렬 토큰 생성 프레임워크
|
|
0
|
163
|
5월 20, 2026
|
|
TokenSpeed: 에이전트형 워크로드를 위한 빠른 LLM 추론 엔진 (feat. Kimi K2.5, NVIDIA Blackwell)
|
|
0
|
201
|
5월 12, 2026
|
|
cider: Apple Silicon M5의 INT8 TensorOps로 LLM prefill 속도를 끌어올리는 MLX W8A8 추론 SDK
|
|
0
|
187
|
5월 11, 2026
|
|
Club-3090: RTX 3090 GPU에서 vLLM, llama.cpp, SGLang으로 LLM을 서빙하는 커뮤니티 레시피 모음
|
|
0
|
282
|
5월 4, 2026
|
|
DFlash: 블록 확산(Block Diffusion) 기반으로 LLM 추론 속도를 높이는 오픈소스 라이브러리 (feat. Z.ai)
|
|
0
|
585
|
4월 24, 2026
|
|
rvLLM: Rust로 처음부터 구현한 고성능 LLM 추론 엔진, vLLM 완전 대체제
|
|
1
|
6651
|
4월 3, 2026
|
|
flash-moe: 순수 C와 Metal로 구현한, M3 Max 맥북 프로에서 397B 파라미터 MoE 모델을 실행하는 고성능 추론 엔진
|
|
0
|
2298
|
3월 23, 2026
|
|
LLM 추론 엔진 이해하기: Nano-vLLM 내부 살펴보기 - 2부 (Understanding LLM Inference Engines: Inside Nano-vLLM (Part 2))
|
|
0
|
480
|
3월 3, 2026
|
|
LLM 추론 엔진 이해하기: Nano-vLLM 내부 살펴보기 - 1부 (Understanding LLM Inference Engines: Inside Nano-vLLM (Part 1))
|
|
0
|
1114
|
3월 3, 2026
|
|
Mini-SGLang: SGLang의 핵심을 담은 경량화 고성능 LLM 추론 프레임워크
|
|
0
|
1190
|
12월 18, 2025
|
|
TileRT: LLM의 연산을 Tile 단위 작업으로 분해하여 실행하는 초저지연(Ultra-Low Latency) 런타임
|
|
0
|
297
|
11월 26, 2025
|
|
FlashTensors: 단일 GPU 환경에서 다수의 모델을 빠르게 바꿔가며 운용할 수 있도록 하는 추론 엔진
|
|
0
|
437
|
11월 10, 2025
|
|
HAIF(Hyperswarm-RPC AI Inference Framework): MSA 구조로 AI 추론 작업을 분산처리하도록 설계된 프레임워크
|
|
0
|
207
|
10월 14, 2025
|
|
vLLM Semantic Router: 지능형 LLM 라우팅을 위한 차세대 아키텍처
|
|
0
|
1805
|
9월 24, 2025
|
|
Lemonade: 로컬 GPU 및 NPU에서 구동되는 오픈소스 / 고성능 LLM 추론 서버 (feat. AMD)
|
|
0
|
1467
|
8월 20, 2025
|
|
Nano-vLLM: 처음부터 다시 구현한, 1200줄 가량의 경량 vLLM 구현체
|
|
0
|
972
|
6월 24, 2025
|
|
Tokasaurus: 고처리량 LLM 배치 추론을 위한 최적화 엔진 (feat. Stanford Scaling Intelligence Lab)
|
|
0
|
299
|
6월 9, 2025
|
|
DeepSeek-V3/R1 추론 시스템 개요 공개 (feat. DeepSeek OpenInfra)
|
|
0
|
669
|
3월 2, 2025
|
|
Cake: 대규모 모델 분산 추론 프레임워크 (feat. Rust)
|
|
0
|
204
|
7월 16, 2024
|
|
Groq, 18배 가량 빠른 LLM 추론 성능을 보이는 LPU(Language Processing Unit) 추론 엔진공개
|
|
1
|
2260
|
3월 13, 2024
|
|
Groq의 LPU를 경제적 관점에서 분석 및 NVIDIA와 비교한 글 (feat. SemiAnalysis)
|
|
0
|
1323
|
2월 24, 2024
|
|
gemma.cpp: Gemma 모델의 빠른 실행을 위한 C++ 추론 엔진 (by Google)
|
|
1
|
1147
|
2월 22, 2024
|
|
Intel GPU에서의 효율적인 LLM 추론 방법에 대한 연구 소개 (feat. Intel)
|
|
0
|
873
|
1월 22, 2024
|
|
[GN] Microsoft (Long)LLMLingua - 추론 가속 및 비용 절감을 위해 프롬프트 압축하기
|
|
0
|
494
|
12월 22, 2023
|
|
(인텔 플랫폼에서) 더 빠른 Transformer를 위한 Intel Extension 공개
|
|
0
|
644
|
12월 7, 2023
|