주제에 llm-inference 태그가 달렸습니다

글	댓글	조회수	활동
tiny-vllm: C++와 CUDA로 vLLM을 직접 구현하며 배우는 LLM 추론 엔진 읽을거리&정보공유 kv-cache , vllm , cuda , pagedattention , llm-inference , tiny-vllm , gqa	0	3339	6월 1, 2026
mlxcel: 애플 실리콘에 최적화된 Rust 기반의 LLM/VLM 추론 런타임 및 서버 (feat. lablup) 읽을거리&정보공유 vlm , apple-silicon , rust , lablup , mlx , llm-inference , mlxcel	0	211	5월 23, 2026
Orthrus: Dual-View 디퓨전 디코딩으로 LLM 추론을 가속하는 무손실 병렬 토큰 생성 프레임워크 읽을거리&정보공유 pytorch , diffusion-language-model , speculative-decoding , llm-inference , qwen3 , orthrus	0	163	5월 20, 2026
TokenSpeed: 에이전트형 워크로드를 위한 빠른 LLM 추론 엔진 (feat. Kimi K2.5, NVIDIA Blackwell) 읽을거리&정보공유 inference-engine , tensorrt-llm , llm-inference , blackwell , kimi-k2 , tokenspeed , mla-attention , agentic-workload	0	201	5월 12, 2026
cider: Apple Silicon M5의 INT8 TensorOps로 LLM prefill 속도를 끌어올리는 MLX W8A8 추론 SDK 읽을거리&정보공유 quantization , apple-silicon , w8a8 , mlx , llm-inference , metal , w4a8	0	187	5월 11, 2026
Club-3090: RTX 3090 GPU에서 vLLM, llama.cpp, SGLang으로 LLM을 서빙하는 커뮤니티 레시피 모음 읽을거리&정보공유 vllm , sglang , quantization , llm-serving , llama-cpp , rtx-3090 , llm-inference , llm-inference-serving , club-3090	0	282	5월 4, 2026
DFlash: 블록 확산(Block Diffusion) 기반으로 LLM 추론 속도를 높이는 오픈소스 라이브러리 (feat. Z.ai) 읽을거리&정보공유 vllm , speculative-decoding , transformers , sglang , llm-inference , block-diffusion	0	585	4월 24, 2026
rvLLM: Rust로 처음부터 구현한 고성능 LLM 추론 엔진, vLLM 완전 대체제 읽을거리&정보공유 vllm , rust , cuda , opensource , llm-inference , rvllm , high-performance	1	6651	4월 3, 2026
flash-moe: 순수 C와 Metal로 구현한, M3 Max 맥북 프로에서 397B 파라미터 MoE 모델을 실행하는 고성능 추론 엔진 읽을거리&정보공유 apple-silicon , mixture-of-experts , llm-inference , quantization , on-device-ai , metal , flash-moe	0	2298	3월 23, 2026
LLM 추론 엔진 이해하기: Nano-vLLM 내부 살펴보기 - 2부 (Understanding LLM Inference Engines: Inside Nano-vLLM (Part 2)) 읽을거리&정보공유 llm-inference , vllm , inference-framework , nano-vllm , neutree , arcfra	0	480	3월 3, 2026
LLM 추론 엔진 이해하기: Nano-vLLM 내부 살펴보기 - 1부 (Understanding LLM Inference Engines: Inside Nano-vLLM (Part 1)) 읽을거리&정보공유 llm-inference , vllm , inference-framework , nano-vllm , neutree , arcfra	0	1114	3월 3, 2026
Mini-SGLang: SGLang의 핵심을 담은 경량화 고성능 LLM 추론 프레임워크 읽을거리&정보공유 llm-framework , llm-inference , sglang , inference-framework , llm-inference-serving , mini-sglang	0	1190	12월 18, 2025
TileRT: LLM의 연산을 Tile 단위 작업으로 분해하여 실행하는 초저지연(Ultra-Low Latency) 런타임 읽을거리&정보공유 llm-inference , vllm , sglang , inference-framework , tilert , tilelang , tilescale , tile-ai	0	297	11월 26, 2025
FlashTensors: 단일 GPU 환경에서 다수의 모델을 빠르게 바꿔가며 운용할 수 있도록 하는 추론 엔진 읽을거리&정보공유 safetensors , llm-inference , inference-framework , flashtensors , llm-hotswap	0	437	11월 10, 2025
HAIF(Hyperswarm-RPC AI Inference Framework): MSA 구조로 AI 추론 작업을 분산처리하도록 설계된 프레임워크 읽을거리&정보공유 llm-inference , inference-framework , llm-inference-serving , haif , hyperswarm-rpc-ai-inference-framework	0	207	10월 14, 2025
vLLM Semantic Router: 지능형 LLM 라우팅을 위한 차세대 아키텍처 읽을거리&정보공유 semantic-kernel , llm-inference , vllm , llm-inference-serving , llm-router , vllm-semantic-router , semantic-caching	0	1805	9월 24, 2025
Lemonade: 로컬 GPU 및 NPU에서 구동되는 오픈소스 / 고성능 LLM 추론 서버 (feat. AMD) 읽을거리&정보공유 amd-gpu , amd , llm-inference , local-llm , lemonade , amd-npu	0	1467	8월 20, 2025
Nano-vLLM: 처음부터 다시 구현한, 1200줄 가량의 경량 vLLM 구현체 읽을거리&정보공유 llm-inference , vllm , llm-inference-serving , nano-vllm	0	972	6월 24, 2025
Tokasaurus: 고처리량 LLM 배치 추론을 위한 최적화 엔진 (feat. Stanford Scaling Intelligence Lab) 읽을거리&정보공유 llm-inference , tokasaurus , inference-optimizing , inference-framework , batch-inference , hydragen	0	299	6월 9, 2025
DeepSeek-V3/R1 추론 시스템 개요 공개 (feat. DeepSeek OpenInfra) 읽을거리&정보공유 llm-inference , deepseek , inference-cost , deepseek-r1 , deepseek-v3	0	669	3월 2, 2025
Cake: 대규모 모델 분산 추론 프레임워크 (feat. Rust) 읽을거리&정보공유 rust , llm-framework , candle , llm-inference , gpl-3 , cake	0	204	7월 16, 2024
Groq, 18배 가량 빠른 LLM 추론 성능을 보이는 LPU(Language Processing Unit) 추론 엔진공개 읽을거리&정보공유 tpu , llm-inference , groq , lpu , language-processing-unit , llama2-inference , llmperf , llmperf-leaderboard	1	2260	3월 13, 2024
Groq의 LPU를 경제적 관점에서 분석 및 NVIDIA와 비교한 글 (feat. SemiAnalysis) 읽을거리&정보공유 nvidia , llm-inference , mixtral , groq , lpu , semianalysis , throughput-vs-price	0	1323	2월 24, 2024
gemma.cpp: Gemma 모델의 빠른 실행을 위한 C++ 추론 엔진 (by Google) 읽을거리&정보공유 google , ggml , llm-framework , cpp , llm-applications , llm-inference , gemma , gemma-cpp , gemma-inference , llama-c , llama-rs	1	1147	2월 22, 2024
Intel GPU에서의 효율적인 LLM 추론 방법에 대한 연구 소개 (feat. Intel) 읽을거리&정보공유 intel , paper , llm-inference , intel-gpu , segment-kv-cache , customized-sdpa-kernel	0	873	1월 22, 2024
[GN] Microsoft (Long)LLMLingua - 추론 가속 및 비용 절감을 위해 프롬프트 압축하기 읽을거리&정보공유 geeknews , prompt , microsoft , llm-in-production , llm-inference , llmlingua , longllmlingua	0	494	12월 22, 2023
(인텔 플랫폼에서) 더 빠른 Transformer를 위한 Intel Extension 공개 읽을거리&정보공유 intel , transformer , intel-extension-for-transforme , model-compression-for-llms , int4-inference , int8-inference , cpu , neuralchat , llm-inference , dlsa	0	644	12월 7, 2023

tiny-vllm: C++와 CUDA로 vLLM을 직접 구현하며 배우는 LLM 추론 엔진

읽을거리&정보공유

kv-cache , vllm , cuda , pagedattention , llm-inference , tiny-vllm , gqa

0

3339

6월 1, 2026

mlxcel: 애플 실리콘에 최적화된 Rust 기반의 LLM/VLM 추론 런타임 및 서버 (feat. lablup)

읽을거리&정보공유

vlm , apple-silicon , rust , lablup , mlx , llm-inference , mlxcel

0

211

5월 23, 2026

Orthrus: Dual-View 디퓨전 디코딩으로 LLM 추론을 가속하는 무손실 병렬 토큰 생성 프레임워크

읽을거리&정보공유

pytorch , diffusion-language-model , speculative-decoding , llm-inference , qwen3 , orthrus

0

163

5월 20, 2026

TokenSpeed: 에이전트형 워크로드를 위한 빠른 LLM 추론 엔진 (feat. Kimi K2.5, NVIDIA Blackwell)

읽을거리&정보공유

inference-engine , tensorrt-llm , llm-inference , blackwell , kimi-k2 , tokenspeed , mla-attention , agentic-workload

0

201

5월 12, 2026

cider: Apple Silicon M5의 INT8 TensorOps로 LLM prefill 속도를 끌어올리는 MLX W8A8 추론 SDK

읽을거리&정보공유

quantization , apple-silicon , w8a8 , mlx , llm-inference , metal , w4a8

0

187

5월 11, 2026

Club-3090: RTX 3090 GPU에서 vLLM, llama.cpp, SGLang으로 LLM을 서빙하는 커뮤니티 레시피 모음

읽을거리&정보공유

vllm , sglang , quantization , llm-serving , llama-cpp , rtx-3090 , llm-inference , llm-inference-serving , club-3090

0

282

5월 4, 2026

DFlash: 블록 확산(Block Diffusion) 기반으로 LLM 추론 속도를 높이는 오픈소스 라이브러리 (feat. Z.ai)

읽을거리&정보공유

vllm , speculative-decoding , transformers , sglang , llm-inference , block-diffusion

0

585

4월 24, 2026

rvLLM: Rust로 처음부터 구현한 고성능 LLM 추론 엔진, vLLM 완전 대체제

읽을거리&정보공유

vllm , rust , cuda , opensource , llm-inference , rvllm , high-performance

1

6651

4월 3, 2026

flash-moe: 순수 C와 Metal로 구현한, M3 Max 맥북 프로에서 397B 파라미터 MoE 모델을 실행하는 고성능 추론 엔진

읽을거리&정보공유

apple-silicon , mixture-of-experts , llm-inference , quantization , on-device-ai , metal , flash-moe

0

2298

3월 23, 2026

LLM 추론 엔진 이해하기: Nano-vLLM 내부 살펴보기 - 2부 (Understanding LLM Inference Engines: Inside Nano-vLLM (Part 2))

읽을거리&정보공유

llm-inference , vllm , inference-framework , nano-vllm , neutree , arcfra

0

480

3월 3, 2026

LLM 추론 엔진 이해하기: Nano-vLLM 내부 살펴보기 - 1부 (Understanding LLM Inference Engines: Inside Nano-vLLM (Part 1))

읽을거리&정보공유

llm-inference , vllm , inference-framework , nano-vllm , neutree , arcfra

0

1114

3월 3, 2026

Mini-SGLang: SGLang의 핵심을 담은 경량화 고성능 LLM 추론 프레임워크

읽을거리&정보공유

llm-framework , llm-inference , sglang , inference-framework , llm-inference-serving , mini-sglang

0

1190

12월 18, 2025

TileRT: LLM의 연산을 Tile 단위 작업으로 분해하여 실행하는 초저지연(Ultra-Low Latency) 런타임

읽을거리&정보공유

llm-inference , vllm , sglang , inference-framework , tilert , tilelang , tilescale , tile-ai

0

297

11월 26, 2025

FlashTensors: 단일 GPU 환경에서 다수의 모델을 빠르게 바꿔가며 운용할 수 있도록 하는 추론 엔진

읽을거리&정보공유

safetensors , llm-inference , inference-framework , flashtensors , llm-hotswap

0

437

11월 10, 2025

HAIF(Hyperswarm-RPC AI Inference Framework): MSA 구조로 AI 추론 작업을 분산처리하도록 설계된 프레임워크

읽을거리&정보공유

llm-inference , inference-framework , llm-inference-serving , haif , hyperswarm-rpc-ai-inference-framework

0

207

10월 14, 2025

vLLM Semantic Router: 지능형 LLM 라우팅을 위한 차세대 아키텍처

읽을거리&정보공유

semantic-kernel , llm-inference , vllm , llm-inference-serving , llm-router , vllm-semantic-router , semantic-caching

0

1805

9월 24, 2025

Lemonade: 로컬 GPU 및 NPU에서 구동되는 오픈소스 / 고성능 LLM 추론 서버 (feat. AMD)

읽을거리&정보공유

amd-gpu , amd , llm-inference , local-llm , lemonade , amd-npu

0

1467

8월 20, 2025

Nano-vLLM: 처음부터 다시 구현한, 1200줄 가량의 경량 vLLM 구현체

읽을거리&정보공유

llm-inference , vllm , llm-inference-serving , nano-vllm

0

972

6월 24, 2025

Tokasaurus: 고처리량 LLM 배치 추론을 위한 최적화 엔진 (feat. Stanford Scaling Intelligence Lab)

읽을거리&정보공유

llm-inference , tokasaurus , inference-optimizing , inference-framework , batch-inference , hydragen

0

299

6월 9, 2025

DeepSeek-V3/R1 추론 시스템 개요 공개 (feat. DeepSeek OpenInfra)

읽을거리&정보공유

llm-inference , deepseek , inference-cost , deepseek-r1 , deepseek-v3

0

669

3월 2, 2025

Cake: 대규모 모델 분산 추론 프레임워크 (feat. Rust)

읽을거리&정보공유

rust , llm-framework , candle , llm-inference , gpl-3 , cake

0

204

7월 16, 2024

Groq, 18배 가량 빠른 LLM 추론 성능을 보이는 LPU(Language Processing Unit) 추론 엔진공개

읽을거리&정보공유

tpu , llm-inference , groq , lpu , language-processing-unit , llama2-inference , llmperf , llmperf-leaderboard

1

2260

3월 13, 2024

Groq의 LPU를 경제적 관점에서 분석 및 NVIDIA와 비교한 글 (feat. SemiAnalysis)

읽을거리&정보공유

nvidia , llm-inference , mixtral , groq , lpu , semianalysis , throughput-vs-price

0

1323

2월 24, 2024

gemma.cpp: Gemma 모델의 빠른 실행을 위한 C++ 추론 엔진 (by Google)

읽을거리&정보공유

google , ggml , llm-framework , cpp , llm-applications , llm-inference , gemma , gemma-cpp , gemma-inference , llama-c , llama-rs

1

1147

2월 22, 2024

Intel GPU에서의 효율적인 LLM 추론 방법에 대한 연구 소개 (feat. Intel)

읽을거리&정보공유

intel , paper , llm-inference , intel-gpu , segment-kv-cache , customized-sdpa-kernel

0

873

1월 22, 2024

[GN] Microsoft (Long)LLMLingua - 추론 가속 및 비용 절감을 위해 프롬프트 압축하기

읽을거리&정보공유

geeknews , prompt , microsoft , llm-in-production , llm-inference , llmlingua , longllmlingua

0

494

12월 22, 2023

(인텔 플랫폼에서) 더 빠른 Transformer를 위한 Intel Extension 공개

읽을거리&정보공유

intel , transformer , intel-extension-for-transforme , model-compression-for-llms , int4-inference , int8-inference , cpu , neuralchat , llm-inference , dlsa

0

644

12월 7, 2023