주제에 llm-inference 태그가 달렸습니다

글	댓글	조회수	활동
Mini-SGLang: SGLang의 핵심을 담은 경량화 고성능 LLM 추론 프레임워크 읽을거리&정보공유 llm-framework , llm-inference , sglang , inference-framework , llm-inference-serving , mini-sglang	0	360	12월 18, 2025
TileRT: LLM의 연산을 Tile 단위 작업으로 분해하여 실행하는 초저지연(Ultra-Low Latency) 런타임 읽을거리&정보공유 llm-inference , vllm , sglang , inference-framework , tilert , tilelang , tilescale , tile-ai	0	255	11월 26, 2025
FlashTensors: 단일 GPU 환경에서 다수의 모델을 빠르게 바꿔가며 운용할 수 있도록 하는 추론 엔진 읽을거리&정보공유 safetensors , llm-inference , inference-framework , flashtensors , llm-hotswap	0	400	11월 10, 2025
HAIF(Hyperswarm-RPC AI Inference Framework): MSA 구조로 AI 추론 작업을 분산처리하도록 설계된 프레임워크 읽을거리&정보공유 llm-inference , inference-framework , llm-inference-serving , haif , hyperswarm-rpc-ai-inference-framework	0	201	10월 14, 2025
vLLM Semantic Router: 지능형 LLM 라우팅을 위한 차세대 아키텍처 읽을거리&정보공유 semantic-kernel , llm-inference , vllm , llm-inference-serving , llm-router , vllm-semantic-router , semantic-caching	0	1504	9월 24, 2025
Lemonade: 로컬 GPU 및 NPU에서 구동되는 오픈소스 / 고성능 LLM 추론 서버 (feat. AMD) 읽을거리&정보공유 amd-gpu , amd , llm-inference , local-llm , lemonade , amd-npu	0	912	8월 20, 2025
Nano-vLLM: 처음부터 다시 구현한, 1200줄 가량의 경량 vLLM 구현체 읽을거리&정보공유 llm-inference , vllm , llm-inference-serving , nano-vllm	0	738	6월 24, 2025
Tokasaurus: 고처리량 LLM 배치 추론을 위한 최적화 엔진 (feat. Stanford Scaling Intelligence Lab) 읽을거리&정보공유 llm-inference , tokasaurus , inference-optimizing , inference-framework , batch-inference , hydragen	0	275	6월 9, 2025
DeepSeek-V3/R1 추론 시스템 개요 공개 (feat. DeepSeek OpenInfra) 읽을거리&정보공유 llm-inference , deepseek , inference-cost , deepseek-r1 , deepseek-v3	0	633	3월 2, 2025
Cake: 대규모 모델 분산 추론 프레임워크 (feat. Rust) 읽을거리&정보공유 rust , llm-framework , candle , llm-inference , gpl-3 , cake	0	185	7월 16, 2024
Groq, 18배 가량 빠른 LLM 추론 성능을 보이는 LPU(Language Processing Unit) 추론 엔진공개 읽을거리&정보공유 tpu , llm-inference , groq , lpu , language-processing-unit , llama2-inference , llmperf , llmperf-leaderboard	1	2189	3월 13, 2024
Groq의 LPU를 경제적 관점에서 분석 및 NVIDIA와 비교한 글 (feat. SemiAnalysis) 읽을거리&정보공유 nvidia , llm-inference , mixtral , groq , lpu , semianalysis , throughput-vs-price	0	1166	2월 24, 2024
gemma.cpp: Gemma 모델의 빠른 실행을 위한 C++ 추론 엔진 (by Google) 읽을거리&정보공유 google , ggml , llm-framework , cpp , llm-applications , llm-inference , gemma , gemma-cpp , gemma-inference , llama-c , llama-rs	1	1105	2월 22, 2024
Intel GPU에서의 효율적인 LLM 추론 방법에 대한 연구 소개 (feat. Intel) 읽을거리&정보공유 intel , paper , llm-inference , intel-gpu , segment-kv-cache , customized-sdpa-kernel	0	821	1월 22, 2024
[GN] Microsoft (Long)LLMLingua - 추론 가속 및 비용 절감을 위해 프롬프트 압축하기 읽을거리&정보공유 geeknews , prompt , microsoft , llm-in-production , llm-inference , llmlingua , longllmlingua	0	480	12월 22, 2023
(인텔 플랫폼에서) 더 빠른 Transformer를 위한 Intel Extension 공개 읽을거리&정보공유 intel , transformer , intel-extension-for-transforme , model-compression-for-llms , int4-inference , int8-inference , cpu , neuralchat , llm-inference , dlsa	0	623	12월 7, 2023

Mini-SGLang: SGLang의 핵심을 담은 경량화 고성능 LLM 추론 프레임워크

읽을거리&정보공유

llm-framework , llm-inference , sglang , inference-framework , llm-inference-serving , mini-sglang

0

360

12월 18, 2025

TileRT: LLM의 연산을 Tile 단위 작업으로 분해하여 실행하는 초저지연(Ultra-Low Latency) 런타임

읽을거리&정보공유

llm-inference , vllm , sglang , inference-framework , tilert , tilelang , tilescale , tile-ai

0

255

11월 26, 2025

FlashTensors: 단일 GPU 환경에서 다수의 모델을 빠르게 바꿔가며 운용할 수 있도록 하는 추론 엔진

읽을거리&정보공유

safetensors , llm-inference , inference-framework , flashtensors , llm-hotswap

0

400

11월 10, 2025

HAIF(Hyperswarm-RPC AI Inference Framework): MSA 구조로 AI 추론 작업을 분산처리하도록 설계된 프레임워크

읽을거리&정보공유

llm-inference , inference-framework , llm-inference-serving , haif , hyperswarm-rpc-ai-inference-framework

0

201

10월 14, 2025

vLLM Semantic Router: 지능형 LLM 라우팅을 위한 차세대 아키텍처

읽을거리&정보공유

semantic-kernel , llm-inference , vllm , llm-inference-serving , llm-router , vllm-semantic-router , semantic-caching

0

1504

9월 24, 2025

Lemonade: 로컬 GPU 및 NPU에서 구동되는 오픈소스 / 고성능 LLM 추론 서버 (feat. AMD)

읽을거리&정보공유

amd-gpu , amd , llm-inference , local-llm , lemonade , amd-npu

0

912

8월 20, 2025

Nano-vLLM: 처음부터 다시 구현한, 1200줄 가량의 경량 vLLM 구현체

읽을거리&정보공유

llm-inference , vllm , llm-inference-serving , nano-vllm

0

738

6월 24, 2025

Tokasaurus: 고처리량 LLM 배치 추론을 위한 최적화 엔진 (feat. Stanford Scaling Intelligence Lab)

읽을거리&정보공유

llm-inference , tokasaurus , inference-optimizing , inference-framework , batch-inference , hydragen

0

275

6월 9, 2025

DeepSeek-V3/R1 추론 시스템 개요 공개 (feat. DeepSeek OpenInfra)

읽을거리&정보공유

llm-inference , deepseek , inference-cost , deepseek-r1 , deepseek-v3

0

633

3월 2, 2025

Cake: 대규모 모델 분산 추론 프레임워크 (feat. Rust)

읽을거리&정보공유

rust , llm-framework , candle , llm-inference , gpl-3 , cake

0

185

7월 16, 2024

Groq, 18배 가량 빠른 LLM 추론 성능을 보이는 LPU(Language Processing Unit) 추론 엔진공개

읽을거리&정보공유

tpu , llm-inference , groq , lpu , language-processing-unit , llama2-inference , llmperf , llmperf-leaderboard

1

2189

3월 13, 2024

Groq의 LPU를 경제적 관점에서 분석 및 NVIDIA와 비교한 글 (feat. SemiAnalysis)

읽을거리&정보공유

nvidia , llm-inference , mixtral , groq , lpu , semianalysis , throughput-vs-price

0

1166

2월 24, 2024

gemma.cpp: Gemma 모델의 빠른 실행을 위한 C++ 추론 엔진 (by Google)

읽을거리&정보공유

google , ggml , llm-framework , cpp , llm-applications , llm-inference , gemma , gemma-cpp , gemma-inference , llama-c , llama-rs

1

1105

2월 22, 2024

Intel GPU에서의 효율적인 LLM 추론 방법에 대한 연구 소개 (feat. Intel)

읽을거리&정보공유

intel , paper , llm-inference , intel-gpu , segment-kv-cache , customized-sdpa-kernel

0

821

1월 22, 2024

[GN] Microsoft (Long)LLMLingua - 추론 가속 및 비용 절감을 위해 프롬프트 압축하기

읽을거리&정보공유

geeknews , prompt , microsoft , llm-in-production , llm-inference , llmlingua , longllmlingua

0

480

12월 22, 2023

(인텔 플랫폼에서) 더 빠른 Transformer를 위한 Intel Extension 공개

읽을거리&정보공유

intel , transformer , intel-extension-for-transforme , model-compression-for-llms , int4-inference , int8-inference , cpu , neuralchat , llm-inference , dlsa

0

623

12월 7, 2023