|
TileRT: LLM의 연산을 Tile 단위 작업으로 분해하여 실행하는 초저지연(Ultra-Low Latency) 런타임
|
|
0
|
192
|
11월 26, 2025
|
|
FlashTensors: 단일 GPU 환경에서 다수의 모델을 빠르게 바꿔가며 운용할 수 있도록 하는 추론 엔진
|
|
0
|
368
|
11월 10, 2025
|
|
HAIF(Hyperswarm-RPC AI Inference Framework): MSA 구조로 AI 추론 작업을 분산처리하도록 설계된 프레임워크
|
|
0
|
196
|
10월 14, 2025
|
|
vLLM Semantic Router: 지능형 LLM 라우팅을 위한 차세대 아키텍처
|
|
0
|
1265
|
9월 24, 2025
|
|
Lemonade: 로컬 GPU 및 NPU에서 구동되는 오픈소스 / 고성능 LLM 추론 서버 (feat. AMD)
|
|
0
|
736
|
8월 20, 2025
|
|
Nano-vLLM: 처음부터 다시 구현한, 1200줄 가량의 경량 vLLM 구현체
|
|
0
|
664
|
6월 24, 2025
|
|
Tokasaurus: 고처리량 LLM 배치 추론을 위한 최적화 엔진 (feat. Stanford Scaling Intelligence Lab)
|
|
0
|
254
|
6월 9, 2025
|
|
DeepSeek-V3/R1 추론 시스템 개요 공개 (feat. DeepSeek OpenInfra)
|
|
0
|
613
|
3월 2, 2025
|
|
Cake: 대규모 모델 분산 추론 프레임워크 (feat. Rust)
|
|
0
|
175
|
7월 16, 2024
|
|
Groq, 18배 가량 빠른 LLM 추론 성능을 보이는 LPU(Language Processing Unit) 추론 엔진공개
|
|
1
|
2148
|
3월 13, 2024
|
|
Groq의 LPU를 경제적 관점에서 분석 및 NVIDIA와 비교한 글 (feat. SemiAnalysis)
|
|
0
|
1043
|
2월 24, 2024
|
|
gemma.cpp: Gemma 모델의 빠른 실행을 위한 C++ 추론 엔진 (by Google)
|
|
1
|
1088
|
2월 22, 2024
|
|
Intel GPU에서의 효율적인 LLM 추론 방법에 대한 연구 소개 (feat. Intel)
|
|
0
|
805
|
1월 22, 2024
|
|
[GN] Microsoft (Long)LLMLingua - 추론 가속 및 비용 절감을 위해 프롬프트 압축하기
|
|
0
|
474
|
12월 22, 2023
|
|
(인텔 플랫폼에서) 더 빠른 Transformer를 위한 Intel Extension 공개
|
|
0
|
611
|
12월 7, 2023
|