파이토치 한국 사용자 모임
llama2-inference
글
댓글
조회수
활동
Groq, 18배 가량 빠른 LLM 추론 성능을 보이는 LPU(Language Processing Unit) 추론 엔진공개
읽을거리&정보공유
tpu
,
llama2-inference
,
llm-inference
,
groq
,
lpu
,
language-processing-unit
,
llmperf
,
llmperf-leaderboard
1
1986
3월 13, 2024
속도와 파이썬, 두 마리 토끼 잡기: 딥러닝 시 빠른 파이썬 코드 실행을 위한 CUDA 그래프 사용법 (Speed, Python: Pick Two. How CUDA Graphs Enable Fast Python Code for Deep Learning)
읽을거리&정보공유
pytorch
,
torch-compile
,
fireworks-ai
,
cuda-graph
,
llama2-inference
,
cpu-gpu-overlap
,
gpu-optimization
,
cpu-overhead
,
torchdynamo
,
pagedattention
2
5352
9월 14, 2023