파이토치 한국 사용자 모임

llama2-inference

글		댓글	조회수	활동
Groq, 18배 가량 빠른 LLM 추론 성능을 보이는 LPU(Language Processing Unit) 추론 엔진공개 읽을거리&정보공유 tpu , llama2-inference , llm-inference , groq , lpu , language-processing-unit , llmperf , llmperf-leaderboard		1	2124	3월 13, 2024
속도와 파이썬, 두 마리 토끼 잡기: 딥러닝 시 빠른 파이썬 코드 실행을 위한 CUDA 그래프 사용법 (Speed, Python: Pick Two. How CUDA Graphs Enable Fast Python Code for Deep Learning) 읽을거리&정보공유 pytorch , torch-compile , fireworks-ai , cuda-graph , llama2-inference , cpu-gpu-overlap , gpu-optimization , cpu-overhead , torchdynamo , pagedattention		2	5964	9월 14, 2023