Nvidia도 좋지만 앞으로 나올(이미 나온) 많은 TPU/NPU/GPU 들일 활용할 수 방법입니다. Triton을 활용한것 이라 재미있는 주제입니다.
이 블로그에서는 Meta의 Llama3-8B 및 IBM의 Granite-8B Code 와 같은 인기 있는 LLM 모델을 사용하여 FP16 추론을 달성하는 데 사용한 방법을 논의합니다. 여기서는 계산의 100% 가 OpenAI의 Triton Language를 사용하여 수행됩니다 . Triton 커널 기반 모델을 사용하여 단일 토큰을 생성하는 경우 Nvidia H100 GPU에서 Llama와 Granite 모두에 대해 CUDA 커널 우세 워크플로에 비해 0.76-0.78배 , Nvidia A100 GPU에서 0.62-0.82배의
성능에 접근할 수 있었습니다 .
100% Triton을 사용하는 이유는? Triton은 LLM이 NVIDIA, AMD, 그리고 앞으로 Intel 및 기타 GPU 기반 가속기 등 다양한 유형의 GPU에서 실행될 수 있는 경로를 제공합니다. 또한 GPU를 프로그래밍하기 위한 Python에서 더 높은 계층의 추상화를 제공하며 공급업체별 API를 사용하여 작성하는 것보다 더 빠르게 성능이 뛰어난 커널을 작성할 수 있게 해주었습니다. 이 블로그의 나머지 부분에서는 CUDA 없는 컴퓨팅을 달성하는 방법, 비교를 위한 개별 커널의 마이크로 벤치마크, 그리고 격차를 메우기 위해 미래의 Triton 커널을 더욱 개선할 수 있는 방법에 대해 논의합니다. (Google번역)