[GN] NVIDIA, LLM 추론을 가속하는 TensorRT-LLM 오픈소스 공개

9bow · 9월 13, 2023, 2:00오전

GeekNews의 xguru님께 허락을 받고 GN에 올라온 글들 중에 AI 관련된 소식들을 공유하고 있습니다.

소개

TensorRT 딥러닝 컴파일러와 최적화된 커널, 전처리/후처리 단계, 멀티GPU/멀티노드 통신 기본요소 등을 포함
C++ 이나 CUDA에 대한 깊은 지식 없이도 LLM에 최고 성능과 사용자 정의 기능을 빠르게 제공 가능
오픈소스 모듈식 Python API를 제공하여 사용 편의성과 확장성 제공
Ampere, Lovelace, Hopper GPU 지원
H100 기반으로 TensorRT-LLM을 적용하여 테스트 했을 때
- GTP-J-6B 는 추론 성능 8배 향상, TCO 5.3배 감소, 에너지 소비량 5.6배 감소
  
  GPT-J-6B A100 compared to H100 with and without TensorRT-LLM832×666 19 KB
- Llama2 70B 는 추론 성능 4.6배 향상, TCO 3배 감소, 에너지 소비량 3.2배 감소
  
  Llama 2 70B, A100 compared to H100 with and without TensorRT-LLM832×666 18.4 KB
In-flight Batching 이라 불리는 최적화된 스케줄링 기술 포함
TensorRT-LLM이 탑재된 NVIDIA H100 GPU는 사용자에게 모델 가중치를 새로운 FP8 형식으로 쉽게 변환하고 모델을 컴파일하여 최적화된 FP8 커널을 자동으로 활용할 수 있는 기능을 제공
- Hopper Transformer 엔진 기술을 통해 가능하며, 모델 코드를 변경할 필요 없음
현재 얼리억세스 가능하며, 몇주내로 출시할 예정

더 읽어보기

GeekNews의 xguru님께 허락을 받고 GN에 올라온 글들 중에 AI 관련된 소식들을 공유하고 있습니다. 소개 Nvidia가 10년간 GPU 성능을 1000배 올리게 만든 4가지 요소 Chief Scientist인 Bill Dally가 IEEE Hot Chips 2023 키노트에서 한장의 슬라이드로 설명 [image] Number Representation: 16배 "대체로 우리가 얻은 가장 큰 이점은 숫자 표현이 향상된 것" 이 숫자들은 신경망의 주요 매개변수를 의미함 이 매개변수중 하나는 가중치(Weights)이고, 또 다른 매개변수는 활성화(Activations) 가중치: 모델의 뉴런간 연결 강도 활성화: 뉴런에서 가중치가 적용된 입력의 합을 곱하여 활성화 여부를 결정하고 다음 레이어로 정보를 전파하는 것 P100 이전의 Nvidia GPU는 이런 가중치를 단정밀도 부동 소수점(single precision floating-poin…

원문

출처 / GeekNews

[TLDR] 오늘의 AI 뉴스, 2023-09-11: NVIDIA의 더 빨라진 LLM 추론 엔진

, Imbue, 2억 달러 투자 유치

, 브라우저에서의 딥 러닝

읽을거리&정보공유

파이토치 한국 사용자 모임에서는 TLDR 뉴스레터 의 승인을 받아 AI 소식을 DeepL로 번역 하여 전합니다. 더 많은 AI 소식 및 정보를 공유하고 함께 성장하고 싶으신가요? 지금 파이토치 한국어 커뮤니티에 방문해주세요! [TLDR-AI 뉴스 레터 썸네일] 주요 뉴스 & 신규 출시 소식 / Headlines & Launches NVIDIA, LLM을 위한 더 빠른 추론 엔진 TensorRT-LLM 출시 / NVIDIA launches a faster inference engine for LLMs (6 minute read) 현재의 AI 경쟁이 시작될 당시에는 훈련 비용이 추론의 주를 이루었습니다. 더 많은 사람들이 언어 모델을 프로덕션에 배포함에 따라 추론 비용은 빠르게 증가할 수 있습니다. TensorRT는 오랫동안 속도를 위해 사용되어 왔습니다. 이제 H100의 언어 모델 전용 버전이 출시되었습니다. Trai…