NVIDIA, GTC 2024에서 새로운 GPU 아키텍처 Blackwell 발표 외

9bow · 3월 19, 2024, 10:31오후

NVIDIA가 GTC 2024에서 새로운 GPU 아키텍처인 Blackwell을 공개했습니다. Blackwell B200 GPU는 놀라운 성능을 제공하여 AI 개발의 새로운 장을 열 것으로 기대됩니다. 이는 AI 연구와 개발에 있어 더 빠르고 효율적인 모델 훈련을 가능하게 해, NVIDIA의 시장 리더십을 강화할 것으로 보입니다.

소개

이번 GTC 2024에서 NVIDIA의 Blackwell 아키텍처와 B200/B100 가속기에 대한 발표는 AI 가속기 시장에서의 리더십을 이어가려는 NVIDIA의 노력을 보여줍니다. Hopper H100/H200/GH200 시리즈가 이미 인기를 끌고 있는 가운데, 다음 세대 가속기 아키텍처인 Blackwell이 2024년 후반에 출시될 예정입니다.

Blackwell 아키텍처의 주요 특징

성능의 대폭 향상: Blackwell B100 AI GPU는 Hopper H200 GPU에 비해 2배 이상의 AI 성능을 제공할 예정입니다. 이는 GPT-3 175B 추론 성능 벤치마크에서 확인할 수 있습니다.
TSMC 4NP 공정: Blackwell GPU는 TSMC의 4NP 공정을 사용하여 제작됩니다. 이는 4N 공정에 비해 성능이 향상된 버전으로, NVIDIA가 3nm급 노드 대신 이를 선택했습니다.
칩렛 디자인의 도입: Blackwell은 NVIDIA의 플래그십 가속기에서 칩렛 방식을 도입한 첫 사례로, B200 모듈에는 단일 패키지에 두 개의 GPU 다이가 포함됩니다.
메모리와 대역폭의 증가: 각 다이는 4개의 HBM3E 메모리 스택과 함께 제공되어, 총 8개의 스택을 통해 최대 192GB의 HBM3E 메모리와 8TB/초의 메모리 대역폭을 제공합니다.
에너지 효율성: Blackwell GPU는 클러스터 수준에서 H100에 비해 4배의 훈련 성능 및 30배의 추론 성능 향상을 목표로 하면서, 25배 더 높은 에너지 효율성을 제공합니다.

Blackwell 기반 GPU 모델들

GB200 (Grace Blackwell Superchip): 두 개의 Blackwell GPU와 72코어 Grace CPU가 포함된 GB200은 최고의 Blackwell GPU를 제공합니다. 이 구성은 최대 20 PFLOPS의 sparse FP4 연산 성능을 제공합니다.
B200: 1000W의 TDP를 가진 독립형 가속기로, 기존 H100 시스템과 호환되지 않습니다.
B100: 700W의 TDP를 가진 가속기로, 기존 H100 시스템과 교체가 가능합니다.

	HGX B200	HGX B100
GPUs	HGX B200 8-GPU	HGX B100 8-GPU
Form factor	8x NVIDIA B200 SXM	8x NVIDIA B100 SXM
HPC and AI compute (FP64/TF32/FP16/FP8/FP4)*	320TF/18PF/36PF/72PF/144PF	240TF/14PF/28PF/56PF/112PF
Memory	Up to 1.4TB	Up to 1.4TB
NVIDIA NVLink	Fifth generation	Fifth generation
NVIDIA NVSwitch™	Fourth generation	Fourth generation
NVSwitch GPU-to-GPU bandwidth	1.8TB/s	1.8TB/s
Total aggregate bandwidth	14.4TB/s	14.4TB/s

기술적 혁신

두 번째 세대 Transformer Engine: Blackwell은 FP4 및 FP6 정밀도를 처리할 수 있는 두 번째 세대 Transformer Engine을 도입합니다. 이는 메모리 사용량을 줄이고 처리량을 높이는 데 도움이 됩니다.
NVLink 5: GPU 간의 상호 연결 대역폭을 이전 세대의 900GB/초에서 1800GB/초로 두 배 증가시킵니다.

NVIDIA의 B200을 탑재한, 고성능 컴퓨팅(HPC) 솔루션 DGX B200의 성능 비교

Blackwell은 기존의 H100 GPU와 비교했을 때, 놀라운 성능 향상을 제공합니다. 특히 LLM 추론 작업에서의 성능은 H100 대비 최대 30배 향상되었으며, AI 모델 훈련 속도도 4배 빨라졌습니다. 이러한 성능 향상은 AI 분야의 발전 속도를 가속화할 것으로 기대됩니다.

더 읽어보기

NVIDIA의 Blackwell 아키텍처 소개

Blackwell GPU 제품군 소개

B100 & B200 소개

GB200 제품 소개

이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있으니 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.

파이토치 한국 사용자 모임이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

아래쪽에 좋아요를 눌러주시면 힘이 됩니다~