Meta, 차세대 학습 및 추론 가속기 MTIAv2 공개

9bow · 4월 10, 2024, 4:14오후

PyTorchKR

Meta에서 자체 개발한 AI 추론 가속기인 MTIA(Meta Training and Inference Accelerator)v1의 차세대 버전인 MTIAv2에 대한 상세 정보를 공개했습니다. MTIAv1 대비 성능이 크게 향상되었다고 하는데요, Meta의 랭킹 및 추천 광고 모델에 활용된다고 합니다. AI 인프라에 대한 Meta의 투자가 계속 증가하고 있는 가운데, 앞으로 제품과 서비스 전반에 걸쳐 새롭고 개선된 경험을 제공하는데 기여할 것으로 보입니다. 함께 살펴보시죠!

Our next-generation Meta Training and Inference Accelerator

소개

Meta가 지난 해 공개한, 자체 개발한 AI 추론 가속기인 MTIA(Meta Training and Inference Accelerator) v1의 차세대 버전 MTIAv2를 공개하였습니다. MTIA는 Meta의 AI 워크로드, 특히 제품 전반에 걸쳐 다양한 경험을 개선하는 딥러닝 추천 모델을 위해 설계된 칩입니다. AI 워크로드가 Meta의 제품과 서비스에서 점점 더 중요해짐에 따라, MTIA의 효율성 향상은 전 세계 사용자들에게 최상의 경험을 제공하는 능력을 개선시킬 것으로 보입니다.

이 차세대 MTIAv2 칩은 4개의 주요 모델에서 1세대 칩 대비 성능이 이미 3배 향상된 것으로 나타났습니다. 플랫폼 수준에서는 2배의 디바이스 수와 강력한 2소켓 CPU를 통해 1세대 MTIA 시스템 대비 6배의 모델 서빙 처리량과 1.5배의 성능/와트 향상을 달성할 수 있었습니다. 상용 GPU와 비교했을 때, Meta 고유의 워크로드에 대해 최적의 성능과 효율성을 제공하는 데 있어 MTIA가 매우 상호 보완적인 역할을 하는 것으로 입증되고 있습니다.

MTIAv2의 주요 특징 및 1세대 MTIA와의 비교

MTIAv2의 주요 특징은 다음과 같습니다:

이전 세대 대비 컴퓨팅 성능과 메모리 대역폭이 2배 이상 향상
랭킹 및 추천 모델을 효율적으로 처리하도록 설계
8x8 그리드의 처리 요소(PE)로 구성, 밀집 컴퓨팅 성능 3.5배, 희소 컴퓨팅 성능 7배 개선
로컬 PE 스토리지 3배, 온칩 SRAM 2배 및 대역폭 3.5배 증가, LPDDR5 용량 2배
개선된 NoC(Network on Chip) 아키텍처로 대역폭 2배, 낮은 지연 시간으로 PE 간 조정 가능

1세대 MTIA 칩과의 성능은 다음과 같이 비교할 수 있습니다:

Metric	MTIAv1	Next Gen MTIA(MTIAv2)
Technology	TSMC 7nm	TSMC 5nm
Frequency	800MHz	1.35GHz
Instances	1.12B gates, 65M flops	2.35B gates, 103M flops
Area	19.34mm x 19.1mm, 373mm²	25.6mm x 16.4mm, 421mm²
Package	43mm x 43mm	50mm x 40mm
Voltage	0.67V logic, 0.75V memory	0.85V
TDP	25W	90W
Host Connection	8x PCIe Gen4 (16 GB/s)	8x PCIe Gen5 (32 GB/s)
GEMM TOPS	102.4 TFLOPS/s (INT8)	708 TFLOPS/s (INT8) (sparsity)
	51.2 TFLOPS/s (FP16/BF16)	354 TFLOPS/s (INT8)
		354 TFLOPS/s (FP16/BF16) (sparsity)
		177 TFLOPS/s (FP16/BF16)
SIMD TOPS	Vector core:	Vector core:
	3.2 TFLOPS/s (INT8)	11.06 TFLOPS/s (INT8)
	1.6 TFLOPS/s (FP16/BF16)	5.53 TFLOPS/s (FP16/BF16)
	0.8 TFLOPS/s (FP32)	2.76 TFLOPS/s (FP32)
	SIMD:	SIMD:
	3.2 TFLOPS/s (INT8/FP16/BF16)	5.53 TFLOPS/s (INT8/FP16/BF16)
	1.6 TFLOPS/s (FP32)	2.76 TFLOPS/s (FP32)
Memory Capacity	Local memory: 128 KB per PE	Local memory: 384 KB per PE
	On-chip memory: 128 MB	On-chip memory: 256 MB
	Off-chip LPDDR5: 64 GB	Off-chip LPDDR5: 128 GB
Memory Bandwidth	Local memory: 400 GB/s per PE	Local memory: 1 TB/s per PE
	On-chip memory: 800 GB/s	On-chip memory: 2.7 TB/s
	Off-chip LPDDR5: 176 GB/s	Off-chip LPDDR5: 204.8 GB/s

구성 및 동작 방식

새로운 MTIA 설계는 대역폭을 두 배로 늘리고 짧은 지연 시간으로 여러 PE 간에 조율할 수 있는 향상된 네트워크 온 칩(NoC) 아키텍처를 특징으로 합니다. 이러한 PE의 새로운 기능과 기타 새로운 기능은 MTIA를 더욱 다양하고 까다로운 워크로드로 확장하기 위한 장기 로드맵에 필수적인 핵심 기술을 형성합니다.

MTIA는 Meta의 고유한 워크로드와 시스템을 다루는 맞춤형 도메인 특화 실리콘을 위한 풀스택 개발 프로그램의 일부입니다. 하드웨어 시스템과 소프트웨어 스택을 실리콘과 함께 공동 설계하는 것이 전반적인 추론 솔루션의 성공에 필수적입니다.

차세대 실리콘을 지원하기 위해 최대 72개의 가속기를 수용하는 대형 랙 기반 시스템을 개발했습니다. 소프트웨어 스택은 PyTorch 2.0 및 TorchDynamo, TorchInductor와 같은 기능과 완전히 통합되도록 설계되었습니다.

Triton-MTIA 컴파일러 백엔드를 통해 소프트웨어 스택을 더욱 최적화했는데, 이는 MTIA 하드웨어를 위한 고성능 코드를 생성합니다. Triton 언어가 MTIA와 같은 비GPU 하드웨어 아키텍처에도 적용 가능할 만큼 하드웨어에 구애받지 않는다는 것을 발견했습니다.

더 읽어보기

Meta의 차세대 MTIA 공개 글

Triton 관련 글

https://openai.com/blog/triton/

이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.

파이토치 한국 사용자 모임이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

아래쪽에 좋아요를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~