PyTorch 2.7이 출시되었습니다 🎉 (CUDA 12.8, Blackwell GPU, Mega Cache 등)

9bow · 4월 24, 2025, 1:37오전

PyTorch 2.7 소개

PyTorch가 드디어 2.7 버전을 발표했습니다. 이번 버전은 새로운 NVIDIA Blackwell 아키텍처 지원, CUDA 12.8 대응, 모델 캐싱 기능(Mega Cache), FlexAttention의 향상 등 대규모 업데이트가 포함되어 있습니다.

NVIDIA의 최신 Blackwell GPU 아키텍처를 정식 지원하며, CUDA 12.8 기반 휠도 기본 제공됩니다. 여기에 torch.compile에서 사용자 정의 연산을 삽입할 수 있는 Torch Function Modes, 컴파일된 모델의 캐시를 재사용할 수 있는 Mega Cache 기능까지 추가되며, 컴파일 기반 워크플로우에 대한 유연성과 확장성을 크게 높였습니다.

또한 FlexAttention의 개선을 통해 x86 CPU에서 LLM 추론 성능을 최적화하고, Intel GPU를 위한 최적화도 강화되어 다양한 하드웨어에서의 호환성과 성능 향상이 이루어졌습니다. 개발자 입장에서 유의미한 실험과 테스트가 가능하도록 다양한 베타 및 프로토타입 기능도 함께 포함되어 있어, 실험적인 기능을 원하는 사용자에게도 적합한 버전입니다.

PyTorch 2.7의 주요 기능 정리

NVIDIA Blackwell GPU 지원 : 최신 GPU 아키텍처에 대응.
CUDA 12.8 지원 휠 제공: Linux x86/arm64 아키텍처 지원.
Torch Function Modes (Beta): 모든 torch. 연산을 사용자 정의 방식으로 오버라이드 가능.
Mega Cache (Beta): 컴파일된 모델의 캐시를 다른 시스템에서도 재사용 가능.
FlexAttention 업그레이드 :
- LLM 첫 토큰 처리 최적화
- LLM 처리량 최적화 (x86 CPU 대상)
- 추론 최적화 백엔드 포함
Intel GPU 최적화 :
- Windows/Linux에서 torch.compile 활성화
- Post-Training Quantization 최적화
- bfloat16, float16 기반 attention 가속
Foreach Map (Prototype): 리스트 형태의 텐서에 사용자 정의 연산을 적용할 수 있는 새로운 방식
Prologue Fusion (Prototype): matmul 연산 전 연산을 커널로 통합하여 메모리 대역폭 절감

PyTorch 2.7 출시 블로그

PyTorch 2.7 릴리즈 노트

이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.

파이토치 한국 사용자 모임이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

아래쪽에 좋아요를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~