GeekNews의 xguru님께 허락을 받고 GN에 올라온 글들 중에 AI 관련된 소식들을 공유하고 있습니다.
소개
- 빠른 추론을 위해 심층 신경망을 CUDA(NVIDIA GPU) / HIP(AMD GPU) C++ 코드로 전환
- ResNet, BERT, VisionTransformer, Stable Diffusion 등 메어지 모델에서 루프라인 fp16 TensorCode/MatrixCore 성능에 근접
- Unified, Open, Flexible 한 오픈소스
- 훌륭한 하위호환성(써드파티 라이브러리/런타임 의존 없음). 각 모델이 포터블 바이너리로 컴파일
- Horizontal Fusion / Vertical Fusion / Memory Fusion
- Working w/wo PyTorch