yoonsu님께서 답글을 남겨주셔서 뒤늦게 저도 보게 되었네요. 검색을 통해 발견하시게 되는 분들이 계실 것 같아 저도 답글을 남깁니다. (앞서 답글 남겨주신 @yoonsu 님 감사합니다 )
PyTorch를 비롯하여 대부분의 딥러닝 프레임워크들은 다차원의 실수(real number)들을 빠르게 연산하기 위해 GPU를 필요로 합니다. NVIDIA의 GPU들은 CUDA가, AMD의 GPU들은 ROCm이 GPU를 활용하여 빠르게 연산을 할 수 있는 기능을 지원하고 있습니다.
이러한 GPU가 없는 경우에는 CPU를 사용하셔야 하며, 학습 및 추론 속도가 GPU를 사용하는 것에 비해 대단히 느립니다. (일부 최신 Intel CPU를 사용하고 계신 경우에는 CPU 차원에서 다차원의 실수 연산을 빠르게 하기 위한 ipex라는 이름의 추가 기능을 지원하고 있으며, 이에 대한 내용은 Intel® Extension for PyTorch* — PyTorch Tutorials 2.3.0+cu121 documentation 이나 ipex-llm: Intel CPU 및 GPU에서 로컬 LLM의 추론 및 미세 조정을 위한 PyTorch LLM 라이브러리 등과 같은 글을 참고해주세요.)
예외적으로 Apple이 직접 제작한 M1, M2 등과 같은 칩(Apple Silicon)의 경우에는 CUDA나 ROCm과 같은 류의 Apple이 제공하는 Metal Programming Framework를 활용하여 PyTorch에서 빠르게 연산을 할 수 있습니다. 이에 대한 내용은 MPS backend — PyTorch 2.3 documentation 문서를 참고해주세요. 그 외에, Apple이 직접 공개한 MLX 프레임워크를 사용하시는 것도 방법입니다.
말씀하신 경우처럼 Intel CPU를 사용하고 계시다면 Intel의 CPU 및 GPU를 위한 GitHub - intel/intel-extension-for-pytorch: A Python package for extending the official PyTorch that can easily obtain performance on Intel platform 을 사용해보시는 것도 방법일 것 같습니다. (정확히 어떠한 모델을 사용하고 계신지는 모르겠지만, AVX-512 지원은 가능할 것 같습니다.) 하지만 속도가 기대하시는 것만큼 빠르지는 못할 듯 하니, Google Colab이나 클라우드 GPU를 사용하시는 것이 나으실 것 같습니다.