파이토치를 사용하여 Self-Supervised Learning을 공부하고있는 학생입니다. 다름이 아니라 저희 서버에서 A100 GPU를 3장사용하여 학습시킬 때보다 로컬에서 3090 한장으로 학습시킬 때가 더 빠른데 왜 이런걸까요? nvidia-smi로 사용상태를 보면 A100 3장 전부 돌아가는 것 같습니다. 차이점은 서버는 배치사이즈가 256이고 로컬은 128입니다만 iteration이 아닌 1epoch자체가 시간차이가 많이 나네요.
여러가지 원인이 있을 수 있어서 확인할 부분 몇가지만 말씀 드리겠습니다.
특별한 내용은 없지만 도움이 되셨으면 좋겠네요
와우 A100… 부럽네요
답글 감사합니다.