토큰 병렬 학습도 있는데 재밌네요. 노드 수가 늘어나면 커뮤니케이션 오버헤드가 더 클것 같지만, GPU가 아쉬운 상황에서는 어떻게든 대규모 토큰을 학습할 수 있는 것 같습니다.
주 논문을 다시 봐야겠지만 가능하다면 추론시에도 응용볼 수 있는 방법일 것 같네요.
문득 chatGPT나 claude, gemini의 성능 낮은 모델들 추론할때도 연산량 낮은 GPU들이나 재활용하는 GPU들을 이런식으로 엮어서 쓰는건 아닌가 하는 생각이 들었습니다.
토큰 병렬 학습도 있는데 재밌네요. 노드 수가 늘어나면 커뮤니케이션 오버헤드가 더 클것 같지만, GPU가 아쉬운 상황에서는 어떻게든 대규모 토큰을 학습할 수 있는 것 같습니다.
주 논문을 다시 봐야겠지만 가능하다면 추론시에도 응용볼 수 있는 방법일 것 같네요.
문득 chatGPT나 claude, gemini의 성능 낮은 모델들 추론할때도 연산량 낮은 GPU들이나 재활용하는 GPU들을 이런식으로 엮어서 쓰는건 아닌가 하는 생각이 들었습니다.