워런티가 종료된 GPU 리뉴얼 작업을 통해 성능을 회복한 AI서버 창정비 사례를 공유합니다.

GPU 오버홀 리포트 v1.3.pdf (987.6 KB)

위 사례는 서버 1대당 RTX3090 10장을 최대치로 장착해서 사용 중인 3대의 AI서비스서버에 대한 창정비 과정 및 재배치 전략 수립 및 실행으로 성능을 회복하고 GPU의 수명을 연장한 사례집입니다.

사실 구리스 및 써멀패드 등 냉각 시스템은 1년에 1회 이상 재정비하는 것이 반드시 필요하지만

워런티를 이유로 분해해서 재정비 하는 것이 쉽지 않죠.

AI서비스 서버로 사용되는 3대의 서버가 구리스 탄화 및 써멀패드 이격 등의 이유로 급기야 쓰로틀링(과열로 인한 GPU 정지) 상태로 자동전환되며 서비스가 정지되는 사태가 발생하였습니다.

AI서비스 기업의 내부에는 대부분 AI SW 개발자만 있고, 하드웨어 유지보수에는 전문가가 없는 경우가 대부분이지요.

해당 서버를 차례차례 창정비를 수행하고, 전원과 추론SW(서비스SW) 배치등에 대한 전략까지 진행했던 구체적인 사례를 소개드립니다.

첨부한 GPU 오버홀 리포트를 보시면 기술적으로 참고가 되실 것 같습니다. ^^

궁금하신 점 있으시면 댓글 달아주시면 답변 드릴께요~ ^^

1개의 좋아요