파이토치 한국 사용자 모임에서 진행한 AMD Instinct™ MI300X GPU 무료 체험 이벤트를 통해
AMD GPU를 사용할 수 있는 좋은 기회를 얻게 되었습니다. 이를 기반으로 LLM RL Finetune(Multi-Task Agent)를 돌려보았습니다.
<TL;DR>
진짜 크고 빠른 압도적인 VRAM (192G): 100GiB+ 정도 되는 체크포인트 처리속도 정말 빠름
오픈소스 라이브러리들이 최근 AMD ROCm지원을 많이 해주고 있기에 개발에 용이
제공해주신 한정적 시간으로 인해 아쉬움 ![]()
LLM RL Finetune(DPO) - Multi-Task Agent
huggingface 라이브러리로 Describe, Explain, Plan and Select: Interactive Planning with Large Language Models Enables Open-World Multi-Task Agents을 해보았습니다.
Open World Agent 실험에 걸맞는 8 MI300X의 경우 VRAM이 1536G VRAM으로 특히나 큰 장점으로 다가옵니다.
70B 크기의 모델도 무난하게 multi node training 가능
처음 환경 세팅 시간이 거의 들지 않고, 세팅 이후
version mismatch나 ROCm 커널 관련 이슈를 겪었지만
큰 코드 수정 없이 AMD 환경에서 실험.
소감
체크포인트 로딩과 추론 속도가 진짜 빠르고, 192GB 라는 아주 큰 VRAM은 너무나도 큰 장점입니다.
이번 AMD MI300X 무료 체험 이벤트를 통해 고성능 GPU(HPC), 대규모 Multi Task LLM 실험을 진행할 수 있었습니다.
정말 좋은 플랫폼을 직접 사용할 수 있어 좋은 기회였고, 앞으로도 이런 기회가 있다면 적극적으로 참여해보고 싶은 마음이 들게 된 것 같습니다.