이번 프로젝트에서는 AMD에서 제공해주신 vLLM(very Large Language Model Serving) 환경을 활용했습니다. vLLM은 대규모 언어 모델을 GPU/CPU 메모리에 효율적으로 로드하고, 고속 추론을 지원하는 서버 환경으로, 대규모 파라미터 모델의 대량 병렬 처리와 낮은 응답 지연이 가능했습니다
저는 기존에 CUDA 기반 NVIDIA 환경에서만 LLM을 구동해 본 경험이 있었기 때문에, AMD GPU 기반 환경에서 호환성과 성능이 충분할지 우려가 있었습니다. 하지만 AMD 환경에서 Hugging Face 모델 로드 및 추론이 큰 무리 없이 원활하게 진행되었고, Mistral, LLaMA, Qwen 등 다양한 모델을 동시에 로드하여 병렬 추론을 수행할 수 있었습니다
특히 좋았던 점은 다음과 같습니다.
1.대규모 모델 병렬 구동 가능
-여러 개의 7B~14B급 모델을 동시에 올려, 수천 건의 실험을 빠르게 생성·분석할 수 있었습니다.
-대규모 RAM이 확보되어 있어 모델 로딩 이후에도 여유 리소스를 활용할 수 있었습니다.
2.빠르고 안정적인 추론 성능
-CUDA 환경에 비해 초기 로딩 속도는 약간 느릴 수 있으나, 한 번 로딩된 이후의 병렬 추론 성능은 충분히 안정적이었고 대량 배치 처리에 적합했습니다.
3.개발 환경 세팅 용이성
-SSH 및 Docker 기반으로 제공되어 초기 환경 세팅 시간이 거의 들지 않았습니다.
-모델 실행, 데이터 저장, 코드 배포 등 워크플로우를 일관되게 구성할 수 있었습니다.
4.Hugging Face 호환성
-기존 PyTorch/CUDA 코드에서 모델 로드 부분을 거의 수정 없이 AMD ROCm 환경에서도 활용할 수 있었습니다.
또한, 이번 기간 동안 자동화 실험을 진행하며 수천 개의 Good/Bad 조합별 시나리오를 빠른 시간 안에 생성하고, LLM을 통한 분류 작업까지 마칠 수 있었습니다.
다만 아쉬운 점은, 시간 제약으로 인해
-모델의 어텐션 가중치 분석
-생성 확률 기반 토큰별 분석(LogProbs)
-PEFT 실험
등의 심화 연구까지는 진행하지 못했다는 점입니다. 환경이 조금만 더 제공된다면, 이 부분까지 확장 실험을 해보고 싶습니다.
AMD vLLM 환경은 고성능 LLM 실험을 빠르게 시작하고 확장할 수 있는 안정적인 플랫폼이었고, 이번 프로젝트를 통해 성능과 호환성을 직접 체감할 수 있었습니다. 향후에도 이 플랫폼을 적극적으로 활용하여 보다 심화된 AI 실험을 진행하고 싶습니다