AMD vLLM 환경 사용 체험 후기

이번 프로젝트에서는 AMD에서 제공해주신 vLLM(very Large Language Model Serving) 환경을 활용했습니다. vLLM은 대규모 언어 모델을 GPU/CPU 메모리에 효율적으로 로드하고, 고속 추론을 지원하는 서버 환경으로, 대규모 파라미터 모델의 대량 병렬 처리와 낮은 응답 지연이 가능했습니다

저는 기존에 CUDA 기반 NVIDIA 환경에서만 LLM을 구동해 본 경험이 있었기 때문에, AMD GPU 기반 환경에서 호환성과 성능이 충분할지 우려가 있었습니다. 하지만 AMD 환경에서 Hugging Face 모델 로드 및 추론이 큰 무리 없이 원활하게 진행되었고, Mistral, LLaMA, Qwen 등 다양한 모델을 동시에 로드하여 병렬 추론을 수행할 수 있었습니다

특히 좋았던 점은 다음과 같습니다.

1.대규모 모델 병렬 구동 가능

-여러 개의 7B~14B급 모델을 동시에 올려, 수천 건의 실험을 빠르게 생성·분석할 수 있었습니다.

-대규모 RAM이 확보되어 있어 모델 로딩 이후에도 여유 리소스를 활용할 수 있었습니다.

2.빠르고 안정적인 추론 성능

-CUDA 환경에 비해 초기 로딩 속도는 약간 느릴 수 있으나, 한 번 로딩된 이후의 병렬 추론 성능은 충분히 안정적이었고 대량 배치 처리에 적합했습니다.

3.개발 환경 세팅 용이성

-SSH 및 Docker 기반으로 제공되어 초기 환경 세팅 시간이 거의 들지 않았습니다.

-모델 실행, 데이터 저장, 코드 배포 등 워크플로우를 일관되게 구성할 수 있었습니다.

4.Hugging Face 호환성

-기존 PyTorch/CUDA 코드에서 모델 로드 부분을 거의 수정 없이 AMD ROCm 환경에서도 활용할 수 있었습니다.

또한, 이번 기간 동안 자동화 실험을 진행하며 수천 개의 Good/Bad 조합별 시나리오를 빠른 시간 안에 생성하고, LLM을 통한 분류 작업까지 마칠 수 있었습니다.

다만 아쉬운 점은, 시간 제약으로 인해

-모델의 어텐션 가중치 분석

-생성 확률 기반 토큰별 분석(LogProbs)

-PEFT 실험

등의 심화 연구까지는 진행하지 못했다는 점입니다. 환경이 조금만 더 제공된다면, 이 부분까지 확장 실험을 해보고 싶습니다.

AMD vLLM 환경은 고성능 LLM 실험을 빠르게 시작하고 확장할 수 있는 안정적인 플랫폼이었고, 이번 프로젝트를 통해 성능과 호환성을 직접 체감할 수 있었습니다. 향후에도 이 플랫폼을 적극적으로 활용하여 보다 심화된 AI 실험을 진행하고 싶습니다

6개의 좋아요

안녕하세요 반갑습니다

이번 AMD vLLM 환경으로 대규모 병렬 구동까지 해보셨군요.

좋은 소감 감사하고,

앞으로도 더 빈번한 기회가 있을거 같습니다.

자주 오셔서 글도 써주시고 소식 남겨주세요