vllm 에 rust frontend 로 전처리 성능 향상

출처 : https://x.com/vllm_project/status/2059344804295942513

Rust 프론트엔드가 vLLM에 공식적으로 병합되었습니다.

GPU가 빨라질수록 프론트엔드가 CPU 시간의 상당 부분을 차지하게 되었습니다. 새로운 Rust 프론트엔드는 Python API 서버의 대체재로 사용할 수 있습니다 — 동일한 엔진, 동일한 ZMQ 경계. VLLM_USE_RUST_FRONTEND=1로 설정하여 사용하세요.

초기 수치: 전처리 중심 워크로드에서 ~837 req/s 대 ~162 req/s (기본 Python 기준) — 단일 프로세스에서 약 5배 향상.

흥미로운 몇 가지 설계 선택:
• 명확한 경계를 가진 계층화된 크레이트
• 스트림 중심 파이프라인 — 비스트리밍은 무료
• 안정적인 Rust 기반 빌드

관련 RFC PR [RFC]: Rust front-end · Issue #40846 · vllm-project/vllm · GitHub

관련 구현 PR https://github.com/vllm-project/vllm/pull/40848

아직 관련 문서나 공식 벤치마크는 확인을 못했습니다.