Hugging face의 Transformers v5 소개
Hugging Face의 대표적인 오픈소스 라이브러리인 Transformers가 드디어 버전 5(Transformers v5)를 공개했습니다. 2020년 11월 v4.0.0rc-1이 처음 릴리스된 이후 5년 만의 대규모 버전업입니다. 현재 Transformers는 하루 300만 회 이상 설치되고 있으며, 누적 설치 횟수는 12억 회를 돌파했습니다. v4 당시 40개에 불과하던 모델 아키텍처가 이제는 400개 이상으로 늘었고, 커뮤니티에서 공유된 모델 체크포인트는 1,000개 수준에서 75만 개 이상으로 성장했습니다.
이러한 폭발적인 확장은 단순히 AI 기술 발전 때문만이 아니라, Hugging Face가 AI 모델 정의의 표준화된 중심으로 자리 잡았기 때문입니다. Transformers는 LLM(대형 언어 모델)뿐만 아니라 음성, 이미지, 멀티모달 모델의 핵심 백엔드로 사용되며, llama.cpp, MLX, vLLM, SGLang, TensorRT 등 다양한 프레임워크와 호환성을 유지하고 있습니다.
이번 v5의 주요 테마는 단순화(Simplicity), 학습(Training), 추론(Inference), 배포(Production) 이며, 모든 리팩토링과 개선은 상호운용성(interoperability) 이라는 하나의 키워드로 연결됩니다.
이번 Transformers v5는 PyTorch를 단일 백엔드로 채택하면서도, JAX나 TensorFlow 생태계와의 호환성을 완전히 끊지 않았습니다. 특히 ONNXRuntime, llama.cpp, MLX 등과의 긴밀한 협업을 통해 모델 변환 및 추론 환경의 통합을 강화했습니다.
vLLM, SGLang 등 추론 엔진은 Transformers의 모델 정의를 직접 활용하여 고속 배치 및 효율적 커널 실행을 지원합니다. 이로써 한 번 학습한 모델을 여러 엔진에서 그대로 활용할 수 있는 완벽한 상호운용 구조가 실현되었습니다.
Transformers v5의 주요 특징
Simplicity: 단순함의 철학
Transformers 팀은 이번 버전에서 코드 단순화를 최우선 목표로 삼았습니다.
모델 정의는 AI 생태계의 기반이므로, “코드가 곧 제품”이라는 관점을 유지하면서 모든 모델 통합 과정을 재설계했습니다.
이를 위해, 먼저 기존 “모델 하나, 파일 하나” 방식은 유지하면서도, 공통 기능을 인터페이스로 분리하는 모듈형 구조(Modular Approach)의 접근방식을 취했습니다. 예를 들어, 새로운 AttentionInterface는 다양한 어텐션 메서드(FA1/2/3, FlexAttention, SDPA 등)를 표준화하여 모델 간의 일관성을 높였습니다.
이로써 신규 모델 추가 시 필요한 코드 라인이 대폭 줄었고, 유지보수가 훨씬 간결해졌습니다.
또한, Transformers v5에서는 새로운 모델 구조를 분석해 기존 모델과의 유사성을 파악하는 모델 자동 변환 툴링(tooling) 을 도입했습니다. 이를 통해 머신러닝 기반 코드 유사도 분석을 통해, 새로운 모델을 자동으로 변환해 draft PR로 생성하는 기능을 제공할 예정입니다.
Code Reduction: 코드 경량화와 표준화
Transformers v5에서는 모델 파일과 토크나이저 파일이 대규모로 정리되었습니다. 토크나이저는 이제 tokenizers 백엔드만 지원하며, “Fast”/“Slow” 구분은 사라졌습니다.
또한, TensorFlow/Flax 지원을 종료하고 PyTorch 전용 구조로 전환했습니다. 이는 PyTorch 재단과의 협업을 통해 최적화된 성능을 보장하기 위함입니다.
Training: 학습 및 미세조정
Transformers v5는 단순한 파인튜닝 도구를 넘어 대규모 사전학습(pre-training) 지원을 강화했습니다. 이제 torchtitan, megatron, nanotron 같은 대규모 분산 학습 프레임워크와의 통합이 쉬워졌습니다.
또한 Unsloth, Axolotl, LlamaFactory, TRL 등을 비롯한 PyTorch 생태계의 다른 파인튜닝 도구들과 완전 호환되며, JAX 생태계의 MaxText와도 협업을 진행 중입니다.
모든 파인튜닝 및 사후학습 도구들은 이제 모델 정의 시에 transformers를 활용할 수 있습니다. 이는 OpenEnv 및 Prime Environment Hub를 통해 에이전트 기반 사용 사례를 더욱 가능하게 합니다.
즉, 모델 학습-미세조정-배포 전 과정을 하나의 정의 체계로 통합 한 셈입니다.
Inference: 추론과 서빙의 진화
추론 측면에서 transformers v5는 전용 커널 도입, 더 간결한 기본 설정, 새로운 API, 그리고 최적화된 추론 엔진 지원 등을 새롭게 도입하였습니다. 학습 시와 마찬가지로 추론 시에도 하드웨어를 비롯한 환경이 지원하는 경우 자동으로 사용할 수 있도록 kernels 패키징 지원도 강화하였습니다. kernels와 관련해서는 관련 문서를 더 참고해주세요.
이제 transformers serve와 같은 방식으로 OpenAI API 호환 서버를 바로 실행할 수 있게 되었습니다. 이제 사용자는 자체 서버에서 OpenAI API 형식으로 모델을 호출할 수 있으며, 연속 배치(continuous batching) 및 paged attention도 지원됩니다.
또한, vLLM이나 SGLang 등 최적화 엔진과 완전한 호환성을 갖추어, 고성능 추론 환경을 쉽게 구축할 수 있습니다.
Production & Local: 배포 및 로컬 환경 통합
Hugging Face는 ONNXRuntime, llama.cpp, MLX 등 주요 추론 엔진과의 협력을 강화하여 서로 다른 플랫폼 간 완벽한 모델 호환성을 확보했습니다.
이제 GGUF 형식 모델을 Transformers에서 직접 불러오기하거나, 반대로 Hugging Face 모델을 GGUF로 변환해 llama.cpp에서 사용할 수 있습니다.
또한 executorch를 통해 모바일 디바이스에서의 LLM 추론도 적극적으로 확장 중입니다.
Quantization: 양자화의 표준화
Transformers v5는 양자화(Quantization)를 “1급 시민(first-class citizen)”으로 승격시켰습니다. 이는 최근 gpt-oss, Kimi-K2, Deepseek-r1와 같은 많은 SOTA 모델들이 8-bit 및 4-bit의 저밀도 형식도 함께 배포하고 있는 추세에 따른 것으로, 하드웨어들의 최적화 지원 및 커뮤니티의 체크포인트 공유에 힘입은 것입니다.
이제 8비트, 4비트 정밀도 모델을 완벽하게 지원하며, TorchAO 및 bitsandbytes 팀과의 협업을 통해 양자화된 모델 학습 및 추론의 완전한 통합을 실현했습니다.
이는 향후 메모리 효율적인 대형 모델 학습을 위한 기반을 마련한 변화입니다.
결론
Transformers v5는 단순한 버전업이 아니라, AI 모델 정의의 표준 플랫폼으로서의 재탄생입니다.
이번 버전은 “학습 → 추론 → 배포 → 로컬 실행”의 전 과정을 하나의 상호운용 가능한 프레임워크로 통합했습니다.
이제 개발자는 Unsloth나 LlamaFactory로 모델을 학습하고, vLLM/SGLang으로 배포하며, llama.cpp/MLX/executorch로 로컬에서 실행할 수 있습니다.
이는 오픈소스 AI 생태계가 진정한 통합 단계로 진입했음을 의미합니다.
Hugging Face의 Transformers 홈페이지
Hugging Face의 Transformers v5 출시 블로그
Transformers 프로젝트 GitHub 저장소
이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. ![]()
파이토치 한국 사용자 모임
이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일
로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)
아래
쪽에 좋아요
를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~ ![]()



