Xiaomi, 1.02T 파라미터 오픈소스 MoE 추론 모델 MiMo-v2.5 및 MiMo-v2.5-Pro 출시

MiMo-V2.5 시리즈 소개: 코딩 특화 Pro와 옴니모달 V2.5

2026년 4월 27일, Xiaomi의 AI 연구팀이 MiMo-V2.5 시리즈를 공개하고 오픈소스로 릴리즈했습니다. 이번에 공개된 모델은 두 가지입니다. MiMo-V2.5-Pro 는 총 1.02T 파라미터(42B 활성)의 텍스트 특화 모델로, 에이전틱 코딩과 장기 자율 과제에서 최고 수준의 성능을 보여줍니다. MiMo-V2.5 는 310B 파라미터(15B 활성)의 네이티브 옴니모달(Omni-Modal) 모델로, 텍스트뿐 아니라 이미지, 비디오, 오디오를 단일 아키텍처에서 이해합니다.

두 모델 모두 MiMo-V2-Flash혼합 전문가(Mixture-of-Experts, MoE) 아키텍처를 기반으로 하며, 하이브리드 어텐션과 멀티 토큰 예측(Multi-Token Prediction, MTP) 을 탑재하고 있습니다. 100만(1M) 토큰 컨텍스트 윈도우를 지원하고, Apache License 2.0으로 공개되어 연구 및 상업적 용도로 자유롭게 사용할 수 있습니다. 가중치와 토크나이저는 Hugging Face에서 다운로드 가능하며, 추론 엔진으로 SGLangvLLM을 공식 지원합니다.

특히 MiMo-V2.5-Pro는 1,000회 이상의 도구 호출에 걸쳐 복잡한 작업을 자율적으로 수행할 수 있으며, 동일한 성능을 달성하는 데 Claude Opus 4.6, Gemini 3.1 Pro, GPT-5.4 대비 40-60% 적은 토큰을 사용하여 비용 효율성까지 확보했습니다. MiMo-V2.5는 전용 비전 인코더와 오디오 인코더를 탑재하여 멀티모달 인식, 장문 추론, 에이전틱 워크플로우 전반에서 강력한 성능을 제공합니다.

핵심 아키텍처: 하이브리드 어텐션과 멀티 토큰 예측

MiMo-V2.5-Pro 아키텍처

MiMo-V2.5 시리즈의 아키텍처는 전작 MiMo-V2-Flash에서 도입한 두 가지 핵심 설계를 계승하면서 규모를 크게 확장했습니다.

하이브리드 어텐션으로 KV 캐시 대폭 절감

전통적인 트랜스포머 모델은 컨텍스트 길이가 늘어날수록 KV 캐시 메모리가 급격히 증가하는 문제를 안고 있습니다. MiMo-V2.5 시리즈는 슬라이딩 윈도우 어텐션(Sliding Window Attention, SWA)글로벌 어텐션(Global Attention, GA) 을 교차 배치하는 하이브리드 구조를 채택했습니다. Pro는 6:1 비율로 KV 캐시를 약 7배, V2.5는 5:1 비율로 약 6배 절감합니다. SWA는 128 토큰 크기의 윈도우만 참조하며, 학습 가능한 어텐션 싱크 바이어스(attention-sink bias) 를 통해 긴 문맥에서의 성능 저하를 방지합니다.

멀티 토큰 예측(MTP)으로 3배 빠른 출력

일반적인 언어 모델은 한 번에 하나의 토큰만 생성하지만, MiMo-V2.5 시리즈는 3개의 MTP 모듈을 탑재하여 여러 토큰을 동시에 예측합니다. Dense FFN으로 구성된 이 경량 모듈은 학습과 추론 모두에 네이티브로 통합되어, 출력 처리량을 약 3배 향상시킵니다. EAGLE 추측 디코딩(speculative decoding) 방식과 결합하면 실제 서빙 환경에서 2-3배의 디코딩 속도 향상을 기대할 수 있습니다.

모델 사양 비교

구분 MiMo-V2.5-Pro MiMo-V2.5
총 파라미터 1.02T 310B
활성 파라미터 42B 15B
모달리티 텍스트 텍스트, 이미지, 비디오, 오디오
레이어 수 70 (1 Dense + 69 MoE) 48 (1 Dense + 47 MoE)
SWA:GA 비율 6:1 (60 SWA + 10 GA) 5:1 (39 SWA + 9 GA)
라우팅 전문가 수 384 256
토큰당 전문가 수 8 8
사전 학습 토큰 27T ~48T
컨텍스트 길이 1M 1M
MTP 레이어 3 3
정밀도 FP8 (E4M3) Mixed FP8 (E4M3) Mixed

MiMo-V2.5: 네이티브 옴니모달 아키텍처

MiMo-V2.5 아키텍처

MiMo-V2.5는 Pro와 달리 텍스트, 이미지, 비디오, 오디오를 단일 모델에서 처리하는 네이티브 옴니모달 모델입니다. LLM 백본 위에 전용 비전 인코더와 오디오 인코더를 추가하여, 각 모달리티의 특성에 맞는 고품질 인코딩을 수행합니다.

비전 인코더: 729M 파라미터 하이브리드 ViT

MiMo-V2.5의 비전 인코더(Vision Encoder) 는 729M 파라미터 규모의 비전 트랜스포머(Vision Transformer, ViT) 로, 효율적인 시각 인코딩을 위해 슬라이딩 윈도우 어텐션을 도입했습니다. 총 28개 레이어 중 24개가 SWA, 4개가 풀 어텐션으로 구성되며, 1차원 행(row) 윈도우와 열(column) 윈도우를 교차 배치하는 독자적인 윈도우 패턴을 사용합니다. 이를 통해 고해상도 이미지에서도 효율적으로 시각 정보를 추출합니다.

오디오 인코더: 261M 파라미터 오디오 트랜스포머

오디오 인코더(Audio Encoder) 는 261M 파라미터 규모의 오디오 트랜스포머로, MiMo-Audio-Tokenizer의 가중치로 초기화한 뒤 추가 미세 조정을 거쳤습니다. 24개 레이어 중 12개가 SWA, 12개가 풀 어텐션으로 구성되어, 음성 전사(transcription)부터 오디오 요약까지 다양한 오디오 이해 작업을 지원합니다.

MiMo-V2.5 학습 파이프라인

MiMo-V2.5는 총 약 48T 토큰으로 학습되었으며, Pro보다 넓은 범위의 데이터를 활용합니다. 학습은 5단계로 진행됩니다. 먼저 LLM 백본의 텍스트 사전 학습을 수행하고, 멀티모달 프로젝터(비전, 오디오 MLP 프로젝터) 워밍업을 거칩니다. 이어서 고품질 멀티모달 데이터로 대규모 사전 학습을 진행한 뒤, 에이전틱 데이터를 활용한 SFT 단계에서 컨텍스트 윈도우를 32K에서 256K, 그리고 1M까지 점진적으로 확장합니다. 마지막으로 강화 학습과 MOPD를 통해 인식, 추론, 에이전틱 능력을 강화합니다.

멀티모달 벤치마크 성능

MiMo-V2.5 멀티모달 벤치마크 결과

MiMo-V2.5 코딩 및 에이전트 벤치마크 결과

MiMo-V2.5-Pro: 에이전틱 코딩의 정점

3단계 후처리 학습: SFT에서 MOPD까지

MiMo-V2.5-Pro의 사전 학습은 27조(27T) 토큰 규모로 FP8 혼합 정밀도 를 사용하여 수행되었으며, 기본 시퀀스 길이 32K에서 최대 1M 토큰까지 컨텍스트가 확장됩니다.

후처리 학습(post-training)은 MiMo-V2-Flash에서 도입한 3단계 패러다임을 따릅니다. 먼저 지도 미세 조정(Supervised Fine-Tuning, SFT) 단계에서 고품질 데이터 쌍을 활용해 기본적인 지시 따르기(instruction following) 능력을 구축합니다. 다음으로 도메인 특화 학습(Domain-Specialized Training) 단계에서는 수학, 안전성, 에이전틱 도구 사용 등 각 도메인별로 별도의 교사 모델(teacher model)을 도메인 특화 강화 학습(Reinforcement Learning, RL) 보상을 통해 최적화합니다.

마지막이자 가장 핵심적인 단계는 다중 교사 온폴리시 증류(Multi-Teacher On-Policy Distillation, MOPD) 입니다. 단일 학생 모델이 자신의 출력(rollout)으로부터 학습하면서, 동시에 모든 전문가 교사로부터 토큰 수준의 정밀한 가이던스를 받아 여러 도메인의 능력을 하나의 통합 모델로 병합합니다. 이 방식을 통해 도메인별 전문성을 유지하면서도 단일 모델에서 일관된 성능을 달성합니다.

장기 자율 과제에서의 실력 검증

MiMo-V2.5-Pro의 차별점은 단순한 벤치마크 점수가 아니라, 인간 전문가가 며칠에서 몇 주가 걸리는 복잡한 프로젝트를 자율적으로 완수하는 능력에 있습니다.

SysY 컴파일러를 Rust로 구현: 베이징대학교의 컴파일러 원리 수업 프로젝트를 기반으로, Rust로 완전한 SysY 컴파일러(렉서, 파서, AST, Koopa IR 코드 생성, RISC-V 어셈블리 백엔드, 성능 최적화)를 처음부터 구현했습니다. 보통 베이징대 컴퓨터과학 전공 학생이 몇 주에 걸쳐 완성하는 이 과제를 4.3시간, 672회의 도구 호출로 완수하여 히든 테스트 스위트에서 233/233 만점을 달성했습니다. 첫 번째 컴파일에서부터 137/233(59%)의 테스트를 통과하여, 시행착오가 아닌 구조적인 설계 역량을 보여주었습니다.


8,192줄의 비디오 편집기 자율 개발: 간단한 프롬프트 몇 개만으로, 멀티 트랙 타임라인, 클립 트리밍, 크로스 페이드, 오디오 믹싱, 내보내기 파이프라인을 갖춘 완전한 데스크톱 비디오 편집 앱을 개발했습니다. 1,868회의 도구 호출을 거쳐 11.5시간의 자율 작업으로 완성했습니다.


아날로그 EDA 회로 설계: TSMC 180nm CMOS 공정에서 FVF-LDO(Flipped-Voltage-Follower Low-Dropout Regulator)를 설계하고, Claude Code를 하니스로 활용해 ngspice 시뮬레이션 루프를 구성하여 약 1시간 만에 6가지 목표 지표를 모두 충족하는 설계를 완성했습니다.

이러한 실험들에서 V2.5-Pro는 "하니스 인식(harness awareness)"이라 불리는 특성을 보여줍니다. 자신이 실행되는 환경의 기능을 최대한 활용하고, 메모리를 관리하며, 최종 목표를 향해 자신의 컨텍스트가 어떻게 채워지는지까지 조율합니다.

토큰 효율성: 더 적은 비용으로 더 높은 성능

Token Plan 업데이트

ClawEval 벤치마크에서 MiMo-V2.5-Pro는 64% Pass^3 를 달성하면서 궤적(trajectory)당 약 70K 토큰만을 소비했습니다. 이는 비슷한 성능 수준의 Claude Opus 4.6, Gemini 3.1 Pro, GPT-5.4 대비 약 40-60% 적은 토큰 사용량입니다.

장문 컨텍스트 추론 성능

장문 컨텍스트 평가 결과

장문 컨텍스트 성능은 OpenAI의 GraphWalks 벤치마크로 평가되었습니다. 이 벤치마크는 방향 그래프의 노드를 프롬프트에 채우고 BFS(너비 우선 탐색)나 부모 노드 나열을 요청하는 방식으로, 32K에서 1M 토큰까지의 입력에서 모델의 추론 능력을 측정합니다.

전작 V2 Pro가 128K를 넘어서면 급격히 성능이 저하되어 1M에서 0.00으로 무너지는 반면, V2.5 Pro는 512K에서 BFS 0.56, Parents 0.92를, 1M에서도 BFS 0.37, Parents 0.62를 기록하며 장문 추론에서의 실질적인 도약을 보여줍니다.

MiMo-V2.5 GraphWalks 장문 컨텍스트 평가

배포 및 사용법

MiMo-V2.5 시리즈는 SGLangvLLM 두 가지 추론 엔진을 공식 지원합니다. 또한 Xiaomi AI Studio에서 바로 사용하거나, API 플랫폼을 통해 접근할 수 있습니다.

SGLang Docker 이미지

모델 하드웨어 Docker 이미지
MiMo-V2.5-Pro (1.02T) H100 / H200 (Hopper) lmsysorg/sglang:dev-mimo-v2.5-pro
MiMo-V2.5-Pro (1.02T) B200 / GB300 (Blackwell) lmsysorg/sglang:dev-cu13-mimo-v2.5-pro
MiMo-V2.5 (310B) H100 / H200 (Hopper) lmsysorg/sglang:dev-mimo-v2.5
MiMo-V2.5 (310B) B200 / GB300 (Blackwell) lmsysorg/sglang:dev-cu13-mimo-v2.5

Pro는 B200 단일 노드(TP=8) 또는 H100/H200 2노드(TP=16) 구성을 지원합니다. V2.5는 H100/H200 8x GPU(--tp 8 --dp 2) 또는 B200/GB300 4x GPU(--tp 4) 구성으로 배포합니다. 고동시성 워크로드에서는 DeepEP 백엔드로 MoE 디스패치 지연을 줄일 수 있습니다(Hopper 전용).

vLLM으로 배포하기

현재 안정 버전의 vLLM은 MiMo V2.5를 아직 지원하지 않으므로 전용 Docker 이미지를 사용합니다.

docker pull vllm/vllm-openai:mimov25-cu129

vllm serve XiaomiMiMo/MiMo-V2.5-Pro \
  --tensor-parallel-size 8 \
  --trust-remote-code \
  --gpu-memory-utilization 0.95 \
  --max-model-len auto \
  --reasoning-parser mimo \
  --tool-call-parser mimo \
  --enable-auto-tool-choice \
  --generation-config vllm

텍스트 추론 사용 예시

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:8000/v1",
    api_key="EMPTY"
)

response = client.chat.completions.create(
    model="XiaomiMiMo/MiMo-V2.5-Pro",
    messages=[{"role": "user", "content": "Hello MiMo!"}],
    chat_template_kwargs={"enable_thinking": True}
)

print("====== Reasoning ======")
print(response.choices[0].message.reasoning_content)
print("====== Answer ======")
print(response.choices[0].message.content)

추론 모드를 비활성화하려면 enable_thinkingFalse로 설정하면 됩니다. 권장 샘플링 파라미터는 temperature=1.0, top_p=0.95입니다.

멀티모달 사용 예시 (MiMo-V2.5)

MiMo-V2.5는 OpenAI 호환 멀티모달 API를 통해 이미지, 비디오, 오디오를 처리합니다.

from openai import OpenAI

client = OpenAI(base_url="http://localhost:30000/v1", api_key="EMPTY")

# Image understanding
response = client.chat.completions.create(
    model="XiaomiMiMo/MiMo-V2.5",
    messages=[{
        "role": "user",
        "content": [
            {"type": "image_url", "image_url": {"url": "https://example.com/image.png"}},
            {"type": "text", "text": "Describe this image in detail."}
        ]
    }]
)

# Audio understanding
response = client.chat.completions.create(
    model="XiaomiMiMo/MiMo-V2.5",
    messages=[{
        "role": "user",
        "content": [
            {"type": "audio_url", "audio_url": {"url": "https://example.com/audio.mp3"}},
            {"type": "text", "text": "Transcribe and summarize this audio."}
        ]
    }]
)

비디오 처리에는 decord 라이브러리(pip install decord)가 필요하며, video_url 타입으로 전달합니다.

라이선스

MiMo-V2.5 시리즈는 Apache License 2.0으로 배포되고 있어, 연구 목적은 물론 상업적 용도로도 자유롭게 사용 및 수정이 가능합니다.

:scroll: MiMo-V2.5-Pro 소개 블로그

:github: MiMo-V2.5 시리즈 Hugging Face 모델 카드




이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. :hugs:

:pytorch:파이토치 한국 사용자 모임:south_korea:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:wrapped_gift: 아래:down_right_arrow:쪽에 좋아요:+1:를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~ :star_struck:

1개의 좋아요

로컬 실행 가능한 1조 파라미터(효율 생각하면 네이티브는 아니지만) 모델이 나오는 게 너무 신기합니다. 정말 며칠 안 남았네요… 이제 5월인데

1개의 좋아요