Voxtral 소개
음성은 인간의 가장 원초적이면서도 자연스러운 인터페이스입니다. 스마트폰이나 컴퓨터, 심지어는 가전제품까지 음성 인식 기술이 확장되며 사람과 기계 간의 상호작용은 점차 직관적으로 변화하고 있습니다. 특히 최근 몇 년 사이, OpenAI의 Whisper, Google의 Gemini, ElevenLabs의 Scribe 등 고성능 음성 인식 시스템이 출시되며 상업용 시장도 빠르게 성장하고 있습니다.
하지만 현실에서 이들 기술을 자유롭게 활용하기엔 몇 가지 장벽이 존재합니다. 먼저, 오픈소스 기반 시스템은 언어 이해 성능이나 정확도가 부족하고, 반대로 상용 API는 고비용·폐쇄적인 구조로 인해 사용자 통제력이 부족합니다. 바로 이 문제를 해결하기 위해 Mistral AI가 공개한 것이 새로운 음성 이해 모델 라인업인 Voxtral입니다.
Voxtral은 대규모 언어 모델(Large Language Model)의 강력한 이해 능력을 바탕으로, 고품질 음성 전사 및 음성 기반 질의응답, 다국어 번역, 함수 호출까지 지원하는 차세대 모델입니다. Voxtral은 Voxtral Small (24B) 와 Voxtral Mini (3B) 의 두 가지 크기로 제공되어, 대규모 서비스에서의 확장성과 엣지 환경에서의 경량 실행까지 모두 아우를 수 있을 것으로 기대합니다.
Voxtral 모델 구조 및 특징
Voxtral의 라인업
- Voxtral Small (24B): 고성능 대규모 모델로, 클라우드/서버 환경에서 고정확도의 음성 이해를 요구하는 환경에 적합합니다.
- Voxtral Mini (3B): 저전력 환경, 엣지 디바이스, 개인 컴퓨터 등에서도 실행 가능한 경량 모델입니다.
두 모델 모두 동일한 기능을 갖추고 있으며, 사용자의 환경과 요구사항에 따라 선택할 수 있습니다.
Voxtral의 주요 기능
전사 기능 (Speech Transcription)
Voxtral은 음성을 텍스트로 변환하는 전사 기능을 매우 정확하게 수행합니다. 자동 언어 감지를 통해 입력된 음성이 어떤 언어인지 식별한 뒤 해당 언어로 전사를 수행하며, 최대 30분 길이의 음성도 문제 없이 처리할 수 있습니다.
- Whisper large-v3보다 더 낮은 오류율(WER; Word Error Rate)을 기록하며
- Mozilla Common Voice, FLEURS 등 다양한 다국어 벤치마크에서도 SOTA 수준의 성능을 보여줍니다.
음성 이해 기능 (Audio Understanding)
단순히 음성을 텍스트로 바꾸는 수준이 아니라, 오디오를 직접 분석하여 그 의미를 파악하고 질문에 답하거나 요약을 생성할 수 있습니다. 예를 들어 오디오에 담긴 인터뷰 내용을 요약하거나, 특정 화자의 발언을 요약하는 작업도 가능합니다.
- 최대 40분 길이 오디오의 의미 분석 가능
- 텍스트 입력 없이 음성만으로 질문/응답 가능
다국어 처리 (Multilingual Support)
Voxtral은 다국어 환경에서도 높은 성능을 발휘하도록 설계되었습니다. 전세계에서 가장 많이 사용하는 여러 언어들을 자동으로 감지하고, 해당 언어로 전사 및 의미 분석을 수행합니다. 특히 다음과 같은 주요 언어에서 매우 높은 정확도를 보입니다:
- 영어 (English)
- 프랑스어 (French)
- 독일어 (German)
- 스페인어 (Spanish)
- 포르투갈어 (Portuguese)
- 힌디어 (Hindi)
- 네덜란드어 (Dutch)
- 이탈리아어 (Italian)
- (그 외 다수 언어 포함)
FLEURS, Mozilla Common Voice, Multilingual LibriSpeech 등 다국어 음성 벤치마크에서 Whisper, GPT-4o Mini, Gemini Flash 등 최신 모델들을 능가하는 성능을 보였으며, 특히 유럽 및 인도권 주요 언어에서 SOTA를 달성했습니다.
뛰어난 텍스트 처리 능력
Voxtral은 음성 인식 모델인 동시에, 언어 모델로도 사용 가능한 구조입니다. 기존의 Mistral Small 3.1 및 Ministral 3B에서 제공하는 텍스트 기반 질의응답, 요약, 추론 기능을 그대로 유지합니다. 따라서 단일 모델로 음성과 텍스트를 모두 처리할 수 있는 통합 구조가 완성됩니다.
함수 호출 (Function Calling)
또한, 음성을 통한 API 호출 또는 백엔드 함수 실행을 직접 지원합니다. 즉, 사용자가 말로 명령하면, 시스템은 그 의미를 이해하고 해당 함수를 실행할 수 있어, 음성 기반 워크플로우 자동화가 가능합니다.
사용 방법
모델 다운로드: Hugging Face에서 다운로드
-
Voxtral Small (24B) 및 Voxtral Mini (3B) 모두 Hugging Face에서 다운로드할 수 있습니다.
-
다운로드 받은 모델은 로컬 환경에서 오프라인으로 실행하거나, 직접 GPU 서버에 배포하여 사용할 수 있습니다.
모델 서빙: vLLM 기반 서버 실행
최신 vLLM을 사용하면 Voxtral을 API 서버 형태로 구동할 수 있습니다:
uv pip install -U "vllm[audio]" --torch-backend=auto --extra-index-url https://wheels.vllm.ai/nightly
vllm serve mistralai/Voxtral-Mini-3B-2507 --tokenizer_mode mistral --config_format mistral --load_format mistral
Voxtral Mini(3B) 모델(bf16/fp16)의 경우, 약 9.5GB의 VRAM으로 실행할 수 있습니다. 또한, vLLM에서 OpenAI 호환 API를 지원하여, 클라이언트는 OpenAI API 방식으로 연동할 수 있습니다.
음성 전사 예시: vLLM 서버 호출
from mistral_common.audio import Audio
from mistral_common.protocol.transcription.request import TranscriptionRequest
from huggingface_hub import hf_hub_download
from openai import OpenAI
client = OpenAI(api_key="EMPTY", base_url="http://<your-server>:8000/v1")
file = hf_hub_download("patrickvonplaten/audio_samples", "obama.mp3", repo_type="dataset")
audio = Audio.from_file(file, strict=False)
req = TranscriptionRequest(model="Voxtral-Mini-3B-2507", audio=audio, language="en", temperature=0.0).to_openai()
response = client.audio.transcriptions.create(**req)
print(response)
음성 기반 질의응답 예시
from mistral_common.protocol.instruct.messages import AudioChunk, TextChunk, UserMessage
# 오디오 및 질문 입력
audio_chunk = AudioChunk.from_audio(Audio.from_file("sample.mp3"))
text_chunk = TextChunk(text="What is the main message of this speech?")
user_msg = UserMessage(content=[audio_chunk, text_chunk]).to_openai()
# API 호출
response = client.chat.completions.create(model="Voxtral-Mini-3B-2507", messages=[user_msg])
print(response.choices.message.content)
Mistral이 제공하는 API 사용하기 (유료)
Mistral은 Voxtral을 클라우드 API 형태로도 제공합니다. 단일 API 호출로 음성 전사와 이해 기능을 사용할 수 있으며, 비용은 분당 $0.001부터 시작합니다. 이는 Whisper, ElevenLabs 등에 비해 매우 저렴한 수준으로, 고품질 서비스를 대규모로 구현하려는 사용자에게 적합합니다.
- API 문서: Audio & Transcription | Mistral AI
- API 콘솔: https://console.mistral.ai
향후 계획 및 이벤트
오는 2025년 8월 6일, Mistral은 Inworld와 함께 음성 에이전트 개발 웨비나를 개최합니다. 이 웨비나에서는 Voxtral과 Inworld TTS를 활용한 음성 인터페이스 데모가 소개되며, 실제 애플리케이션 구축 과정을 살펴볼 수 있습니다.
또한, Mistral은 향후 수개월 내에 아래와 같은 추가 기능들을 Voxtral에서 지원할 예정입니다:
- 화자 분할 (Speaker Segmentation)
- 감정/연령 기반 오디오 태그
- 단어 수준 타임스탬프
- 비음성 오디오 인식 (기침, 박수 등)
- 그 외 다양한 오디오 기반 이해 기능
Mistral은 Voxtral을 통해 고품질 음성 인터페이스를 누구나 사용할 수 있도록 만드는 것을 목표로 하며, 앞으로도 기능을 지속 확장할 예정입니다.
라이선스
Voxtral 모델은 Apache 2.0 라이선스로 공개 및 배포되고 있습니다. 상업적 이용, 수정, 재배포가 모두 자유로우며, 사용자 데이터에 대한 제한도 없습니다.
Voxtral 공개 블로그
Voxtral 모델 다운로드
Voxtral Mini(3B) 모델 (2507)
Voxtral Small(24B) 모델 (2507)
이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. ![]()
파이토치 한국 사용자 모임
이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일
로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)
아래
쪽에 좋아요
를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~ ![]()




