Mistral, 음성 이해를 위한 오픈 모델 Voxtral 공개 (한국어 지원X)

Voxtral 소개

음성은 인간의 가장 원초적이면서도 자연스러운 인터페이스입니다. 스마트폰이나 컴퓨터, 심지어는 가전제품까지 음성 인식 기술이 확장되며 사람과 기계 간의 상호작용은 점차 직관적으로 변화하고 있습니다. 특히 최근 몇 년 사이, OpenAI의 Whisper, Google의 Gemini, ElevenLabs의 Scribe 등 고성능 음성 인식 시스템이 출시되며 상업용 시장도 빠르게 성장하고 있습니다.

하지만 현실에서 이들 기술을 자유롭게 활용하기엔 몇 가지 장벽이 존재합니다. 먼저, 오픈소스 기반 시스템은 언어 이해 성능이나 정확도가 부족하고, 반대로 상용 API는 고비용·폐쇄적인 구조로 인해 사용자 통제력이 부족합니다. 바로 이 문제를 해결하기 위해 Mistral AI가 공개한 것이 새로운 음성 이해 모델 라인업인 Voxtral입니다.

Voxtral은 대규모 언어 모델(Large Language Model)의 강력한 이해 능력을 바탕으로, 고품질 음성 전사 및 음성 기반 질의응답, 다국어 번역, 함수 호출까지 지원하는 차세대 모델입니다. Voxtral은 Voxtral Small (24B)Voxtral Mini (3B) 의 두 가지 크기로 제공되어, 대규모 서비스에서의 확장성과 엣지 환경에서의 경량 실행까지 모두 아우를 수 있을 것으로 기대합니다.

Voxtral 모델 구조 및 특징

Voxtral의 라인업

  • Voxtral Small (24B): 고성능 대규모 모델로, 클라우드/서버 환경에서 고정확도의 음성 이해를 요구하는 환경에 적합합니다.
  • Voxtral Mini (3B): 저전력 환경, 엣지 디바이스, 개인 컴퓨터 등에서도 실행 가능한 경량 모델입니다.

두 모델 모두 동일한 기능을 갖추고 있으며, 사용자의 환경과 요구사항에 따라 선택할 수 있습니다.

Voxtral의 주요 기능

전사 기능 (Speech Transcription)

Voxtral은 음성을 텍스트로 변환하는 전사 기능을 매우 정확하게 수행합니다. 자동 언어 감지를 통해 입력된 음성이 어떤 언어인지 식별한 뒤 해당 언어로 전사를 수행하며, 최대 30분 길이의 음성도 문제 없이 처리할 수 있습니다.

  • Whisper large-v3보다 더 낮은 오류율(WER; Word Error Rate)을 기록하며
  • Mozilla Common Voice, FLEURS 등 다양한 다국어 벤치마크에서도 SOTA 수준의 성능을 보여줍니다.

음성 이해 기능 (Audio Understanding)

단순히 음성을 텍스트로 바꾸는 수준이 아니라, 오디오를 직접 분석하여 그 의미를 파악하고 질문에 답하거나 요약을 생성할 수 있습니다. 예를 들어 오디오에 담긴 인터뷰 내용을 요약하거나, 특정 화자의 발언을 요약하는 작업도 가능합니다.

  • 최대 40분 길이 오디오의 의미 분석 가능
  • 텍스트 입력 없이 음성만으로 질문/응답 가능

다국어 처리 (Multilingual Support)

Voxtral은 다국어 환경에서도 높은 성능을 발휘하도록 설계되었습니다. 전세계에서 가장 많이 사용하는 여러 언어들을 자동으로 감지하고, 해당 언어로 전사 및 의미 분석을 수행합니다. 특히 다음과 같은 주요 언어에서 매우 높은 정확도를 보입니다:

  • 영어 (English)
  • 프랑스어 (French)
  • 독일어 (German)
  • 스페인어 (Spanish)
  • 포르투갈어 (Portuguese)
  • 힌디어 (Hindi)
  • 네덜란드어 (Dutch)
  • 이탈리아어 (Italian)
  • (그 외 다수 언어 포함)

FLEURS, Mozilla Common Voice, Multilingual LibriSpeech 등 다국어 음성 벤치마크에서 Whisper, GPT-4o Mini, Gemini Flash 등 최신 모델들을 능가하는 성능을 보였으며, 특히 유럽 및 인도권 주요 언어에서 SOTA를 달성했습니다.

뛰어난 텍스트 처리 능력

Voxtral은 음성 인식 모델인 동시에, 언어 모델로도 사용 가능한 구조입니다. 기존의 Mistral Small 3.1Ministral 3B에서 제공하는 텍스트 기반 질의응답, 요약, 추론 기능을 그대로 유지합니다. 따라서 단일 모델로 음성과 텍스트를 모두 처리할 수 있는 통합 구조가 완성됩니다.

함수 호출 (Function Calling)

또한, 음성을 통한 API 호출 또는 백엔드 함수 실행을 직접 지원합니다. 즉, 사용자가 말로 명령하면, 시스템은 그 의미를 이해하고 해당 함수를 실행할 수 있어, 음성 기반 워크플로우 자동화가 가능합니다.

사용 방법

모델 다운로드: Hugging Face에서 다운로드

  • Voxtral Small (24B)Voxtral Mini (3B) 모두 Hugging Face에서 다운로드할 수 있습니다.

  • 다운로드 받은 모델은 로컬 환경에서 오프라인으로 실행하거나, 직접 GPU 서버에 배포하여 사용할 수 있습니다.

모델 서빙: vLLM 기반 서버 실행

최신 vLLM을 사용하면 Voxtral을 API 서버 형태로 구동할 수 있습니다:

uv pip install -U "vllm[audio]" --torch-backend=auto --extra-index-url https://wheels.vllm.ai/nightly
vllm serve mistralai/Voxtral-Mini-3B-2507 --tokenizer_mode mistral --config_format mistral --load_format mistral

Voxtral Mini(3B) 모델(bf16/fp16)의 경우, 약 9.5GB의 VRAM으로 실행할 수 있습니다. 또한, vLLM에서 OpenAI 호환 API를 지원하여, 클라이언트는 OpenAI API 방식으로 연동할 수 있습니다.

음성 전사 예시: vLLM 서버 호출

from mistral_common.audio import Audio
from mistral_common.protocol.transcription.request import TranscriptionRequest
from huggingface_hub import hf_hub_download
from openai import OpenAI

client = OpenAI(api_key="EMPTY", base_url="http://<your-server>:8000/v1")
file = hf_hub_download("patrickvonplaten/audio_samples", "obama.mp3", repo_type="dataset")
audio = Audio.from_file(file, strict=False)

req = TranscriptionRequest(model="Voxtral-Mini-3B-2507", audio=audio, language="en", temperature=0.0).to_openai()
response = client.audio.transcriptions.create(**req)
print(response)

음성 기반 질의응답 예시

from mistral_common.protocol.instruct.messages import AudioChunk, TextChunk, UserMessage

# 오디오 및 질문 입력
audio_chunk = AudioChunk.from_audio(Audio.from_file("sample.mp3"))
text_chunk = TextChunk(text="What is the main message of this speech?")
user_msg = UserMessage(content=[audio_chunk, text_chunk]).to_openai()

# API 호출
response = client.chat.completions.create(model="Voxtral-Mini-3B-2507", messages=[user_msg])
print(response.choices.message.content)

Mistral이 제공하는 API 사용하기 (유료)

Mistral은 Voxtral을 클라우드 API 형태로도 제공합니다. 단일 API 호출로 음성 전사와 이해 기능을 사용할 수 있으며, 비용은 분당 $0.001부터 시작합니다. 이는 Whisper, ElevenLabs 등에 비해 매우 저렴한 수준으로, 고품질 서비스를 대규모로 구현하려는 사용자에게 적합합니다.

향후 계획 및 이벤트

오는 2025년 8월 6일, Mistral은 Inworld와 함께 음성 에이전트 개발 웨비나를 개최합니다. 이 웨비나에서는 Voxtral과 Inworld TTS를 활용한 음성 인터페이스 데모가 소개되며, 실제 애플리케이션 구축 과정을 살펴볼 수 있습니다.

또한, Mistral은 향후 수개월 내에 아래와 같은 추가 기능들을 Voxtral에서 지원할 예정입니다:

  • 화자 분할 (Speaker Segmentation)
  • 감정/연령 기반 오디오 태그
  • 단어 수준 타임스탬프
  • 비음성 오디오 인식 (기침, 박수 등)
  • 그 외 다양한 오디오 기반 이해 기능

Mistral은 Voxtral을 통해 고품질 음성 인터페이스를 누구나 사용할 수 있도록 만드는 것을 목표로 하며, 앞으로도 기능을 지속 확장할 예정입니다.

라이선스

Voxtral 모델은 Apache 2.0 라이선스로 공개 및 배포되고 있습니다. 상업적 이용, 수정, 재배포가 모두 자유로우며, 사용자 데이터에 대한 제한도 없습니다.

:scroll: Voxtral 공개 블로그

:hugs: Voxtral 모델 다운로드

Voxtral Mini(3B) 모델 (2507)

Voxtral Small(24B) 모델 (2507)




이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. :hugs:

:pytorch:파이토치 한국 사용자 모임:south_korea:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:wrapped_gift: 아래:down_right_arrow:쪽에 좋아요:+1:를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~ :star_struck:

2개의 좋아요