음성 인식의 새로운 기준: Cohere Transcribe
음성은 AI 워크플로우에서 점점 더 핵심적인 모달리티로 자리잡고 있습니다. 회의 녹취, 음성 분석, 실시간 고객 상담 에이전트에 이르기까지, 자동 음성 인식(Automatic Speech Recognition, ASR) 기술은 다양한 엔터프라이즈 자동화의 기반이 되고 있습니다. 그러나 기존의 ASR 모델들은 벤치마크 성능과 실제 운영 환경 간의 격차, 처리 속도와 정확도 사이의 트레이드오프, 그리고 제한적인 다국어 지원이라는 과제를 안고 있었습니다.
Cohere가 이러한 문제를 정면으로 겨냥한 새로운 ASR 모델 Cohere Transcribe 를 공개했습니다. 이 모델은 처음부터(from scratch) 학습되었으며, 단어 오류율(Word Error Rate, WER) 을 최소화하면서도 실제 프로덕션 환경에서의 사용성을 염두에 두고 설계되었습니다. 단순한 연구용 모델이 아닌, 일상적인 업무에 바로 투입할 수 있는 시스템을 목표로 한 것입니다.
현재 HuggingFace Open ASR Leaderboard에서 평균 WER 5.42%로 1위를 차지하고 있으며, Apache 2.0 라이선스로 오픈소스 공개되어 누구나 다운로드하여 사용할 수 있습니다.
모델 개요
| 항목 | 내용 |
|---|---|
| 모델명 | cohere-transcribe-03-2026 |
| 아키텍처 | Conformer 기반 인코더-디코더 |
| 입력 | 오디오 파형 -> log-Mel 스펙트로그램 |
| 출력 | 텍스트 전사 |
| 모델 크기 | 2B (20억 파라미터) |
| 학습 방식 | 출력 토큰에 대한 교차 엔트로피, 처음부터 학습 |
| 지원 언어 | 14개 (영어, 프랑스어, 독일어, 이탈리아어, 스페인어, 포르투갈어, 그리스어, 네덜란드어, 폴란드어, 중국어, 일본어, 한국어, 베트남어, 아랍어) |
| 라이선스 | Apache 2.0 |
아키텍처는 대규모 Conformer 인코더 가 음향 표현(acoustic representation)을 추출한 뒤, 경량 트랜스포머(Transformer) 디코더 가 토큰을 생성하는 구조입니다. Conformer 는 컨볼루션과 셀프 어텐션을 결합한 아키텍처로, 음성 인식에서 로컬 패턴과 글로벌 의존성을 동시에 포착하는 데 효과적입니다.
영어 음성 인식 정확도: Open ASR 리더보드 1위
Cohere Transcribe는 HuggingFace Open ASR Leaderboard에서 평균 WER 5.42%를 기록하며, OpenAI Whisper Large v3, ElevenLabs Scribe v2, Qwen3-ASR-1.7B 등 오픈소스 및 상용 ASR 모델을 모두 상회하는 성능을 보여주었습니다.
| 모델 | 평균 WER | AMI | Earnings 22 | Gigaspeech | LS clean | LS other | SPGISpeech | Tedlium | Voxpopuli |
|---|---|---|---|---|---|---|---|---|---|
| Cohere Transcribe | 5.42 | 8.13 | 10.86 | 9.34 | 1.25 | 2.37 | 3.08 | 2.49 | 5.87 |
| Zoom Scribe v1 | 5.47 | 10.03 | 9.53 | 9.61 | 1.63 | 2.81 | 1.59 | 3.22 | 5.37 |
| IBM Granite 4.0 1B Speech | 5.52 | 8.44 | 8.48 | 10.14 | 1.42 | 2.85 | 3.89 | 3.10 | 5.84 |
| NVIDIA Canary Qwen 2.5B | 5.63 | 10.19 | 10.45 | 9.43 | 1.61 | 3.10 | 1.90 | 2.71 | 5.66 |
| Qwen3-ASR-1.7B | 5.76 | 10.56 | 10.25 | 8.74 | 1.63 | 3.40 | 2.84 | 2.28 | 6.35 |
| ElevenLabs Scribe v2 | 5.83 | 11.86 | 9.43 | 9.11 | 1.54 | 2.83 | 2.68 | 2.37 | 6.80 |
| OpenAI Whisper Large v3 | 7.44 | 15.95 | 11.29 | 10.02 | 2.01 | 3.91 | 2.94 | 3.86 | 9.54 |
특히 다자 대화 환경(AMI 데이터셋), 회의실 음향 조건, 다양한 억양 처리(Voxpopuli 데이터셋) 등 실제 업무 환경에서 요구되는 까다로운 조건에서 강점을 보입니다. LibriSpeech clean(WER 1.25%)과 other(WER 2.37%) 데이터셋에서는 가장 낮은 오류율을 기록했습니다.
사람 평가에서도 검증된 실전 성능
벤치마크 수치에 그치지 않고, 훈련된 평가자가 실제 오디오에 대한 전사 품질을 직접 비교하는 사람 평가(human evaluation)에서도 우수한 결과를 보였습니다. 의미 보존, 환각(hallucination) 방지, 고유명사 정확도, 포맷팅 품질을 종합적으로 평가한 결과, Cohere Transcribe는 비교 대상 모든 모델 대비 평균 61%의 선호율을 기록했습니다.
다국어 사람 평가에서도 이탈리아어(60%), 일본어(70%) 등 대부분의 언어에서 기존 모델들을 상회하는 선호도를 보였습니다. 특히 일본어에서는 Qwen3-ASR 대비 70%, Whisper Large v3 대비 66%, Voxtral Mini 대비 64%의 높은 승률을 기록했습니다.
정확도와 처리량의 균형: 파레토 프론티어 확장
실제 프로덕션 환경에서 ASR 시스템은 정확도뿐 아니라 지연 시간과 처리량 제약 하에서 동작해야 합니다. 아무리 정확하더라도 느리거나 리소스를 과도하게 소비하는 모델은 사용자 경험과 운영 효율성에 직접적인 영향을 미칩니다.
Cohere Transcribe는 1B 이상 파라미터 모델 중에서 최고 수준의 정확도(낮은 WER)와 최고 수준의 처리량(높은 RTFx)을 동시에 달성하며, 파레토 프론티어(Pareto Frontier) 를 확장했습니다. RTFx(실시간 배수)는 모델이 실시간 대비 얼마나 빠르게 오디오를 처리하는지를 나타내는 지표입니다.
시작하기
Cohere Transcribe는 다양한 방식으로 사용할 수 있습니다.
- 오픈소스 다운로드: HuggingFace에서 모델을 다운로드하여 로컬 또는 엣지 환경에서 직접 실행할 수 있습니다
- API 접근: Cohere Dashboard를 통해 무료로 API를 사용해볼 수 있으며(속도 제한 있음), API 문서에서 사용법을 확인할 수 있습니다
- Model Vault: 속도 제한 없는 프로덕션 배포가 필요한 경우, Cohere의 관리형 프라이빗 클라우드 추론 플랫폼인 Model Vault를 통해 전용 인스턴스를 프로비저닝할 수 있습니다
향후 Cohere의 AI 에이전트 오케스트레이션 플랫폼인 North와의 통합도 계획되어 있어, 단순 음성 전사를 넘어 엔터프라이즈 음성 인텔리전스 기반으로 발전해 나갈 예정입니다.
라이선스
Cohere Transcribe는 Apache License 2.0으로 배포되고 있어, 연구 목적은 물론 상업적 용도로도 자유롭게 사용 및 수정이 가능합니다.
Cohere Transcribe: State-of-the-Art Speech Recognition 소개 블로그
Cohere Transcribe HuggingFace 모델 페이지
이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. ![]()
파이토치 한국 사용자 모임
이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일
로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)
아래
쪽에 좋아요
를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~ ![]()



