WhisperLiveKit: 실시간 음성 인식(STT), 번역 및 화자 분리 등을 로컬에서 실행할 수 있는 오픈소스 툴킷

9bow · 9월 1, 2025, 9:30오전

WhisperLiveKit 소개

WhisperLiveKit은 실시간 음성 인식(Speech-to-Text), 번역, 그리고 화자 분리(Speaker diarization)를 로컬 환경에서 실행할 수 있는 오픈소스 툴킷입니다. 이 프로젝트는 웹 브라우저에서 직접 결과를 확인할 수 있도록 서버와 간단한 웹 UI까지 제공하며, 기존 OpenAI Whisper 모델이 가진 ‘실시간 인식의 한계’를 극복하기 위해 최신 연구 결과를 적극적으로 반영했습니다. 단순히 오디오를 짧은 청크 단위로 나누어 Whisper를 실행하는 방식은 문맥을 잃고, 단어가 끊어지며, 인식 품질이 저하된다는 문제가 있습니다. WhisperLiveKit은 SimulStreaming, WhisperStreaming, Streaming Sortformer 등 최첨단 스트리밍 기술을 통합하여 이러한 문제를 해결하고 있습니다.

이 프로젝트는 단순히 “Whisper를 빠르게 돌릴 수 있다”는 수준이 아니라, 화자 인식과 음성 활동 감지(Voice Activity Detection, VAD)까지 포함해 실제 서비스 배포에 적합한 아키텍처를 제공합니다. 또한 로컬에서 완전히 작동하기 때문에 개인정보 보호 측면에서도 장점이 있으며, 클라우드 API 비용 없이도 활용할 수 있습니다.

이 툴은 회의 기록, 실시간 자막 생성, 고객 상담 기록 분석, 팟캐스트/영상 자동 전사 등 다양한 분야에 바로 적용할 수 있습니다. 특히 청각 장애인 보조 도구나 고객센터에서 화자 분리가 필요한 환경에서 유용하게 활용할 수 있습니다.

WhisperLiveKit은 기본적으로 OpenAI의 Whisper 모델을 기반으로 하지만, 단순 Whisper 실행과는 달리 실시간 스트리밍과 화자 분리 기능이 강화되어 있습니다.

기존 Whisper: 오디오 파일 단위로 처리 → 실시간 스트리밍 불가, 문맥 단절 발생
WhisperStreaming: 지연을 줄인 실시간 인식 제공 → 하지만 화자 분리 기능은 제한적
Diart, Sortformer: 화자 분리에 특화된 모델 → WhisperLiveKit은 이들을 통합해 실시간 전사+화자 분리가 동시에 가능즉, WhisperLiveKit은 단순 STT(음성-텍스트 변환) 툴이 아니라 “실시간 회의 기록 및 화자 인식 통합 플랫폼”이라는 점에서 차별화됩니다.

WhisperLiveKit 주요 기능

WhisperLiveKit의 구조

백엔드는 여러 사용자가 동시에 접속해도 안정적으로 동작하도록 설계되어 있으며, VAD를 통해 음성이 없을 때는 연산을 줄여 성능 최적화를 이룹니다.

웹 프론트엔드는 단순한 HTML/JS UI를 제공하여 바로 테스트 가능하며, 필요에 따라 커스터마이징하여 서비스에 적용할 수 있습니다.

설치 및 빠른 시작

WhisperLiveKit을 사용하기 위해서는 FFmpeg 설치가 필요합니다. 다음과 같이 pip 명령어로 간단히 설치가 가능합니다:

pip install whisperlivekit

서버 실행은 다음과 같이 가능합니다:

whisperlivekit-server --model base --language en

브라우저에서 http://localhost:8000 에 접속하면 바로 실시간 음성 인식을 체험할 수 있습니다.

고급 활용

화자 분리: --diarization 옵션으로 활성화 가능
백엔드 선택: 기본 simulstreaming 외에 faster-whisper 등 다른 백엔드 사용 가능
Docker 지원: CPU/GPU 환경에서 손쉽게 배포 가능
프로덕션 배포: uvicorn + gunicorn 조합, Nginx 프록시, HTTPS/WebSocket(wss://) 지원

WhisperLiveKit 활용 사례

회의 및 세미나 기록 자동화
청각 보조 도구(실시간 자막)
팟캐스트/영상 자동 전사
고객센터 통화 기록 및 화자 분리 분석

라이선스

WhisperLiveKit 프로젝트는 기본적으로 MIT License로 공개되어 있으며, 누구나 자유롭게 소프트웨어를 사용, 복제, 수정, 배포할 수 있습니다. 상업적 이용 또한 허용되며, 단 소프트웨어에 대한 보증은 제공되지 않습니다.

다만, WhisperLiveKit이 사용하는 일부 백엔드 및 외부 라이브러리에 대해서는 별도의 라이선스 조건이 적용됩니다. 예를 들어, WhisperLiveKit의 SimulStreaming(실시간 스트리밍 엔진) 백엔드는 듀얼 라이선스 정책을 따릅니다:

비상업적 사용: PolyForm Noncommercial License 1.0.0에 따라 무료 사용 가능
상업적 사용: 별도의 상업 라이선스가 필요하며, 등록이 요구됩니다. 현재는 중소기업과 개인에게 부담 없는 가격(또는 상징적 비용)으로 제공될 계획이며, 관련 사항은 설문 링크를 통해 참여할 수 있습니다.
라이선스 관련 문의: Dominik Macháček (machacek@ufal.mff.cuni.cz)

WhisperLiveKit이 의존성을 갖는 기반 프로젝트들의 라이선스들은 다음과 같습니다:

whisper_streaming (ÚFAL) – MIT License
silero-vad (Snakers4) – MIT License
Diart (juanmc2005) – MIT License
SimulStreaming (ÚFAL) – 듀얼 라이선스 (PolyForm Noncommercial License 1.0.0 / 상업 라이
선스)

상세한 내용은 WhisperLiveKit 저장소의 LICENSE 문서 및 관련 프로젝트들의 라이선스들을 참고하셔야 합니다.

WhisperLiveKit 프로젝트 GitHub 저장소

https://github.com/QuentinFuxa/WhisperLiveKit

이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.

파이토치 한국 사용자 모임이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

아래쪽에 좋아요를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~