Ghost Pepper: WhisperKit과 로컬 LLM으로 100% 온디바이스에서 동작하는 macOS 음성 인식 및 텍스트 입력 도구

Ghost Pepper 프로젝트 소개

음성 인식(Speech-to-Text) 도구를 사용할 때 가장 큰 우려 중 하나는 개인 정보 보호입니다. 클라우드 기반 STT 서비스는 녹음된 음성을 외부 서버로 전송하므로, 민감한 회의나 개인적인 내용을 음성으로 입력하는 것이 부담스러울 수 있습니다. Ghost Pepper는 이 문제를 해결하기 위해 개발된 macOS 전용 오픈소스 음성 인식 도구로, 인터넷 연결이나 API 키 없이 완전히 로컬에서 음성 인식과 텍스트 정제 작업을 수행합니다.

Ghost Pepper 프로젝트는 Argmax가 개발한 WhisperKit 라이브러리를 사용하여 Apple Silicon(M1 이상) 디바이스에서 Whisper 모델을 최적화된 속도로 실행하고, LLM.swift 라이브러리를 통해 Qwen 계열의 소형 언어 모델을 로컬에서 실행하여 전사된 텍스트에서 "어", "음" 같은 필러 단어(filler words)와 자기 수정(self-corrections)을 자동으로 정제합니다. GitHub에서 2.1k 스타를 기록하며 개인 정보 보호에 관심있는 개발자와 연구자 커뮤니티에서 주목받고 있습니다.

Ghost Pepper는 Swift로 작성되었으며 macOS 14.0 이상과 Apple Silicon(M1 이상의 칩)이 필요합니다. 메뉴 바(menu bar)에 상주하는 형태로 동작하여 독(Dock)에 표시되지 않으며, Control 키를 누른 상태에서 말하면 자동으로 텍스트로 변환하여 현재 활성 앱에 붙여넣기까지 처리합니다.

Ghost Pepper의 기술 아키텍처: WhisperKit + LLM.swift

Ghost Pepper의 핵심은 두 가지 온디바이스 AI 컴포넌트의 조합입니다: 첫 번째는 WhisperKit 기반의 음성 인식 엔진으로, Apple Neural Engine(ANE)을 최대한 활용하여 Whisper 모델을 실시간에 가까운 속도로 실행합니다. 두 번째는 LLM.swift 기반의 텍스트 정제 모듈로, 소형 Qwen 3.5 모델이 전사된 텍스트를 교정하여 더 자연스러운 최종 출력을 생성합니다.

지원하는 음성 인식 모델은 다음과 같습니다:

모델 용량 특징
Whisper tiny.en ~75 MB 가장 빠름, 영어 전용
Whisper small.en ~466 MB 기본값, 최적 영어 정확도
Whisper small (다국어) ~466 MB 다국어 지원
Parakeet v3 ~1.4 GB 25개 언어 지원
Qwen3-ASR 0.6B int8 ~900 MB 50+ 언어, macOS 15+ 필요

텍스트 정제에 사용되는 로컬 LLM은 Qwen 3.5 시리즈로, 용량과 속도에 따라 0.8B(~535 MB, 1~2초 처리), 2B(~1.3 GB, 4~5초), 4B(~2.8 GB, 5~7초) 모델 중 선택할 수 있습니다. 모든 모델은 HuggingFace를 통해 배포되며, 앱 내에서 자동으로 다운로드됩니다.

개인 정보 보호 감사 결과

Ghost Pepper는 개인 정보 보호를 최우선 가치로 설계되었습니다. 프라이버시 감사 결과에 따르면, 음성-텍스트 변환, 텍스트 정제, 오디오 녹음, 회의 전사, 요약 생성, OCR/화면 캡처, 파일 저장 등 모든 핵심 기능이 완전히 로컬에서 처리되며 어떠한 원격 측정(telemetry)도 없습니다. 선택적으로 제공되는 클라우드 기능(기본 비활성화)은 사용자가 직접 API 키를 제공해야만 활성화됩니다.

Ghost Pepper 설치 및 사용법

GitHub 저장소의 Releases 페이지에서 최신 DMG 파일을 다운로드하여 설치합니다. macOS Sequoia(15.x) 환경에서 Gatekeeper 경고가 뜰 경우, [시스템 설정] → [개인 정보 보호 및 보안]에서 앱을 허용해 주어야 합니다.

설치 후 앱을 실행하면 마이크 접근 권한과 손쉬운 사용(Accessibility) 권한을 요청합니다. 권한 부여 후 Control 키를 누른 상태에서 말하면 음성 인식이 시작되고, 키에서 손을 떼면 자동으로 정제된 텍스트가 활성 앱에 입력됩니다. 회의 녹음 모드에서는 전체 회의를 녹음하고 트랜스크립트, 요약 메모, AI 요약을 마크다운 형식으로 자동 생성합니다.

# ghost-pepper 주요 기능 흐름
1. Control 키 누르기 → 음성 녹음 시작 (WhisperKit 실시간 처리)
2. Control 키 놓기 → 전사 완료
3. Qwen 3.5 로컬 LLM → 텍스트 자동 정제 (1~5초)
4. 활성 앱에 클립보드로 자동 붙여넣기

기업(Enterprise) 환경에서는 MDM(모바일 기기 관리)을 통해 Accessibility 권한을 사전 승인할 수 있으며, Bundle ID는 com.github.matthartman.ghostpepper, Team ID는 BBVMGXR9AY입니다.

라이선스

Ghost Pepper는 MIT 라이선스로 공개되어 있어 개인 및 상업적 목적으로 자유롭게 사용, 수정, 배포할 수 있습니다.

:github: Ghost Pepper 프로젝트 GitHub 저장소

더 읽어보기




이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. :hugs:

:pytorch:파이토치 한국 사용자 모임:south_korea:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:wrapped_gift: 아래:down_right_arrow:쪽에 좋아요:+1:를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~ :star_struck: