Parlor 소개
AI 음성 대화 서비스는 대부분 클라우드 서버에 의존하고 있어 인터넷 연결이 필수이며, 사용자의 음성과 화상 정보가 외부 서버로 전송되는 프라이버시 문제가 늘 따라붙었습니다. Parlor는 이 문제를 해결하기 위해 설계된 오픈소스 프로젝트로, AI 추론부터 음성 인식, 텍스트 음성 변환(TTS)까지 모든 처리를 사용자의 로컬 기기에서 수행합니다.
Parlor의 핵심 아이디어는 최신 경량 모델들의 발전을 활용하여 "로컬에서 실행 가능한 실시간 멀티모달 AI"를 구현하는 것입니다. Google DeepMind의 Gemma 4 E2B 모델이 음성과 화상 이해를 담당하고, Hexgrad의 Kokoro TTS가 텍스트를 자연스러운 음성으로 변환합니다.
Silero의 브라우저 기반 음성 활성화 감지(VAD, Voice Activity Detection) 기술을 활용하여 사용자가 말을 시작하고 멈추는 순간을 자동으로 감지하므로, 별도의 버튼을 누를 필요가 없습니다. LiteRT-LM(Google AI Edge)이 GPU 가속 추론을 담당하여 전체 파이프라인을 로컬에서 실시간으로 처리할 수 있도록 합니다.
프로젝트 자체는 현재 리서치 프리뷰(early-stage experimental) 상태이며, Apple Silicon(M 시리즈) 또는 Linux GPU 환경에서의 실행을 지원합니다. macOS에서는 Kokoro의 MLX 백엔드를, Linux에서는 ONNX 백엔드를 사용합니다.
Parlor의 기술 스택 및 동작 방식
Parlor는 FastAPI 백엔드와 HTML5 프론트엔드로 구성된 웹 서비스 형태로 동작합니다. 사용자가 브라우저에서 http://localhost:8000에 접속하면, 마이크와 카메라에 접근하여 실시간 대화를 시작할 수 있습니다. 백엔드와 프론트엔드 간의 통신은 WebSocket을 통해 실시간으로 이루어지며, TTS 음성이 생성되는 즉시 스트리밍으로 재생됩니다.
Browser (mic + camera)
│
│ WebSocket (audio PCM + JPEG frames)
▼
FastAPI server
├── Gemma 4 E2B via LiteRT-LM (GPU) → understands speech + vision
└── Kokoro TTS (MLX on Mac, ONNX on Linux) → speaks back
│
│ WebSocket (streamed audio chunks)
▼
Browser (playback + transcript)
Gemma 4 E2B(Early 2B, 약 2.6GB 크기)가 첫 실행 시 자동으로 다운로드되어 사용됩니다. 이 모델은 음성 입력과 카메라 화면을 동시에 처리할 수 있는 멀티모달 기능을 갖추고 있어, 사용자가 "화면에 보이는 것이 무엇인가요?"와 같은 시각적 질문을 음성으로 할 수 있습니다. 또한 Barge-in 기능을 지원하여 AI가 응답을 출력하는 도중에도 사용자가 끼어들어 말할 수 있습니다.
Apple M3 Pro 기준으로 측정된 성능 지표는 다음과 같습니다.
| 단계 | 처리 시간 |
|---|---|
| 음성 + 화상 인식 (Speech + Vision) | ~1.8–2.2초 |
| 응답 생성 (Response Generation) | ~0.3초 |
| TTS 합성 | ~0.3–0.7초 |
| 전체 엔드 투 엔드 지연 | ~2.5–3.0초 |
| 디코딩 속도 | ~83 tokens/sec |
전체 엔드-투-엔드 지연(End-to-End Latency)이 약 2.5–3.0초로, 완전한 로컬 실행을 감안하면 실용적인 수준의 응답성을 보여줍니다.
Parlor 설치 및 사용법
최소 요구 사항은 Python 3.12 이상, Apple Silicon(M1/M2/M3/M4) 또는 Linux GPU, 약 3GB 이상의 여유 RAM입니다. 의존성 관리는 uv를 사용합니다.
# 저장소 클론
git clone https://github.com/fikrikarim/parlor.git
cd parlor
# 의존성 설치 (uv 사용)
uv sync
# 서버 실행
uv run server.py
서버가 시작된 후 브라우저에서 http://localhost:8000에 접속하면 바로 사용할 수 있습니다. Gemma 4 E2B 모델(약 2.6GB)은 처음 실행 시 HuggingFace에서 자동으로 다운로드됩니다. macOS에서는 Kokoro MLX 백엔드가, Linux에서는 ONNX 백엔드가 자동으로 선택됩니다.
라이선스
Parlor 프로젝트는 Apache 2.0 라이선스로 공개되어 있어 개인 및 상업적 목적으로 자유롭게 사용할 수 있습니다.
Parlor 개발자 fikrikarim의 Blue.ai 셀프 호스팅
Parlor 프로젝트 GitHub 저장소
더 읽어보기
-
Google DeepMind, 모바일 기기부터 클라우드까지 사용 가능한, 통합 멀티모달 모델 Gemma 4 공개
-
On-Device Browser Agent: Chrome Browser에서 직접 실행되는 로컬 AI 에이전트용 확장(Extension) (feat. RunAnywhere AI)
-
Apple Intelligence: Apple의 On-Device 및 Private Cloud에서의 Foundation Model 소개
-
NeuTTS Air: 3초 분량의 음성만으로 음성 복제가 가능한, On-Device TTS(Text-to-Speech) 모델
-
Cactus: 스마트폰, 웨어러블 기기 등에서의 On-Device AI를 위한 고성능 추론 엔진 및 커널 라이브러리
이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. ![]()
파이토치 한국 사용자 모임
이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일
로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)
아래
쪽에 좋아요
를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~ ![]()
