OpenAI의 고급 음성 모드 소개
OpenAI는 최근 ChatGPT Plus 구독자 중 일부를 대상으로 고급 음성 모드(Advanced Voice Mode)의 알파 버전을 출시했다고 밝혔습니다. 이 음성 모드는 GPT-4o 모델을 기반으로 하고 있으며, 음성과 텍스트 사이의 변환을 별도의 모델 없이 원활하게 처리할 수 있습니다. OpenAI는 2024년 가을까지 모든 Plus 사용자에게 이 기능을 점진적으로 확대할 계획이라고 밝혔습니다.
핵심 기능 및 역량
실시간 상호작용:
- 사용자가 ChatGPT의 말을 중간에 끊을 수 있어 자연스러운 대화 가능
- 다양한 감정 톤 감지 및 응답 (예: 슬픔, 흥분, 노래 등)
음성 옵션:
- Juniper, Breeze, Cove, Ember 등 4가지 사전 설정된 음성 제공
- 유료 성우들과 협력하여 제작한 음성으로, 특정 개인이나 공인을 모방하지 않도록 설계
안전 조치 및 출시 계획
OpenAI는 고급 음성 모드의 책임 있는 배포를 위해 강력한 안전 조치를 구현했습니다:
- 45개 언어에 걸쳐 100명 이상의 외부 레드팀 테스터와 함께 기능 테스트
- 사전 설정된 음성과 다른 출력을 차단하는 시스템 구축
- 폭력적이거나 저작권이 있는 콘텐츠 생성 방지를 위한 필터 적용
출시 계획은 신중하게 진행되며, OpenAI는 사용 현황을 면밀히 모니터링하면서 접근 권한을 점진적으로 확대할 예정입니다. 일부 Plus 구독자들은 이미 초대를 받았으며, 2024년 가을 말까지 모든 Plus 사용자가 이 기능을 이용할 수 있도록 할 계획입니다.
배경 및 향후 개발 계획
고급 음성 모드 개발 과정에서 초기 데모의 "Sky" 음성이 배우 스칼렛 요한슨의 목소리와 유사하다는 논란이 있었습니다. 이로 인해 법적 문제가 발생하여 해당 음성이 제거되었습니다.
현재 버전(Alpha)에는 포함되지 않았지만, 향후에는 비디오 및 화면 공유 기능도 도입할 예정입니다. 또한, 다음 달(2024년 8월) 초 안전 조치와 관련한 보고서를 발표할 예정입니다.
관련 기사 더 읽어보기
https://x.com/OpenAI/status/1805716393524183136
이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.
파이토치 한국 사용자 모임이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)
아래쪽에 좋아요를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~