[GN] ChatGPT는 이제 보고, 듣고, 말할 수 있습니다

GeekNewsxguru님께 허락을 받고 GN에 올라온 글들 중에 AI 관련된 소식들을 공유하고 있습니다. :smiley_cat:


소개

  • ChatGPT에 새로운 음성 및 이미지 기능이 출시됨.

  • 음성을 통해 자연스럽게 대화하고, 이미지를 첨부하여 질문하는 것이 가능해짐.

  • 음성은 Whisper를 통해 텍스트로 변환되고, 답변은 새로운 TTS 모델을 기반으로 하여 전문 성우 목소리로 변환됨.

    • 새로운 TTS 모델은 몇 초의 샘플 목소리만 가지고도 해당 사람의 목소리를 그대로 재현하는 것이 가능.
    • 이 모델은 Spotify의 팟캐스트 번역 기능에도 사용되어, 팟캐스터의 목소리를 그대로 사용하여 다국어로 번역을 진행함.
  • 이미지는 한 번에 여러 개 첨부가 가능하며, 이미지 속의 텍스트뿐만 아니라, 사물도 상세하게 인식함.

    • 도구나 장치의 사용법을 물어보거나, 냉장고 속 식재료를 통해 레시피에 대한 대화를 나눌 수 있음.
    • 또한 그래프를 분석하거나 수학 문제를 푸는 등도 가능해짐.
    • 모바일 앱에서는 그리기 도구를 통해 이미지의 특정 부분에 집중하도록 할 수 있음.
    • 안전과 개인 정보 보호를 위해 사람에 대해 분석하거나 이야기하는 기능은 크게 제한되어 있음.
  • 앞으로 2주 내로 Plus 및 Enterprise 사용자에게 먼저 제공될 예정.

  • 음성은 iOS와 Android에서만 동작하며, 이미지 첨부 기능은 모든 플랫폼에서 사용 가능.

    데모 영상

    Rectangle Speak with ChatGPT and have it talk back on Vimeo

    Chat about images on Vimeo

원문

https://openai.com/blog/chatgpt-can-now-see-hear-and-speak

더 읽어보기

GPT-4V(ision) System Card Paper (2023/09)

GPT-4 Technical Report (2023/03)

출처 / GeekNews