[GN] ChatGPT는 이제 보고, 듣고, 말할 수 있습니다

GeekNewsxguru님께 허락을 받고 GN에 올라온 글들 중에 AI 관련된 소식들을 공유하고 있습니다. :smiley_cat:


소개

image

  • ChatGPT에 새로운 음성 및 이미지 기능이 출시됨.

  • 음성을 통해 자연스럽게 대화하고, 이미지를 첨부하여 질문하는 것이 가능해짐.

  • 음성은 Whisper를 통해 텍스트로 변환되고, 답변은 새로운 TTS 모델을 기반으로 하여 전문 성우 목소리로 변환됨.

    • 새로운 TTS 모델은 몇 초의 샘플 목소리만 가지고도 해당 사람의 목소리를 그대로 재현하는 것이 가능.
    • 이 모델은 Spotify의 팟캐스트 번역 기능에도 사용되어, 팟캐스터의 목소리를 그대로 사용하여 다국어로 번역을 진행함.
  • 이미지는 한 번에 여러 개 첨부가 가능하며, 이미지 속의 텍스트뿐만 아니라, 사물도 상세하게 인식함.

    • 도구나 장치의 사용법을 물어보거나, 냉장고 속 식재료를 통해 레시피에 대한 대화를 나눌 수 있음.
    • 또한 그래프를 분석하거나 수학 문제를 푸는 등도 가능해짐.
    • 모바일 앱에서는 그리기 도구를 통해 이미지의 특정 부분에 집중하도록 할 수 있음.
    • 안전과 개인 정보 보호를 위해 사람에 대해 분석하거나 이야기하는 기능은 크게 제한되어 있음.
  • 앞으로 2주 내로 Plus 및 Enterprise 사용자에게 먼저 제공될 예정.

  • 음성은 iOS와 Android에서만 동작하며, 이미지 첨부 기능은 모든 플랫폼에서 사용 가능.

    데모 영상

    Rectangle Speak with ChatGPT and have it talk back on Vimeo

    Chat about images on Vimeo

원문

더 읽어보기

GPT-4V(ision) System Card Paper (2023/09)

GPT-4 Technical Report (2023/03)

출처 / GeekNews