[GN] 구글 Universal Speech Model(USM) : 100개 이상의 언어를 지원하는 최첨단 Speech AI

GeekNews 의 xguru님께 허락을 받고 GN에 올라온 글들 중에 AI 관련된 소식들을 공유하고 있습니다. ^^

[소개 글]

  • 작년 11월에 시작한 "1,000개 언어 이니셔티브(1000개 언어를 지원하는 머신러닝 모델 만들기)"를 진행중
  • 현재 USM은 2B(20억)개의 파라미터로 300개가 넘는 언어, 1200만 시간의 음성, 280억개의 문장으로 훈련됨
  • 유튜브에서 자막 생성을 위해 사용. 영어/중국어뿐만 아니라, Amharic, Cebuano, Assamese, Azerbaijani 같은 언어까지 지원
  • 목표 달성을 위한 두가지 중요한 과제
    • 기존의 감독 학습방법은 확장성이 부족
    • 언어를 늘리기 위해서 모델을 효율적으로 생성
  • 접근 방식 : Self-supervised learning with fine-tuning(미세 조정을 통한 자기주도 학습)
  • 논문과 API(연구자들만 신청가능) 공개

[원문]

[출처/GeekNews]