안녕하세요
국내 최대 오프라인 커뮤니티 모두의연구소입니다.
오늘은 디코딩 단계를 복사형태로 줄이는 모델과 생성모델에서 라벨없이 사전 학습하되 대상 이미지에서 지식을 추출하는 프레임워크 마지막으로 보이지 않는 화자의 음성까지 합성가능한 TTS 모델에 대한 이야기입니다.
현재 우리가 사용하고 있는 텍스트 생성 모델은 고정된 어휘에서 단어를 순차적으로 선택해 출력을 하는 방식입니다. 이번에 소개할 논문에서는 텍스트 생성을 기존 텍스트에 있는 어휘에서 단어나 구문과 같은 텍스트 세그먼트를 복사해서 사용하는 새로운 방식을 소개합니다.
그 다음 텍스트 세그먼트의 문맥화된 표현을 계산하고 벡터 검색 툴킷을 활용해 인덱스를 생성합니다. 이런 방식을 도입하게 되면 디코딩하는 단계가 줄어들어 추론 효율성이 개선됩니다. 또한 추가 훈련없이 더 큰 단어장을 간단히 확장시켜 추가적인 성능 향상 또한 가능해진다고 하네요!
사전 학습된 생성 모델에서 라벨 없이 사전 학습하는 방식으로 대상 이미지로 지식을 추출하는 방식 알고 계셨나요? 이 방식으로 학습시키는 프레임워크가 새롭게 나왔습니다.
해당 프레임워크가 동작하는 방법으로는 2가지가 있는데요,
첫번째 방식은 ImageNet과 같은 대규모 라벨이 지정된 데이터셋에서 백본을 사용하여 사전 훈련하는 것이 아닌 학습된 생성 기능에 대상 이미지를 추출하는 방식입니다.
두번째 방식은 생성모델에서 얻은 레이블을 대상 백본 모델의 로짓에서 추출하는 방식입니다.
이러한 방식을 사용하면 기존의 사용하던 SSL보다 훨씬 뛰어난 성능을 발휘할 수 있는데요,
앞으로 여러가지 방면으로 사용이 가능할 것 같습니다!
거대 제로샷 텍스트 음성 변환 모델이 새롭게 출시되었습니다.
이전의 TTS모델의 경우 10초 이내의 등록된 녹음으로만 가능했으며 대부분 짧은 음성 프롬프트만 활용하도록 설계되었습니다. 이번 논문에서는 특정 길이의 프롬프트로 보이지 않는 화자의 음성을 합성할 수 있는 제로샷 멀티스피터 TTS 모델을 소개하고 있는데요, 해당 모델은 다양한 길이의 프롬프트에 적합하며 음성변환의 품질 또한 개선했다고 합니다.
이 모델은 중국에서 만들어 졌다보니 중국어 성능이 매우 뛰어날 뿐만 아니라 영어도 수준급으로 적용 가능하다고 하네요~ 관심있으시다면 지금 바로 데모페이지에 들어가셔서 확인해보세요~
모두의연구소와 함께 지식을 나누고 성장할 여러분을 기다립니다.
AI학교 아이펠 쏘카 캠퍼스 모집 중 ⇒ https://me2.kr/IvLsN