안녕하세요 국내 최대 오프라인 인공지능 커뮤니티 모두의연구소입니다!
오늘은 AI Speech Recognition, BtyeFormer로 Transformer를 백본을 활용한 이미지와 음성 인식 논문 마지막으로 멀티모달 자동인식 모델에 대한 소식입니다.
하나. AI Speech Recognition 지금 만나 당장 만나~
지난번 소개드렸던 Huggiing Face에서 소개하는 AI GAME JAM에 대한 결과물로 Unity에서 작동하는 AI Speech Recognition을
이어서 소개해드립니다. 블로그 글을 작성하신 Dylan Ebert는 AI로 게임 개발하기 시리즈를 통해 매우 유명한데요,
이번 AI Speech Recognition은 AI GAME JAM에서 직접 다운 받아서 사용 가능합니다!
관심 있는 분들은 AI GAME JAM에 지금 바로 도전해주세요!
AI Speech Recognition in Unity
둘. 참신한 접근으로 여러분께 영감을 드릴 신상 논문 소개
이번에 소개할 논문은 따끈따끈한 신상 논문입니다!
일반적인 딥러닝 접근방식은 이미지를 RGB 텐서로 디코딩하여 신경망에 전달하는데요,
이번 논문에서는 추론할 때 파일 디코딩할 필요 없이 파일 바이트를 그대로 받는 방법을 연구했습니다.
해당 모델은 BtyeFormer로 Transformer를 백본으로 갖고 있으며 이미지와 음성 인식에서 나름 좋은 성과를 달성했습니다.
비록 SOTA 모델은 아니지만 참신한 접근이라 생각되어서 여러분께 이렇게 논문을 소개해드려요~
Bytes Are All You Need: Transformers Operating Directly On File Bytes
셋. 구글 리서치: 멀티모달 자동인식 모델 제시
이제 자동 음성 인식은 컨퍼런스나 유튜브 스트리밍과 같은 다양한 어플리케이션에서 일상적으로 사용되고 있습니다.
자동 음성 인식의 경우 잡음이 많이 들어갈 경우 문제가 발생하는데요, 그래서 구글 리서치에서는 비디오를 활용하는
멀티모달 자동인식 모델을 제시했습니다. 이러한 모델을 만들기 위해서는 시청각 데이터셋이 많이 필요합니다.
마침 구글 리서치의 AVFormer는 기존 음성 인식 모델을 시각 정보로 보강하고 경량화시키는 방식을 채택했다고 하네요!
관심있는 분들은 해당 논문을 읽어보시는걸 추천합니다!
AVFormer: Injecting vision into frozen speech models for zero-shot AV-ASR
몇 자리 남지 않았어요~ AI학교 아이펠5기 모집, 서두르세요!