Ichigo 프로젝트 소개
Ichigo는 Homebrew Ltd에서 개발한 음성 인식 AI 프로젝트입니다. (이전에 llama3-s 라는 이름으로 진행됐던 프로젝트의 이름을 바꿨습니다.) 로컬 디바이스에서 실시간으로 음성을 인식하는 이 AI는 오픈 데이터와 가중치를 기반으로, Siri와 같은 기존 음성 비서에 비해 더 큰 유연성과 프라이버시 보호를 제공합니다.
즉, Ichigo 프로젝트는 대형 언어 모델(LLM, Large Language Model)에 음성 청취 기능을 추가하여, 단순한 텍스트 입력뿐만 아니라 음성을 통해 명령을 내리고 대화를 나눌 수 있는 AI를 목표로 하고 있습니다.
Ichigo는 조기 융합(Early Fusion) 방식을 사용합니다. 이 방식은 음성 신호를 텍스트와 함께 조기에 결합해, 모델이 동시에 두 가지 데이터를 처리할 수 있게 하는 기법입니다. 이는 Meta의 Chameleon 논문에서 영감을 받은 것으로, 더 나은 음성 인식과 상호작용을 가능하게 합니다. Ichigo의 주요 목표는 실시간 성능을 유지하면서도 멀티턴 대화를 자연스럽게 처리하는 것입니다.
Ichigo의 조기 융합 방식과 특징
Ichigo의 핵심 기술 중 하나는 조기 융합(Early Fusion)입니다. 이 기술은 음성 신호와 텍스트 데이터를 조기에 결합하여 처리하는 방식으로, 이를 통해 음성 기반 명령 처리와 텍스트 기반 언어 이해를 동시에 수행할 수 있습니다. 특히 Ichigo는 음성 데이터와 텍스트 명령을 함께 처리할 수 있어, 사용자가 명령을 텍스트로 입력할 필요 없이 음성으로 직접 명령을 내릴 수 있습니다.
Ichigo의 조기 융합 방식은 Meta의 Chameleon 논문에서 제안된 모델 구조에서 영감을 받았으며, 이를 기반으로 음성 데이터를 더욱 효율적으로 처리할 수 있습니다. 이 방식은 연속적인 대화에서도 유연하게 작동하며, 멀티턴 대화에서 높은 정확도를 보장합니다.
데이터 처리 및 모델 성능
Ichigo의 각 버전은 데이터 정제와 성능 향상을 목표로 개발되었습니다. 특히 Ichigo v0.3은 MMLU 점수가 63.79로 향상되었으며, 비음성 데이터 거부 기능이 추가되어, 잡음이나 비정상적인 음성 입력을 감지하고 처리하지 않도록 설계되었습니다. 이러한 기능은 Ichigo가 보다 자연스럽고 정확한 사용자 상호작용을 제공하는 데 중요한 역할을 합니다.
또한, Ichigo는 음성 데이터를 WhisperSpeechVQ라는 기술을 통해 토큰화하여 사용하며, 이로 인해 음성 인식 정확도와 처리 속도가 크게 향상되었습니다.
라이선스
Ichigo 프로젝트는 Apache-2.0 라이선스로 공개되었습니다.
Ichigo 기술 문서
Early Fusion 기법을 도입한 Meta의 Chameleon 논문
Google Colab에서 사용해보기
Ichigo 데모
이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.
파이토치 한국 사용자 모임
이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일
로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)
아래
쪽에 좋아요
를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~