SpeechAgents: 멀티모달, 멀티에이전트를 사용한 인간과의 의사소통 시뮬레이션 프로젝트

PyTorchKR​:fire::kr: :thinking::speech_balloon:

  • 이 글은 GPT 모델로 정리한 것으로, 잘못된 부분이 있을 수 있으니 글 아래쪽의 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. :hugs:

소개

SpeechAgents는 사람과의 커뮤니케이션 시뮬레이션을 위해 설계된 멀티모달 LLM(MLLM, Multimodal LLM) 기반 멀티에이전트(Multi-Agent) 시스템입니다. SpeechAgents는 멀티모달 LLM을 개별 에이전트의 제어 센터로 활용하고, 멀티모달 신호를 에이전트 간 메시지 교환의 매개체로 사용하며, 일반적인 기능을 손상시키지 않으면서 LLM의 멀티 에이전트 기능을 향상시키기 위해 멀티 에이전트 튜닝을 제안하였습니다. SpeechAgents의 주요 목표는 일관된 내용, 자연스러운 리듬 및 감정적 깊이를 포함하여 인간 대화를 진정성 있게 모방하는 것입니다.

주요 특징

개별 에이전트를 위한 멀티모달 LLM 제어

일반 멀티 에이전트 vs. 멀티모달 기반의 멀티 에이전트 비교

시스템의 각 에이전트는 멀티모달 LLM에 의해 제어되어 여러 감각 채널을 통해 메시지를 처리하고 교환할 수 있습니다. 텍스트, 음성, 시각적 단서와 같은 멀티모달 신호를 메시지 교환의 매체로 처리할 수 있습니다.

멀티 에이전트 능력

SpeechAgents는 멀티 에이전트 튜닝이라는 기술을 사용합니다. 이 접근 방식은 LLM의 멀티 에이전트 상호 작용 능력을 강화하면서 기존의 일반적인 능력을 줄이지 않습니다.

인간 커뮤니케이션 시뮬레이션 벤치마크

SpeechAgents가 인간 대화와 유사한 대화를 생성하는 효과를 테스트하고 보여주기 위해 팀은 특정 벤치마크를 만들었습니다. 이 벤치마크는 인간 대화와 유사한 대화를 생성하는 시스템의 성능을 평가합니다. 이 벤치마크는 일관된 내용, 진정한 리듬 및 풍부한 감정적 깊이와 같은 특성을 가진 대화를 생성하는 시스템의 능력을 테스트합니다.

확장 및 적용 사례

SpeechAgents는 드라마 창작 및 오디오 소설 생성과 같은 작업에서 상당한 잠재력을 보여줍니다. 한 번에 최대 25개의 에이전트를 처리할 수 있어 확장성을 입증하였습니다.

데모


더 읽어보기

SpeechAgents 프로젝트 홈페이지

https://0nutation.github.io/SpeechAgents.github.io/

SpeechAgents 논문

GitHub 저장소

(아직 코드와 데이터셋은 정리 중으로, 공개하기 전이라고 합니다)




:fire:파이토치 한국 사용자 모임:kr:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:gift: 아래:arrow_lower_right:쪽에 좋아요:heart:를 눌러주시면 뉴스 발행에 힘이 됩니다~ :star_struck:

1개의 좋아요