- 이 글은 GPT 모델로 자동 요약한 설명으로, 잘못된 내용이 있을 수 있으니 원문을 참고해주세요!
- 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다!
소개
이번 주 선정된 논문을 통해 볼 때, 큰 트렌드는 Open-Source Large Language Models (LLMs), 생성형 AI(Generative AI)의 안전한 배포, 그리고 Robot과 AI의 상호작용, 통합형 AI 모델 (Foundation Models), 그리고 자연어 처리 (NLP) 분야의 발전에 중점을 두고 있다고 할 수 있습니다.
첫째로, 제목에서 바로 알 수 있듯이, Open-Source Large Language Models에 대한 관심이 눈에 띕니다. 이는 최근의 대형 언어 모델들의 성능이 탁월해졌으며, 이것이 오픈소스 인공지능 공동체에서 활동적인 연구 영역으로 부상했기 때문일 수 있습니다. 특히 OpenAI의 ChatGPT 같은 대형 언어 모델들이 사회적인 관심을 많이 받고 있어서 그 연구가 더욱 증가하는 추세를 보입니다.
둘째로, Generative AI의 안전한 배포를 언급하는 논문이 있으며, AI가 가지는 잠재적인 위험과 그에 대한 대비책에 대해 연구가 활발하다는 것을 의미합니다. AI 기술이 사회적으로 널리 퍼지면서 이를 안전하게 적용하기 위한 연구가 중요해졌습니다.
또한, 인간과 로봇의 상호작용을 다루는 논문과 기존 특정 목적의 AI보다 범용 모델이 더 나은 성능을 낼 수 있다는 연구가 포함되어 있으며, 자연어 번역기 관련 기술의 진보를 다루는 논문이 포함되어 NLP에 대한 지속적인 진보와 관심을 알 수 있습니다.
마지막으로, 이런 연구 경향은 기술의 발전뿐만 아니라 사회적인 요구, 정책적인 요인, 그리고 사용자의 기대와 안전에 대한 인식의 변화에 의해 주도되고 있다고 볼 수 있습니다. AI의 발전이 사용자 경험을 극대화하고, 윤리적이며 안전한 방식으로 기술을 배포하는 방향으로 나아가고 있음을 알 수 있습니다.
GNoME: 소재 탐색을 위한 그래프 네트워크 / GNoME: Graph Networks for Materials Exploration
논문 소개
- 38만 개의 안정적인 소재를 포함해 220만 개의 새로운 결정을 찾아내는 새로운 소재 설계용 AI 시스템, 새로운 소재의 안정성을 예측하여 발견의 속도와 효율성을 높이는 새로운 딥러닝 툴을 선보입니다.
A new ai system for material design that finds 2.2 million new crystals, including 380,000 stable materials; presents a new deep learning tool that increases the speed and efficiency of discovery by predicting the stability of new materials.
논문 링크
https://www.nature.com/articles/s41586-023-06735-9
더 읽어보기
https://x.com/demishassabis/status/1729995611443769823
ChatGPT 출시 1주년: 오픈소스 대규모 언어 모델이 따라잡고 있나요? / ChatGPT's One-year Anniversary: Are Open-Source Large Language Models Catching up?
논문 소개
- 오픈소스 LLM가 ChatGPT와 동등하거나 더 우수하다고 주장하는 작업에 대한 전체 개요를 제공합니다.
Provides an exhaustive overview of tasks where open-source llms claim to be on par or better than chatgpt.
논문 초록
- 2022년 말 출시된 ChatGPT는 연구와 커머스 분야에서 AI의 전체 지형에 지각변동을 가져왔습니다. 인간의 피드백을 통한 지도 미세 조정과 강화 학습을 통해 대규모 언어 모델(LLM)을 인스트럭션 튜닝함으로써 모델이 인간의 질문에 답하고 광범위한 작업 패널에서 지시를 따를 수 있음을 보여주었습니다. 이 성공 이후, 학계와 산업계에서 새로운 LLM에 대한 관심이 높아졌고, LLM에 초점을 맞춘 많은 스타트업이 생겨났습니다. 일반적으로 오픈소스 LLM(예: OpenAI의 GPT, Anthropic의 클로드)이 오픈소스보다 성능이 뛰어나지만, 특정 작업에서 오픈소스와 동등하거나 더 나은 성능을 보인다는 주장이 제기되면서 후자의 발전 속도도 빨라지고 있습니다. 이는 연구뿐만 아니라 비즈니스에도 중요한 영향을 미칩니다. 이번 글에서는 ChatGPT 출시 1주년을 맞아 오픈소스 LLM이 ChatGPT와 동등하거나 더 나은 성능을 보인다고 주장한 모든 작업을 조사하여 이러한 성공에 대한 전반적인 개요를 제공합니다.
Upon its release in late 2022, ChatGPT has brought a seismic shift in the entire landscape of AI, both in research and commerce. Through instruction-tuning a large language model (LLM) with supervised fine-tuning and reinforcement learning from human feedback, it showed that a model could answer human questions and follow instructions on a broad panel of tasks. Following this success, interests in LLMs have intensified, with new LLMs flourishing at frequent interval across academia and industry, including many start-ups focused on LLMs. While closed-source LLMs (e.g., OpenAI's GPT, Anthropic's Claude) generally outperform their open-source counterparts, the progress on the latter has been rapid with claims of achieving parity or even better on certain tasks. This has crucial implications not only on research but also on business. In this work, on the first anniversary of ChatGPT, we provide an exhaustive overview of this success, surveying all tasks where an open-source LLM has claimed to be on par or better than ChatGPT.
논문 링크
더 읽어보기
https://x.com/sophiamyang/status/1730108858889097710
적대적 디퓨전 증류 / Adversarial Diffusion Distillation
논문 소개
- 높은 이미지 품질을 유지하면서 단 1~4단계로 대규모 기초 이미지 디퓨젼 모델을 효율적으로 샘플링하고, 점수 증류와 적대적 손실을 결합하여 1~2단계의 낮은 샘플링 단계에서도 높은 이미지 충실도를 보장하며, 단 4단계로 최첨단 디퓨젼 모델의 성능에 도달하는 새로운 학습 접근 방식입니다.
A novel training approach that efficiently samples large-scale foundation image diffusion models in just 1-4 steps while maintaining high image quality; combines score distillation and an adversarial loss to ensure high image fidelity even in the low-step regime of one or two sampling steps; reaches performance of state-of-the-art diffusion models in only four steps.
논문 링크
더 읽어보기
https://x.com/robrombach/status/1729590281647870342
Seamless: 다국어 표현 및 스트리밍 음성 번역 / Seamless: Multilingual Expressive and Streaming Speech Translation
논문 소개
- 스트리밍 방식으로 엔드투엔드(End-to-End) 표현형 다국어 커뮤니케이션을 가능하게 하는 연구 모델 제품군, 더 많은 저자원 언어 데이터로 학습된 개선된 SeamlessM4T 모델 도입, 보다 안전한 다중 모드 기계 번역을 위한 레드팀 노력 적용.
A family of research models that enable end-to-end expressive cross-lingual communication in a streaming fashion; introduces an improved seamlssm4t model trained on more low-resource language data; also applies red-teaming effort for safer multimodal machine translation.
논문 링크
더 읽어보기
https://x.com/AIatMeta/status/1730294284023427221
MEDITRON-70B: 의학 분야의 LLM 사전 학습 확장 / MEDITRON-70B: Scaling Medical Pretraining for Large Language Models
논문 소개
- 의료 영역에 맞게 조정된 7b 및 70b 파라미터를 갖춘 오픈소스 LLMS 제품군, 라마-2를 기반으로 하며 선별된 의료 말뭉치에 대한 사전 학습을 확장, 메디트론-70b는 gpt-3.5 및 med-palm보다 성능이 뛰어나며 gpt-4의 5%, med-palm-2의 10% 이내 수준입니다.
A suite of open-source llms with 7b and 70b parameters adapted to the medical domain; builds on llama-2 and extends pretraining on a curated medical corpus; meditron-70b outperforms gpt-3.5 and med-palm and is within 5% of gpt-4 and 10% of med-palm-2.
논문 초록
- 대규모 언어 모델(LLM)은 잠재적으로 의학 지식에 대한 접근을 민주화할 수 있습니다. LLM의 의학 지식과 추론 능력을 활용하고 개선하기 위해 많은 노력을 기울여 왔지만, 그 결과물인 모델은 폐쇄형 소스(예: PaLM, GPT-4)이거나 규모가 제한적(매개변수 13억 개 미만)이어서 그 능력이 제한되어 있습니다. 이번 연구에서는 의료 영역에 맞게 조정된 7억 개 및 70억 개의 파라미터를 갖춘 오픈소스 LLM 제품군인 MEDITRON을 출시하여 대규모 의료 LLM에 대한 접근성을 개선했습니다. 메디트론은 Llama-2(라마-2, NVIDIA의 Megatron-LM 분산 트레이너를 채택하여)를 기반으로 하며, 엄선된 PubMed 논문, 초록, 국제적으로 인정받는 의료 가이드라인 등 종합적으로 큐레이션된 의료 코퍼스에 대한 사전 학습을 확장합니다. 네 가지 주요 의료 벤치마크를 사용한 평가 결과, 작업별 미세 조정 전후에 여러 최첨단 기준선에 비해 상당한 성능 향상을 보였습니다. 전반적으로 메디트론은 파라미터 클래스에서 가장 우수한 공개 기준선에 비해 6%의 절대 성능 향상을 달성했으며, Llama-2에서 미세 조정한 가장 강력한 기준선에 비해 3%의 성능 향상을 달성했습니다. 클로즈드 소스 LLM과 비교했을 때, 메디트론-70B는 GPT-3.5와 Med-PaLM보다 성능이 뛰어나며 GPT-4의 5%, Med-PaLM-2의 10% 이내입니다. 유니티는 의료용 사전 학습 코퍼스 큐레이팅 코드와 메디트론 모델 가중치를 공개하여 더 우수한 의료용 LLM의 오픈소스 개발을 촉진합니다.
Large language models (LLMs) can potentially democratize access to medical knowledge. While many efforts have been made to harness and improve LLMs' medical knowledge and reasoning capacities, the resulting models are either closed-source (e.g., PaLM, GPT-4) or limited in scale (<= 13B parameters), which restricts their abilities. In this work, we improve access to large-scale medical LLMs by releasing MEDITRON: a suite of open-source LLMs with 7B and 70B parameters adapted to the medical domain. MEDITRON builds on Llama-2 (through our adaptation of Nvidia's Megatron-LM distributed trainer), and extends pretraining on a comprehensively curated medical corpus, including selected PubMed articles, abstracts, and internationally-recognized medical guidelines. Evaluations using four major medical benchmarks show significant performance gains over several state-of-the-art baselines before and after task-specific finetuning. Overall, MEDITRON achieves a 6% absolute performance gain over the best public baseline in its parameter class and 3% over the strongest baseline we finetuned from Llama-2. Compared to closed-source LLMs, MEDITRON-70B outperforms GPT-3.5 and Med-PaLM and is within 5% of GPT-4 and 10% of Med-PaLM-2. We release our code for curating the medical pretraining corpus and the MEDITRON model weights to drive open-source development of more capable medical LLMs.
논문 링크
더 읽어보기
https://x.com/eric_zemingchen/status/1729563855213175010
다재다능한 파운데이션 모델이 특수 목적 튜닝을 능가할 수 있을까요? 의학 분야의 사례 연구 / Can Generalist Foundation Models Outcompete Special-Purpose Tuning? Case Study in Medicine
논문 소개
- 의료 질문 답변에 대한 LLM의 성능을 향상시키기 위해 프롬프트 엔지니어링에 대한 체계적인 탐색을 수행하고, 도메인 전문 지식을 사용하지 않고 범용적인 프롬프트 엔지니어링 방법을 사용하며, 프롬프트 엔지니어링을 통해 GPT-4의 성능을 향상시키고 MultimedQA 제품군의 9개 벤치마크 데이터세트에서 최첨단 결과를 달성합니다.
Performs a systematic exploration of prompt engineering to boost the performance of llms on medical question answering; uses prompt engineering methods that are general purpose and make no use of domain expertise; prompt engineering led to enhancing gpt-4’s performance and achieves state-of-the-art results on nine benchmark datasets in the multimedqa suite.
논문 초록
- GPT-4와 같은 제너럴리스트 기반 모델은 다양한 영역과 작업에서 놀라운 역량을 발휘해 왔습니다. 그러나 이러한 모델은 세밀하게 조정된 모델의 전문 역량을 따라잡을 수 없다는 가정이 널리 퍼져 있습니다. 예를 들어, 지금까지 의료 역량 벤치마크에 대한 대부분의 탐색은 BioGPT 및 Med-PaLM에 대한 노력에서 볼 수 있듯이 도메인별 학습을 활용했습니다. 저희는 특별한 교육이 없는 상황에서 의료 과제 벤치마크에 대한 GPT-4의 역량에 대한 이전 연구를 기반으로 합니다. 단순한 프롬프트를 사용하여 모델의 즉시 사용 가능한 기능을 강조하기보다는 프롬프트 엔지니어링에 대한 체계적인 탐색을 수행합니다. 그 결과, 프롬프트 혁신을 통해 보다 심층적인 전문가 역량을 발휘할 수 있으며, GPT-4가 의료 벤치마크에서 기존의 선도적인 결과를 쉽게 뛰어넘는다는 사실을 발견했습니다. 우리가 탐구하는 프롬프트 방식은 범용적이며 도메인 전문성을 특별히 활용하지 않기 때문에 전문가가 선별한 콘텐츠가 필요하지 않습니다. 실험 설계는 프롬프트 엔지니어링 프로세스 중 과적합을 신중하게 제어합니다. 여러 가지 프롬프트 전략의 구성을 기반으로 한 Medprompt를 소개합니다. 메드프롬프트를 통해 GPT-4는 MultimedQA 제품군의 9개 벤치마크 데이터 세트 모두에서 최첨단 결과를 달성합니다. 이 방법은 모델에 대한 호출 수가 훨씬 적으면서도 Med-PaLM 2와 같은 주요 전문 모델보다 훨씬 뛰어난 성능을 발휘합니다. 메드프롬프트로 GPT-4를 조정하면 전문 모델에서 지금까지 달성한 최고의 방법보다 MedQA 데이터 세트의 오류율이 27% 감소하고 처음으로 90%의 점수를 넘어섭니다. 의료 문제 외에도 전기 공학, 기계 학습, 철학, 회계, 법학, 간호학, 임상 심리학 시험에 대한 전략 연구를 통해 다른 영역으로 일반화할 수 있는 Medprompt의 힘을 보여주고 이 접근법의 광범위한 적용 가능성에 대한 증거를 제공합니다.
Generalist foundation models such as GPT-4 have displayed surprising capabilities in a wide variety of domains and tasks. Yet, there is a prevalent assumption that they cannot match specialist capabilities of fine-tuned models. For example, most explorations to date on medical competency benchmarks have leveraged domain-specific training, as exemplified by efforts on BioGPT and Med-PaLM. We build on a prior study of GPT-4's capabilities on medical challenge benchmarks in the absence of special training. Rather than using simple prompting to highlight the model's out-of-the-box capabilities, we perform a systematic exploration of prompt engineering. We find that prompting innovation can unlock deeper specialist capabilities and show that GPT-4 easily tops prior leading results for medical benchmarks. The prompting methods we explore are general purpose, and make no specific use of domain expertise, removing the need for expert-curated content. Our experimental design carefully controls for overfitting during the prompt engineering process. We introduce Medprompt, based on a composition of several prompting strategies. With Medprompt, GPT-4 achieves state-of-the-art results on all nine of the benchmark datasets in the MultiMedQA suite. The method outperforms leading specialist models such as Med-PaLM 2 by a significant margin with an order of magnitude fewer calls to the model. Steering GPT-4 with Medprompt achieves a 27% reduction in error rate on the MedQA dataset over the best methods to date achieved with specialist models and surpasses a score of 90% for the first time. Beyond medical problems, we show the power of Medprompt to generalize to other domains and provide evidence for the broad applicability of the approach via studies of the strategy on exams in electrical engineering, machine learning, philosophy, accounting, law, nursing, and clinical psychology.
논문 링크
더 읽어보기
https://x.com/erichorvitz/status/1729854235443884385
UniIR: 범용 멀티모달 정보 검색기의 학습 및 벤치마킹 / UniIR: Training and Benchmarking Universal Multimodal Information Retrievers
논문 소개
- 여러 모달리티에 걸쳐 8가지 검색 작업을 처리하는 통합 명령어 안내식 멀티모달 검색기입니다 - 학습하지 못했던(unseen) 검색 작업을 일반화할 수 있으며 기존 데이터셋에서 강력한 성능을 달성하고 새로운 작업에 대한 제로샷 일반화, 멀티모달 정보 검색의 평가를 표준화하는 데 도움이 되는 멀티모달 검색 벤치마크를 제시합니다. multimodal
A unified instruction-guided multimodal retriever that handles eight retrieval tasks across modalities; can generalize to unseen retrieval tasks and achieves robust performance across existing datasets and zero-shot generalization to new tasks; presents a multimodal retrieval benchmark to help standardize the evaluation of multimodal information retrieval.
논문 초록
- 기존의 정보 검색(IR; Information Retrieval) 모델은 텍스트 설명이 포함된 이미지 검색, 헤드라인 이미지가 포함된 뉴스 기사 검색, 쿼리 이미지와 유사한 사진 찾기 등 다양한 사용자 요구에 적용하는 데 한계가 있을 정도로 균일한 형식을 취하는 경우가 많습니다. 이러한 다양한 정보 검색 수요에 대응하기 위해, 여러 방식에 걸쳐 8가지 검색 작업을 처리할 수 있는 통합 명령어 안내형 멀티모달 검색기인 UniIR을 소개합니다. 10개의 다양한 멀티모달 IR 데이터세트에 대해 공동 학습된 단일 검색 시스템인 UniIR은 사용자 명령을 해석하여 다양한 검색 작업을 실행하며, 기존 데이터세트에 대한 강력한 성능과 새로운 작업에 대한 제로샷 일반화를 보여줍니다. 실험을 통해 멀티태스크 트레이닝과 명령어 튜닝이 UniIR의 일반화 능력의 핵심임을 알 수 있습니다. 또한 종합적인 결과를 제공하는 멀티모달 검색 벤치마크인 M-BEIR을 구축하여 범용 멀티모달 정보 검색의 평가를 표준화합니다.
Existing information retrieval (IR) models often assume a homogeneous format, limiting their applicability to diverse user needs, such as searching for images with text descriptions, searching for a news article with a headline image, or finding a similar photo with a query image. To approach such different information-seeking demands, we introduce UniIR, a unified instruction-guided multimodal retriever capable of handling eight distinct retrieval tasks across modalities. UniIR, a single retrieval system jointly trained on ten diverse multimodal-IR datasets, interprets user instructions to execute various retrieval tasks, demonstrating robust performance across existing datasets and zero-shot generalization to new tasks. Our experiments highlight that multi-task training and instruction tuning are keys to UniIR's generalization ability. Additionally, we construct the M-BEIR, a multimodal retrieval benchmark with comprehensive results, to standardize the evaluation of universal multimodal information retrieval.
논문 링크
더 읽어보기
https://x.com/CongWei1230/status/1730307767469068476
안전한 생성형 AI 배포 / Safe Deployment of Generative AI
논문 소개
- 사람들의 개인 정보를 보호하기 위해서는 상업적 이해관계가 아닌 의료 전문가가 이러한 모델의 개발과 배포를 주도해야 한다고 주장합니다.
Argues that to protect people’s privacy, medical professionals, not commercial interests, must drive the development and deployment of such models.
논문 링크
https://www.nature.com/articles/d41586-023-03803-y
더 읽어보기
https://x.com/ClementDelangue/status/1730300666403238393
도비-E: 로봇을 집으로 가져오기 / Dobb-E: On Bringing Robots Home
논문 소개
- 가정 환경에서 로봇 조작을 학습할 수 있는 저렴하고 다재다능한 범용 시스템인 Dobb-E를 소개하고, 5분의 사용자 시연만으로 새로운 작업을 학습할 수 있으며, 실험을 통해 강한 그림자의 효과, 비전문가 사용자의 다양한 시연 품질 등 실험실 로봇 공학에서는 없거나 무시되는 독특한 문제를 발견합니다.
Introduces dobb-e, an affordable and versatile general-purpose system for learning robotic manipulation within household settings; dobbe-e can learn new tasks with only 5 minutes of user demonstrations; experiments reveal unique challenges absent or ignored in lab robotics, including effects of strong shadows, variable demonstration quality by non-expert users, among others.
논문 초록
- 인류는 역사를 통틀어 다양한 기계를 가정에 성공적으로 통합해 왔습니다. 식기세척기, 세탁기, 스탠드 믹서, 로봇 청소기 등이 최근의 대표적인 예입니다. 하지만 이러한 기계는 한 가지 작업만 효과적으로 수행하는 데 탁월합니다. 가정에서 '제너럴리스트 머신'이라는 개념, 즉 비용 효율적이면서도 우리의 필요에 따라 적응하고 학습할 수 있는 가사 도우미라는 개념은 수십 년 동안 꾸준히 추구되어 온 로봇공학의 목표였습니다. 이번 연구에서는 가정 환경에서 로봇 조작을 학습할 수 있는 저렴하면서도 다재다능한 범용 시스템인 Dobb-E를 소개함으로써 이 목표를 향한 대규모 노력을 시작합니다. 저렴한 부품과 iPhone으로 만든 데모 수집 도구('The Stick') 덕분에 Dobb-E는 사용자가 5분만 보여주면 새로운 작업을 학습할 수 있습니다. 우리는 스틱을 사용하여 뉴욕시의 22개 가정에서 13시간 분량의 데이터를 수집하고 가정용 사전 학습된 표현(HPR; Home Pretrained Representations)을 학습시켰습니다. 그런 다음, 새로운 가정 환경에서 5분간의 시연과 15분간의 HPR 모델 적용을 통해 Dobb-E가 시중에서 쉽게 구할 수 있는 모바일 로봇인 스트레치에서 작업을 안정적으로 해결할 수 있음을 보여주었습니다. 뉴욕시와 주변 지역의 가정에서 약 30일 동안 10개의 가정에서 다양한 환경에서 총 109개의 과제를 수행하며 시스템을 테스트한 결과, 최종적으로 81%의 성공률을 달성했습니다. 성공률 외에도 실험을 통해 실험실 로봇 공학에는 없거나 무시되는 수많은 고유한 과제를 발견할 수 있었습니다. 여기에는 강한 그림자의 효과부터 비전문가의 다양한 데모 품질까지 다양한 문제가 포함됩니다. 유니티는 가정용 로봇에 대한 연구를 가속화하고 궁극적으로 모든 가정에서 로봇 집사를 만날 수 있기를 바라며 Dobb-E 소프트웨어 스택과 모델, 데이터, 하드웨어 설계를 https://dobb-e.com 에서 오픈소스로 공개하고 있습니다
Throughout history, we have successfully integrated various machines into our homes. Dishwashers, laundry machines, stand mixers, and robot vacuums are a few recent examples. However, these machines excel at performing only a single task effectively. The concept of a "generalist machine" in homes - a domestic assistant that can adapt and learn from our needs, all while remaining cost-effective - has long been a goal in robotics that has been steadily pursued for decades. In this work, we initiate a large-scale effort towards this goal by introducing Dobb-E, an affordable yet versatile general-purpose system for learning robotic manipulation within household settings. Dobb-E can learn a new task with only five minutes of a user showing it how to do it, thanks to a demonstration collection tool ("The Stick") we built out of cheap parts and iPhones. We use the Stick to collect 13 hours of data in 22 homes of New York City, and train Home Pretrained Representations (HPR). Then, in a novel home environment, with five minutes of demonstrations and fifteen minutes of adapting the HPR model, we show that Dobb-E can reliably solve the task on the Stretch, a mobile robot readily available on the market. Across roughly 30 days of experimentation in homes of New York City and surrounding areas, we test our system in 10 homes, with a total of 109 tasks in different environments, and finally achieve a success rate of 81%. Beyond success percentages, our experiments reveal a plethora of unique challenges absent or ignored in lab robotics. These range from effects of strong shadows, to variable demonstration quality by non-expert users. With the hope of accelerating research on home robots, and eventually seeing robot butlers in every home, we open-source Dobb-E software stack and models, our data, and our hardware designs at https://dobb-e.com
논문 링크
더 읽어보기
https://x.com/LerrelPinto/status/1729515379892826211
Translatotron 3: 단일 언어 데이터를 사용한 음성 대 음성 번역 / Translatotron 3: Speech to Speech Translation with Monolingual Data
논문 소개
- 단일 언어 데이터만으로 학습할 수 있는 음성 간 번역에 대한 비지도 접근 방식을 제안하고, 마스킹 자동 인코더(MAE; Masking Auto Encoder), 비지도 임베딩 매핑 및 역번역(Back-translation)을 결합하였습니다. Translatotron 3는 베이스라인 캐스케이드 시스템(cascade system)보다 성능이 뛰어나고 일시 정지, 말하기 속도 및 화자 인식과 같은 준언어적/비언어적 특성을 유지하는 기능을 보여줍니다.
Proposes an unsupervised approach to speech-to-speech translation that can learn from monolingual data alone; combines masked autoencoder, unsupervised embedding mapping, and back-translation; results show that the model outperforms a baseline cascade system and showcases its capability to retain para-/non-linguistic such as pauses, speaking rates, and speaker identity.
논문 초록
- 이 논문에서는 단일 언어 음성-텍스트 데이터셋에서 완전한 비지도 방식으로만 직접 음성-음성 간 번역 모델을 학습하는 새로운 접근 방식인 Translatotron 3을 소개합니다. Translatotron 3은 마스크드 자동 인코더, 비지도 임베딩 매핑, 역번역을 결합하여 이러한 목표를 달성합니다. 스페인어와 영어 간의 음성 간 번역 작업에 대한 실험 결과에 따르면 Translatotron 3는 합성된 비쌍-대화 데이터셋에서 18.14 BLEU 포인트 향상을 기록하며 기준 캐스케이드 시스템보다 뛰어난 성능을 보였습니다. 사용할 수 없는 실제 페어링 데이터나 비언어적 정보를 복제하기 위한 특수 모델링이 필요한 지도 방식과 달리, Translatotron 3는 일시 정지, 말하기 속도, 화자 정체성 등 비언어적 정보를 보존할 수 있는 능력을 보여줍니다. 오디오 샘플은 당사 웹사이트 Translatotron 3: Speech to Speech Translation with Monolingual Data 에서 확인할 수 있습니다
This paper presents Translatotron 3, a novel approach to train a direct speech-to-speech translation model from monolingual speech-text datasets only in a fully unsupervised manner. Translatotron 3 combines masked autoencoder, unsupervised embedding mapping, and back-translation to achieve this goal. Experimental results in speech-to-speech translation tasks between Spanish and English show that Translatotron 3 outperforms a baseline cascade system, reporting 18.14 BLEU points improvement on the synthesized Unpaired-Conversational dataset. In contrast to supervised approaches that necessitate real paired data, which is unavailable, or specialized modeling to replicate para-/non-linguistic information, Translatotron 3 showcases its capability to retain para-/non-linguistic such as pauses, speaking rates, and speaker identity. Audio samples can be found in our website Translatotron 3: Speech to Speech Translation with Monolingual Data
논문 링크
더 읽어보기
https://x.com/GoogleAI/status/1730654297350959413