[GN] Meta, 혁신적인 AI 모델 아키텍처 Megabyte 공개

9bow · 5월 27, 2023, 10:28오전

GeekNews의 xguru 님께 허락을 받고 GN에 올라온 글들 중에 AI 관련된 소식들을 공유하고 있습니다.

소개

GTP-4 같은 모델이 사용하는 트랜스포머 아키텍처를 뛰어넘어 더 효율적/병렬적으로 처리하게 스케일 가능
트랜스포머는 짧은 시퀀스에는 적합하지만, 고해상 이미지, 팟캐스트, 코드, 책과 같은 1백만개 이상의 긴 토큰으로의 확장은 어려움
Megabyte 는 멀티-스케일 디코더 아키텍처로 1백만 이상의 시퀀스를 모델링 가능
- 입력과 출력의 시퀀스를 개별 토큰이 아닌 "Patch"로 분할
- 로컬 AI 모델이 각 패치에 대해서 결과를 생성하고, 글로벌 모델이 이 패치들을 관리 및 조율
테스트 결과 15억(1.5B)개의 파라미터 모델을 이용하는 Megabyte 모델이 3억 5천만개(350M)개의 파라미터로 동작하는 트랜스포머 모델보다 40% 더 빠르게 시퀀스를 구성
테스트 결과 GPT-4 의 32000개 토큰, Claude의 10만개 토큰을 훨씬 뛰어넘어 1.2M개의 토큰 까지 가능

원문

Artisana의 Megabyte 소개글

Encord의 Megabyte 소개글

Megabyte 논문

https://arxiv.org/pdf/2305.07185.pdf

출처 / GeekNews

9bow · 5월 27, 2023, 10:51오전

아래 TLDR-AI 글에서도 소개하였던 소식이라 함께 보실 수 있게 링크를 남겨둡니다.

[TLDR] 오늘의 AI 뉴스, 2023-05-25: 메타, Megabyte 모델 출시

, 엘론 - 구글과 마이크로소프트에 도전장

, LLM을 위한 메타-인-컨텍스트 학습

읽을거리&정보공유

파이토치 한국 사용자 모임에서는 TLDR 뉴스레터의 승인을 받아 AI 소식을 DeepL로 번역하여 전합니다. 더 많은 AI 소식 및 정보를 공유하고 함께 성장하고 싶으시면 파이토치 한국 사용자 모임에 방문해주세요! [TLDR-AI 뉴스 레터 썸네일] 주요 뉴스 & 신규 출시 소식 / Headlines & Launches 엘론, 구글과 마이크로소프트에 도전하고 싶어하다 / Elon Wants To Challenge Google And Microsoft (3 minute read) 엘론 머스크는 구글과 마이크로소프트에 대항하기 위해 트위터를 포함한 기업 제국의 여러 부분을 포함할 수 있는 인공 지능 비즈니스의 필요성을 느낀다고 말했습니다. Elon Musk said he sees the need for an artificial-intelligence business to rival Google and Microsoft t…

9bow · 5월 27, 2023, 12:20오후

ENCORD의 Founder 겸 President인 Ulrik Stig Hansen의 허락을 받아 Megabyte에 대한 설명 글을 아래와 같이 번역하였습니다.

Meta AI의 혁명적인 모델 아키텍처 MEGABYTE에 대한 설명 글 (MEGABYTE, Meta AI’s New Revolutionary Model Architecture, Explained) 읽을거리&정보공유

AI 인프라/도구 개발사 ENCORD의 글을, 허락 하에 DeepL로 번역하여 공유합니다. ENCORD에서 작성한 원문은 아래 링크를 눌러 보실 수 있습니다. [메가바이트: 멀티스케일 트랜스포머를 사용한 백만 바이트 시퀀스 예측 / MEGABYTE: Predicting Million-byte Sequences with Multiscale Transformers] 자연어 처리(NLP) 분야에서 콘텐츠 생성의 잠재력을 끌어내는 것은 어려운 과제였습니다. 기존 모델들은 긴 시퀀스, 확장성, 느린 생성 속도 등으로 어려움을 겪었습니다. Unlocking the true potential of content generation in natural language processing (NLP) has always been a challenge. Traditional models struggle with long sequences, scalability, and sluggish…