- AI 인프라/도구 개발사 ENCORD의 글을, 허락 하에 DeepL로 번역하여 공유합니다.
- ENCORD에서 작성한 원문은 아래 링크를 눌러 보실 수 있습니다.
자연어 처리(NLP) 분야에서 콘텐츠 생성의 잠재력을 끌어내는 것은 어려운 과제였습니다. 기존 모델들은 긴 시퀀스, 확장성, 느린 생성 속도 등으로 어려움을 겪었습니다.
Unlocking the true potential of content generation in natural language processing (NLP) has always been a challenge. Traditional models struggle with long sequences, scalability, and sluggish generation speed.
하지만 메타 AI가 콘텐츠 생성에 혁신을 가져올 획기적인 모델 아키텍처인 메가바이트(MEGABYTE)를 선보였으니 걱정하지 마세요! 이 글에서는 메가바이트의 잠재력과 혁신적인 기능, 그리고 현재 접근 방식의 한계를 극복하는 방법에 대한 비밀을 자세히 살펴보겠습니다.
But fear not, as Meta AI brings forth MEGABYTE - a groundbreaking model architecture that revolutionizes content generation. In this blog, we will dive deep into the secrets behind MEGABYTE’s potential, its innovative features, and how it tackles the limitations of current approaches.
메가바이트(MEGABYTE)가 무엇인가요? / What is a MEGABYTE?
메가바이트(MEGABYTE)는 100만 바이트 이상의 시퀀스를 엔드-투-엔드 차별성으로 모델링할 수 있는 멀티스케일 디코더 아키텍처입니다. 바이트 시퀀스는 토큰과 거의 동일한 크기의 고정된 패치로 나뉩니다. 이 모델은 세 가지 구성 요소로 나뉩니다:
MEGABYTE is a multiscale decoder architecture that can model sequences of over one million bytes with end-to-end differentiability. The byte sequences are divided into fixed-sized patches roughly equivalent to tokens. The model is divided into three components:
- 패치 임베더(Patch embedder): 이산 시퀀스(discrete sequence) 입력을 받아 각 요소를 임베딩하고 고정된 길이의 패치(patch)들로 분할합니다.
- 글로벌 모듈(Global Module): 이전 패치에 대한 셀프 어텐션을 수행하여 컨텍스트화된 패치 표현(representation)을 만드는 대규모 자기회귀(autogressive) 트랜스포머입니다.
- 로컬 모듈(Local Module): 글로벌 모델로부터 컨텍스트화된 패치 표현을 입력받아 다음 패치를 자기회귀로 예측하는 작은 로컬 트랜스포머입니다.
- Patch embedder: It takes an input of a discrete sequence, embeds each element, and chunks it into patches of a fixed length.
- Global Module: It is a large autoregressive transformer that contextualizes patch representations by performing self-attention over previous patches
- Local Module: It is a small local transformer that inputs a contextualized patch representation from the global model, and autoregressively predicts the next patch.
메가바이트(MEGABYTE)의 아키텍처 개요 / Overview of MEGABYTE’s architecture.출처 / Source
잠깐, 멀티스케일 트랜스포머가 뭔가요? / Hang on, What are Multiscale Transformers?
멀티스케일 트랜스포머는 아키텍처 내에 여러 수준 / 규모의 표현을 통합하는 트랜스포머 모델을 말합니다. 이러한 모델은 다양한 세부 수준 또는 해상도로 정보를 캡처하여 데이터의 로컬 및 글로벌 패턴을 모두 효과적으로 모델링할 수 있도록 합니다.
Multiscale transformers refer to transformer models that incorporate multiple levels or scales of representation within their architecture. These models aim to capture information at different granularities or resolutions, allowing them to effectively model both local and global patterns in the data.
표준 트랜스포머 아키텍처에서 셀프 어텐션(self-attention) 메커니즘은 시퀀스 내 서로 다른 위치 간의 종속성을 포착합니다. 그러나 모든 위치를 동등하게 취급하고 서로 다른 정보 규모를 명시적으로 고려하지 않습니다. 멀티스케일 트랜스포머는 다양한 세부 수준에서 정보를 캡처하는 메커니즘을 도입하여 이러한 한계를 해결합니다.
In a standard transformer architecture, the self-attention mechanism captures dependencies between different positions in a sequence. However, it treats all positions equally and does not explicitly consider different scales of information. Multiscale transformers address this limitation by introducing mechanisms to capture information at various levels of detail.
메가바이트(MEGABYTE)에서 멀티스케일 트랜스포머는 트랜스포머를 쌓아둔 것입니다. 쌓여진 각 트랜스포머는 서로 다른 스케일로 작동하여 특정 스케일에서 종속성(dependency)을 캡처합니다. 트랜스포머의 출력을 서로 다른 수용 영역(receptive field)과 결합함으로써 모델은 여러 규모의 정보를 활용할 수 있습니다. 아래에서 이러한 트랜스포머와 그 작동 방식에 대해 설명하겠습니다!
Multiscale transformers are used in MEGABYTE to stack transformers. Each transformer in the stack operates at a different scale, capturing dependencies at its specific scale. By combining the outputs of transformers with different receptive fields, the model can leverage information at multiple scales. We will discuss these transformers and how they work in a while!
트랜스포머 모델 아키텍처 / Transformer model architecture.출처 / Source
자기회귀 트랜스포머란 무엇인가요? / What are Autoregressive Transformers?
디코더라고도 불리는 자기회귀 트랜스포머는 시퀀스 모델링 작업을 위해 설계된 특정 유형의 머신 러닝 모델입니다. 이는 "Attention is All You Need 논문"에 소개된 트랜스포머 아키텍처의 변형입니다.
Autoregressive transformers, also known as decoders, are a specific type of machine learning model designed for sequence modeling tasks. They are a variant of the transformer architecture, that was introduced in the paper "Attention Is All You Need."
자기회귀 트랜스포머(Autoregressive transformers)는 주로 자연어 처리(NLP)에 사용되며, 이전 토큰을 기반으로 시퀀스의 다음 토큰을 예측하는 것이 목표인 언어 모델링 작업에 대해 학습됩니다. 자동 회귀 트랜스포머의 주요 특징은 새로운 시퀀스를 자동 회귀적으로 생성하는 능력, 즉 토큰을 순차적으로 한 번에 하나씩 예측한다는 점입니다.
Autoregressive transformers are primarily used in natural language processing (NLP) and are trained on language modeling tasks, where the goal is to predict the next token in a sequence based on the previous tokens. The key characteristic of autoregressive transformers is their ability to generate new sequences autoregressively, meaning that they predict tokens one at a time in a sequential manner.
이러한 모델은 시퀀스 내 서로 다른 위치 간의 종속성을 포착할 수 있는 셀프 어텐션 메커니즘을 사용합니다. 자기회귀 트랜스포머는 이전 토큰에 주목함으로써 컨텍스트와 현재 생성되는 토큰 간의 관계를 학습할 수 있습니다. 따라서 일관성 있고 문맥과 관련된 텍스트 시퀀스를 생성하는 데 강력합니다.
These models employ a self-attention mechanism that allows them to capture dependencies between different positions in a sequence. By attending to previous tokens, autoregressive transformers can learn the relationship between the context and the current token being generated. This makes them powerful for generating coherent and contextually relevant sequences of text.
현재 모델의 문제점은 무엇인가요? / What’s Wrong with Current Models?
토큰화 / Tokenization
일반적으로 자기회귀 모델은 어떤 형태의 토큰화를 하게 되는데, 이러한 토큰화는 시퀀스를 처리하기 전에 이뤄져야 합니다. 이로 인해 전처리, 멀티모달 모델링, 새로운 도메인으로의 전이 과정이 복잡해지고 모델에서 유용한 구조가 숨겨집니다. 또한 이 과정에서 시간이 오래 걸리고 오류가 발생하기 쉽습니다.
Typically autoregressive models use some form of tokenization, where sequences need to be tokenized before they can be processed. This complicates pre-processing, multi-modal modeling, and transfer to new domains while hiding useful structures from the model. This process is also time-consuming and error-prone.
확장성 / Scalability
현재 트랜스포머의 핵심 구성 요소인 셀프 어텐션 메커니즘은 시퀀스 길이의 제곱에 비례하여 연산 비용이 늘어나기 때문에 시퀀스 길이를 확장하는 것이 쉽지 않습니다. 즉, 수백만 바이트에 달하는 시퀀스를 처리할 수 있는 모델은 학습하거나 배포하기는데 어려움이 따릅니다.
The current models struggle to scale to long sequences because the self-attention mechanism, which is a key component of transformers, scales quadratically with the sequence length. This makes it difficult to train and deploy models that can handle sequences of millions of bytes.
생성 속도 / Generation speed
현재 NLP 모델은 한 번에 하나의 토큰을 순서대로 예측하는 방식으로 동작합니다. 이 때문에 챗봇이나 대화형 애플리케이션에서 원하는 실시간 텍스트 생성이 어렵습니다. 즉, 현재 모델은 텍스트 생성 속도가 느립니다.
The current NLP models predict each token one at a time, and they do so in order. This can make it difficult to generate text in real-time, such as for chatbots or interactive applications. Hence, the current models are slow to generate text.
메가바이트는 이러한 문제들을 어떻게 해결하나요? / How Does MEGABYTE Address Current Issues?
MEGABYTE의 아키텍처는 긴 시퀀스 모델링을 위해 트랜스포머보다 개선된 기능을 제공함으로써 이러한 문제를 해결하도록 설계되었습니다:
The architecture of MEGABYTE is designed to address these issues by providing improvements over Transformers for long-sequence modeling:
연산 비용을 절감한 셀프 어텐션 / Sub-Quadratic Self-Attention
대부분의 긴 시퀀스 모델 연구는 셀프 어텐션 메커니즘의 (시퀀스 길이의) 제곱에 달하는 연산 비용을 줄이는 데 중점을 두었습니다. 메가바이트는 긴 시퀀스를 두 개의 짧은 시퀀스로 분할하여 셀프 어텐션의 연산 비용을 O(N^{\frac{4}{3}}) 수준으로 줄였는데, 이는 긴 시퀀스에서도 여전히 달성할 수 있는 수준입니다.
The majority of long-sequence model research has been focused on reducing the quadratic cost of the self-attention mechanism. MEGABYTE divides long sequences into two shorter sequences which reduces the self-attention cost to O(N^{\frac{4}{3}}), which is still achievable for long sequences.
패치별 피드포워드 레이어 / Per-Patch Feedforward Layers
GPT-3 정도 크기의 모델에서 98% 이상의 연산 FLOPS가 위치별 피드포워드 레이어(position-wise feedforward layers) 연산에 사용됩니다. 메가바이트는 위치 단위가 아닌 패치 단위로 큰 피드포워드 레이어를 사용함으로써 동일한 연산 비용으로 훨씬 더 크고 연산량이 많은 모델을 만들 수 있습니다.
More than 98% of FLOPS are used in GPT3-size models to compute position-wise feedforward layers. MEGABYTE allows for much larger and more expensive models at the same cost by using large feedforward layers per patch rather than per position.
디코딩의 병렬 처리 / Parallelism in Decoding
앞에서 설명한 것처럼 트랜스포머는 모든 연산을 직렬로 처리해야 합니다. 메가바이트는 패치에 대한 시퀀스를 병렬로 생성하여 시퀀스 생성 시 병렬성을 높일 수 있습니다. 예를 들어, 동일한 컴퓨팅으로 훈련할 경우 15억 개의 파라미터를 가진 메가바이트 모델은 기존 350M 트랜스포머보다 40% 더 빠르게 시퀀스를 생성하는 동시에 복잡도 또한 높일 수 있습니다.
As we discussed above, transformers must serially process all computations. MEGABYTE allows for greater parallelism during sequence generation by generating sequences for patches in parallel. For example, when trained on the same compute, a MEGABYTE model with 1.5B parameters can generate sequences 40% faster than a conventional 350M Transformer while also increasing perplexity.
콘텐츠 생성에 어떤 의미가 있나요? / What Does it Mean for Content Generation?
콘텐츠 생성은 인공지능(AI)의 영역에서 끊임없이 진화하고 있으며, 메가바이트의 등장은 이러한 진보를 증명합니다. AI 모델의 규모와 복잡성이 증가함에 따라 주로 매개변수 수가 증가하는 모델 학습이 발전을 주도해 왔습니다. 1조 개의 매개변수로 추정되는 GPT-4는 더 큰 역량을 추구한다는 것을 의미하지만, OpenAI의 CEO인 샘 알트먼은 전략의 전환을 제안하고 있습니다.
Content generation is constantly evolving in the realm of artificial intelligence (AI), and the emergence of MEGABYTE is a testament to this progress. With AI models growing in size and complexity, advancements have primarily been driven by training models with an increasing number of parameters. While the speculated trillion-parameter GPT-4 signifies the pursuit of greater capability, OpenAI's CEO Sam Altman suggests a shift in strategy.
알트먼은 AI 모델이 아이폰에 탑재된 칩과 비슷한 궤적을 그리며, 소비자는 기술 사양을 알지 못하지만 지속적인 개선을 경험하는 미래를 그리고 있습니다. 이는 단순한 크기와 매개변수를 넘어 AI 모델을 최적화하는 것이 얼마나 중요한지를 강조합니다. 이러한 트렌드를 인지한 Meta AI는 적절한 시기에 MEGABYTE와 함께 혁신적인 아키텍처를 발표했습니다.
Altman envisions a future where AI models follow a similar trajectory to iPhone chips, where consumers are unaware of the technical specifications but experience continuous improvement. This highlights the importance of optimizing AI models beyond sheer size and parameters. Meta AI, recognizing this trend, introduces their innovative architecture with MEGABYTE at an opportune time.
또한, Meta AI의 연구원들은 최적화를 위한 다른 경로가 있다는 사실도 인정하고 있습니다. 유망한 연구 분야로는 패치 기술을 활용한 보다 효율적인 인코더 모델, 시퀀스를 더 작은 블록으로 분해하는 디코드 모델, 시퀀스를 압축된 토큰으로 전처리하는 방법 등이 있습니다. 이러한 발전은 기존 트랜스포머 아키텍처의 기능을 확장하여 새로운 세대의 AI 모델을 위한 기반을 마련할 수 있는 잠재력을 가지고 있습니다.
However, the researchers at Meta AI also acknowledge that there are alternative pathways to optimization. Promising research areas include more efficient encoder models utilizing patching techniques, decode models breaking down sequences into smaller blocks, and preprocessing sequences into compressed tokens. These advancements have the potential to extend the capabilities of the existing Transformer architecture, paving the way for a new generation of AI models.
본질적으로 콘텐츠 생성의 미래는 모델 크기, 계산 효율성, 혁신적인 접근 방식 간의 균형을 맞추는 데 달려 있습니다. 메가바이트는 획기적인 솔루션을 제시하는 한편, 최적화 기술에 대한 지속적인 탐구를 통해 AI 콘텐츠 생성의 지속적인 진화를 보장하며 가능성의 한계를 뛰어넘으려 하고 있습니다.
In essence, the future of content generation lies in striking a balance between model size, computational efficiency, and innovative approaches. While MEGABYTE presents a groundbreaking solution, the ongoing exploration of optimization techniques ensures a continuous evolution in AI content generation, pushing the boundaries of what is possible.
메가바이트는 이 분야의 전문가들 사이에서 큰 관심을 불러일으키고 있습니다. OpenAI의 저명한 AI 엔지니어이자, 이전에 Tesla AI 수석 디렉터였던 안드레이 카파시(Andrej Karpathy)의 이야기를 트위터에서 읽어보세요.
MEGABYTE has generated significant excitement among experts in the field. Read what Andrej Karpathy, a prominent AI engineer at OpenAI and former Senior Director of AI at Tesla has to say about it.
Meta AI의 또 다른 최신 근황들 / Meta AI’s other recent releases
지난 두 달 동안, Meta AI는 오픈 소스 AI 도구를 성공적으로 출시하는 등, 놀라운 성과를 보이고 있습니다.
Over the past two months, Meta AI has had an incredible run of successful releases on open-source AI tools.
세그먼트 애니씽 모델 / Segment Anything Model
Meta AI의 Segment Anything Model(SAM)은 자연어 처리에 전통적으로 사용되던 기초 모델을 적용하여 이미지 세그먼테이션을 미래지향적으로 변화시켰습니다.
Meta AI’s Segment Anything Model (SAM) changed image segmentation for the future by applying foundation models traditionally used in natural language processing.
SAM은 프롬프트 엔지니어링을 사용하여 다양한 세분화 문제를 해결합니다. 이 모델은 바운딩 박스, 키 포인트, 그리드 또는 텍스트와 같은 대화형 프롬프트를 통해 사용자가 세분화할 개체를 선택할 수 있는 기능을 제공합니다.
SAM uses prompt engineering to address a variety of segmentation issues. Through interactive prompts like bounding boxes, key points, grids, or text, this model gives users the power to select an object for segmentation.
SAM은 세분화할 항목이 확실하지 않은 경우 수많은 유효한 마스크를 생성할 수도 있습니다.
SAM has the capacity to produce numerous valid masks when there is doubt about the item to be segmented.
더 좋은 점은 이미지 임베딩을 미리 계산한 후(일반 크기의 이미지의 경우 몇 초 밖에 걸리지 않습니다) 데이터 엔진과 연결하면 SAM이 실시간 세분화 마스크를 제공할 수 있다는 점입니다.
Even better, after the image embeddings are precomputed, which takes only a few seconds for normal-sized images, SAM can give real-time segmentation masks when linked with a Data Engine.
SAM은 라벨링 속도를 크게 높이는 동시에 라벨링 비용을 낮추고 오랫동안 필요했던 AI 지원 라벨링에 대한 해답을 제공할 수 있습니다.
SAM has the ability to significantly increase labeling speed while lowering labeling costs and providing a long-needed answer for AI-assisted labeling.
세그먼트 애니씽 모델에 대해 더 자세히 알고 싶으시다면 이 블로그 글을 읽어보세요.
Check out the full explainer if you would like to know more about Segment Anything Model.
Meta AI 학습 추론 가속기 Meta AI Training Inference Accelerator (MTIA)
Meta AI는 AI 워크로드를 효과적으로 처리하기 위해 MTIA를 만들었습니다. 추천 시스템의 효율성을 향상시키기 위해 특수 ASIC(Application-Specific Integrated Circuit) 칩을 만들었습니다.
Meta AI created MTIA to handle their AI workloads effectively. They created a special Application-Specific Integrated Circuit (ASIC) chip to improve the efficiency of their recommendation systems.
MTIA는 Meta AI의 특정한 추천 워크로드를 실행함에 있어, 필요한 효율성 수준을 맞추기 위해 GPU를 사용하는 것이 언제나 최적의 솔루션이 아니라는 인식에서 개발되었습니다.
MTIA was built as a response to the realization that GPUs were not always the optimal solution for running Meta AI’s specific recommendation workloads at the required efficiency levels.
MTIA 칩은 실리콘, PyTorch, 추천 모델로 구성된 풀스택 솔루션의 구성 요소입니다. 이러한 구성 요소는 모두 Meta AI의 고객에게 완전히 최적화된 랭킹 시스템을 제공하기 위해 공동으로 구축되었습니다.
The MTIA chip is a component of a full-stack solution that also comprises silicon, PyTorch, and recommendation models. These components were all jointly built to provide Meta AI’s customers with a completely optimized ranking system.
MTIA에 대해 더 자세히 알고 싶으시다면 이 블로그 글을 읽어보세요.
Check out the full explainer if you would like to know more about MTIA.
DINOv2
DINOv2는 라벨링된 데이터에 의존하지 않고 이미지에서 시각적 표현을 학습할 수 있는 향상된 자기 지도 학습 기법입니다. 훈련을 위해 DINOv2는 지도 학습 모델처럼 많은 레이블이 지정된 데이터가 필요하지 않습니다.
DINOv2 is an advanced self-supervised learning technique that can learn visual representation from images without relying on labeled data. For training, DINOv2 doesn’t need a lot of labeled data like supervised learning models need.
출처 / Source
DINOv2 프로세스는 사전 훈련과 미세 조정의 두 단계로 이뤄져있습니다. DINO 모델은 정답(label)이 지정되지 않은 이미지로 구성된 상당한 규모의 데이터셋으로부터 사전 학습 중에 효과적인 시각적 표현을 얻습니다. 사전 학습된 DINO 모델은 미세 조정 단계에서 이미지 분류 또는 물체 감지와 같은 작업별 데이터셋에 맞게 미세 조정됩니다.
Pre-training and fine-tuning are the two stages of the DINOv2 process. The DINO model gains effective visual representation during pretraining from a sizable dataset of unlabeled images. The pre-trained DINO model is adapted to a task-specific dataset, such as image classification or object detection, in the fine-tuning stage.
DINOv2의 학습 과정과 응용 사례를 알고 싶다면 이 블로그 글을 읽어보세요.
Learn more about DINOv2's training process and application.
ImageBIND
ImageBIND는 텍스트, 이미지/비디오, 오디오, 깊이, 열, IMU 등 6가지 데이터 형태(모달리티)를 하나의 임베딩 공간을 학습하는 새로운 방법을 도입했습니다. Meta AI의 FAIR Lab에서 개발하여 GitHub에 공개하였습니다. ImageBIND는 AI 모델이 다양한 양식의 정보를 포함함으로써 데이터를 보다 포괄적으로 처리하고 분석하여 당면한 정보를 보다 인간적으로 이해할 수 있도록 도와줍니다.
ImageBIND introduces a novel method for learning a joint embedding space across six different modalities - text, image/video, audio, depth, thermal, and IMU. It is created by Meta AI’s FAIR Lab and published on GitHub. ImageBIND helps AI models process and analyze data more comprehensively by including information from different modalities, leading to a more humanistic understanding of the information at hand.
출처 / Source
고정 차원 임베딩을 생성하기 위해 ImageBind 아키텍처는 각 모달리티에 맞는 선형 프로젝션 헤드와 함께 각 데이터 형태(모달리티)에 맞는 별도의 인코더를 사용합니다. 아키텍처의 세 가지 주요 부분은 다음과 같습니다:
In order to generate fixed-dimensional embeddings, the ImageBind architecture uses distinct encoders for each modality along with linear projection heads adapted to each modality. The three primary parts of the architecture are:
- 모달리티별 인코더
- 모달리티 간 어텐션 모듈
- 임베딩 공간 합치기
- modality-specific encoders
- cross-modal attention module
- joint embedding space
프레임워크의 정확한 사양은 공개되지 않았지만, 연구 논문은 제안된 아키텍처에 대한 인사이트를 제공합니다.
Although the framework’s precise specifications have not been made public, the research paper offers insights into the suggested architecture.
이미지바인드와 멀티모달 기능에 대해 이 블로그 글에서 자세히 알아보세요.
Learn more about ImageBIND and its multimodal capabilities.
전반적으로 여러 모달리티를 관리하고 단일 표현 공간을 생성하는 ImageBIND의 기능은 진보된 AI 시스템으로의 새로운 길을 제시하여 다양한 데이터 유형에 대한 이해를 개선하고 보다 정확한 예측과 결과를 가능하게 합니다.
Overall, ImageBIND’s ability to manage multiple modalities and produce a single representation space opens up new avenues for advanced AI systems, improving their understanding of diverse data types and enabling more precise predictions and results.
결론 / Conclusion
Meta의 메가바이트(MEGABYTE) 출시와 오픈소스 기여는 AI 연구 개발의 경계를 넓히기 위한 Meta의 헌신을 잘 보여줍니다. Meta AI는 메가바이트(MEGABYTE), 세그먼트 애니씽 모델(SAM; Segment Anything Model), DINOv2, MTIA( Meta AI Training Inference Accelerator), 이미지바인드(ImageBIND)와 같은 혁신적인 공헌을 통해 AI의 혁신을 지속적으로 주도하고 있습니다. 이러한 각 혁신은 AI 분야의 지식과 역량을 확장하는 데 기여하며, AI 기술의 최전선을 발전시키는 데 Meta AI의 공헌을 공고히 하고 있습니다.
Meta’s release of MEGABYTE, combined with its track record of open-source contributions, exemplifies the company’s dedication to pushing the boundaries of AI research and development. Meta AI consistently drives innovation in AI, evident in its transformative contributions such as MEGABYTE, Segment Anything Model, DINOv2, MTIA, and ImageBIND. Each of these breakthroughs contributes to the expansion of our knowledge and capabilities in the field of AI, solidifying Meta AI’s contribution to advancing the forefront of AI technology.
이 논문은 릴리 유, 다니엘 시미그, 콜린 플래허티, 아르멘 아가자얀, 루크 제틀모이어, 마이크 루이스가 작성했습니다.
The paper was written by Lili Yu, Dániel Simig, Colin Flaherty, Armen Aghajanyan, Luke Zettlemoyer, and Mike Lewis.