LCM(Large Concept Models), Meta AI가 공개한 개념 기반의 대규모 모델

9bow · 12월 26, 2024, 9:00오후

LCM(Large Concept Models) 연구 소개

대규모 언어 모델(Large Language Model, LLM)은 자연어 처리 분야에서 주목받으며 많은 작업에서 혁신적인 성과를 보여주고 있습니다. 그러나 대부분의 LLM은 토큰 단위에서 작동하며, 인간처럼 문장이나 고차원적 추상 수준에서 사고하지 못합니다. 이에 Meta의 연구팀은 LLM의 한계를 극복하기 위해 새로운 아키텍처인 ’Large Concept Model(LCM)’을 제안합니다.

LLM은 텍스트 분석, 요약, 생성 등의 작업에서 뛰어난 성능을 보여줍니다. 하지만 대부분의 LLM은 입력과 출력을 처리할 때 단어 단위의 토큰으로만 작동하여, 인간의 사고 방식과는 거리가 있습니다. 예를 들어, 인간은 복잡한 문서를 분석할 때 단어보다 문장이나 단락 단위의 의미를 이해하고 이를 바탕으로 계획을 세웁니다.

LCM은 이러한 인간 사고 방식을 모델링하기 위해 등장했으며, 문장 표현 공간에서 동작합니다. 이를 통해 언어와 모달리티에 구애받지 않는 고차원 의미를 처리하여 다국어(Multilingual) 및 긴 문맥(Long-form Context) 처리가 필요한 작업에서 뛰어난 제로샷 학습 성능을 발휘합니다. 특히, 문장 표현 공간에서 작동하는 LCM의 접근 방식은 멀티모달(Multimodal) 및 다국어 데이터를 보다 효율적으로 처리하고, 인간의 추론 패턴에 가까운 계층적 사고를 지원하여 기존 모델보다 뛰어난 성능을 보입니다.

LCM 모델 개요

LCM(Local Concept Models)은 “개념(Concept)”을 의미 단위로 사용하여 토큰 기반 제약을 벗어나 보다 의미론적인 추론을 수행합니다. 이 때 개념은 문장 수준에서 표현되어 특정 언어에 얽매지이 않고 독립적인 처리를 가능하게 합니다. 이를 위해 LCM은 SONAR 임베딩 공간을 활용하여 문장을 표현합니다. 이러한 "개념 임베딩 공간(Embedding Space of Concepts)"은 200개 이상의 언어를 지원하며, 텍스트와 음성 모달리티를 통합적으로 처리할 수 있습니다. SONAR는 번역, 디노이징 오토인코딩(denoising autoencoding), MSE (Mean Squared Error) 손실 최적화를 결합하여 설계되었습니다.

위 그림은 대규모 개념 모델(LCM, Large Concept Models)를 시각적으로 표현한 것입니다. 우측의 LCM 기본 아키텍처를 살펴보면, 먼저 입력 데이터를 문장과 같은 컨셉 시퀀스(Sequence of Concepts)로 분리한 후, Concept Encoder를 사용하여 SONAR 임베딩으로 인코딩합니다. 이후 LCM에서는 이러한 컨셉 시퀀스를 처리하여 새로운 컨셉 시퀀스를 생성하고, 이를 Concept Decoder를 사용하여 다시 문장으로 변환하는 구조입니다.

좌측의 그림은 요약 작업(Summarization Task)에서 임베딩 공간의 추론(reasoning in an embedding space) 과정을 시각화한 것으로, 5개의 컨셉 표현(Concept Representations)를 2개의 새로운 컨셉 표현으로 매핑되는 예시입니다. 이러한 컨셉은 SONAR를 사용하여 문장 수준에서 임베딩된 결과를 의미하며, 이를 통해 의미론적 수준의 연산이 가능합니다.

이러한 LCM의 아키텍처에서 중요한 점은 입력 언어 및 모달리티와 무관하게 추론이 수행되며, 출력도 동일하게 독립적으로 생성할 수 있게 됩니다.

LCM은 기본 모델(Base-LCM) 및 디퓨전 기반(Diffusion-based LCM)의 2가지 모델 구조(One-Tower Diffusion LCM, Two-Tower Diffusion LCM), 양자화(Quant-LCM)의 3가지 버전으로 나뉩니다:

Base-LCM(기본 모델): 단순한 자회귀적 문장 예측 모델
Diffusion-based LCM: Diffusion 기반 LCM 모델로, One-Twoer Diffusion 및 Two-Tower Diffusion LCM의 2가지 모델 존재
Quant-LCM : SONAR 임베딩 공간을 이산화하여 효율성을 높인 모델

기본적인 Base-LCM 구조

먼저, 기본이 되는 Base-LCM의 주요 구성 요소를 먼저 살펴보도록 하겠습니다:

SONAR 인코더 및 디코더: 문장과 개념 임베딩 간의 변환 담당
PreNet: 입력 데이터를 정규화(Normalization)하여 모델의 내부 차원으로 매핑
Transformer 기반 디코더: 문장 임베딩을 처리하고 다음 문장 임베딩을 예측
PostNet: 예측된 임베딩을 다시 디노멀화(denormalization)하여 출력

SONAR 임베딩 공간(Embedding Space)

LCM은 기존에 Meta AI에서 개발 및 공개한 SONAR를 핵심 요소로 사용합니다. SONAR는 200개 언어에 대한 텍스트 입력과 출력, 그리고 76개 언어의 음성 입력을 지원하는 의미론적인 임베딩 공간으로, 문장 간 유사성을 효율적으로 측정하는 데 탁월합니다. SONAR는 기계 번역과 잡음 제거(Autoencoding)를 결합하여 학습되었으며, 기존 LLM의 언어 중심적 한계를 극복합니다.

위 그림은 SONAR가 어떻게 텍스트와 음성 데이터를 처리하는지를 보여줍니다. 오른쪽은 SONAR의 텍스트 임베딩 공간을 구성하는 인코더-디코더 구조를 시각화한 것입니다. 텍스트는 고정된 크기의 벡터로 변환되며, 이를 통해 다국어 간의 의미적 유사성을 확보합니다. 왼쪽은 음성 데이터를 텍스트 임베딩 공간으로 확장하는 과정을 시각화한 것으로, 여기서는 “교사-학생 방식(Teacher-Student Approach)”을 사용하여 음성 입력을 텍스트와 연관시키는 방식을 보여주고 있습니다. 이러한 과정을 통해 SONAR는 텍스트와 음성을 통합적으로 처리할 수 있는 강력한 다국어 임베딩 공간을 제공할 수 있음을 설명하고 있습니다.

이 임베딩 공간에서 문장은 고정된 크기의 벡터로 표현되며, 이는 언어에 독립적인 추론을 가능하게 만듭니다. SONAR는 다양한 언어에서 일관된 성능을 보이며 저자원 언어에서도 강력한 일반화 능력을 보여주고 있어, 이를 통해 LCM은 언어와 모달리티에 관계없이 일관성 있는 예측을 수행할 수 있습니다. 특히, SONAR는 텍스트 입력뿐만 아니라 음성 데이터를 처리할 수 있는 기능을 가지며, 실험적으로 미국 수화(ASL)를 지원하기 위한 인코더도 개발되었습니다.

입력 전처리를 담당하는 PreNet

PreNet은 모델의 성공적인 학습과 추론을 위한 초기 단계 역할을 합니다. SONAR 인코더를 통해 생성된 고차원 문장 임베딩은 정규화(normalization) 과정을 거쳐 모델이 처리할 수 있는 형식으로 매핑됩니다. 정규화 과정은 임베딩 벡터의 평균값을 빼고 분산으로 나누어 데이터 분포를 표준화합니다. 이는 다양한 도메인의 데이터에서 일관된 표현을 보장하며, 모델이 특정 데이터셋의 분포에 과적합(overfitting)되는 것을 방지합니다. 이후 PreNet은 선형 변환을 적용하여 SONAR 임베딩 벡터를 Transformer 모델의 내부 차원에 맞게 매핑합니다. 이를 통해 모델은 입력 문장 데이터를 효율적으로 처리할 준비를 갖춥니다.

예를 들어, “This is a large language model.“이라는 문장은 SONAR 인코더를 통해 고차원 벡터로 변환된 후 PreNet을 통해 표준화 및 매핑 과정을 거칩니다. 결과적으로, 이 문장은 LCM의 Transformer 블록이 처리할 수 있는 형식으로 변환됩니다.

Transformer 기반 디코더

LCM의 핵심은 Transformer 기반 디코더(Decoder) 구조입니다. 이 디코더는 문맥 정보를 활용하여 다음 문장의 고차원 임베딩을 예측하는 역할을 합니다. Transformer 디코더는 자기-회귀적(causal) 구조로 설계되어 있으며, 여러 층의 자기-어텐션(Self-Attention)과 피드포워드 네트워크(Feed-Forward Network)로 구성됩니다. 자기-어텐션은 입력 문장 시퀀스에서 중요한 정보를 강조하며, 피드포워드 네트워크는 복잡한 비선형 변환을 통해 모델의 표현력을 높입니다.

Transformer 디코더는 문장 간의 순서를 유지하기 위해 포지션 임베딩(Position Embedding)을 사용합니다. 이는 문장의 순서 정보를 디코더에 추가하여 문맥적 연관성을 강화합니다. 학습 과정에서 디코더는 평균 제곱 오차(MSE) 손실을 최소화하며, 각 문장의 예측된 임베딩과 실제 임베딩 간의 차이를 줄이는 데 초점을 맞춥니다. 또한, “End of text.“라는 특수 토큰을 추가하여 문서의 끝을 처리하는 방법도 학습합니다. 이 특수 토큰은 디코더가 문서 생성을 중단할 지점을 결정하는 데 사용됩니다.

예를 들어, “The weather is nice today.“라는 문장을 입력으로 받아 다음 문장을 예측해야 하는 경우, 디코더는 이전 문장 임베딩을 기반으로 “Let’s go for a walk.“라는 문장의 임베딩을 생성할 수 있습니다.

출력을 담당하는 PostNet

PostNet은 디코더에서 생성된 임베딩을 다시 SONAR 공간으로 변환하는 중요한 역할을 합니다. PreNet에서 수행된 정규화와는 반대로, PostNet은 디노멀화(denormalization) 과정을 수행합니다. 이는 디코더에서 생성된 값에 다시 평균과 분산을 곱하고 더하여 SONAR 임베딩 공간에 맞는 형식으로 변환하는 과정입니다. 이후 SONAR 디코더는 변환된 임베딩 벡터를 텍스트나 음성 데이터로 다시 디코딩합니다. 이러한 과정을 통해 LCM은 입력 데이터의 언어와 모달리티에 관계없이 일관된 고차원적 표현을 유지합니다.

예를 들어, 디코더에서 생성된 “0101…“과 같은 고차원 벡터는 PostNet을 통해 복원되고, 최종적으로 “It’s a sunny day.“라는 텍스트로 변환됩니다.

Diffusion 기반 LCM(Diffucison-Based LCMs) 구조

Diffusion 기반 LCM(Diffusion-based Large Concept Model)은 연속적인 임베딩 공간에서 문장 간의 의미를 생성하거나 변환하는 데 초점을 맞춘 모델입니다. 이 접근법은 이미지 생성 모델에서 사용되는 확산(Diffusion) 기술에서 영감을 받아 설계되었습니다. Diffusion 기술은 데이터에 노이즈를 추가한 뒤, 이를 점진적으로 제거하여 원래의 신호를 복원하는 과정을 통해 학습합니다. 이를 문장 임베딩 공간에 적용함으로써, Diffusion 기반 LCM은 단순히 단어를 예측하는 기존의 언어 모델과 달리, 문맥을 보존하면서 더 복잡한 문장 간 의미 관계를 학습하고 생성합니다.

Diffusion 기반 LCM은 입력 문장 임베딩에 점진적으로 노이즈를 추가하여 다수의 임베딩 변형을 생성하고, 이 노이즈를 제거하며 의미를 복원하는 과정에서 모델을 학습합니다. 이 방식은 단일한 정답만을 요구하지 않고, 다양한 문맥적 해석 가능성을 포함한 확률적 학습을 가능하게 합니다. 이를 통해 모델은 더 창의적이고 다양성이 높은 문장 생성을 할 수 있으며, 문장 간의 유연한 연결성을 보장합니다.

Diffusion 기반 LCM은 One-Tower Diffusion LCM과 Two-Tower Diffusion LCM의 두가지 구조로 나뉩니다. 이 두 구조는 Diffusion 프로세스를 다루는 방식에서 차이를 보이며, 각각의 목적과 사용 사례에 따라 장단점이 존재합니다.

먼저, One-Tower Diffusion LCM은 간결성과 학습 효율이 뛰어나지만, 복잡한 문맥 처리는 다소 제한적일 수 있습니다. 반면, Two-Tower Diffusion LCM은 문맥 정보와 노이즈 제거를 분리하여 처리함으로써, 더 높은 품질의 문장 생성을 가능하게 합니다. 이러한 구조적 차이는 모델의 사용 목적과 데이터 복잡도에 따라 적합한 선택을 제공하며, 다양한 자연어 처리 작업에서 Diffusion 기반 LCM의 가능성을 보여줍니다.

One-Tower Diffusion LCM

One-Tower Diffusion LCM은 단일 Transformer를 사용하여 노이즈 제거와 문맥 정보를 처리하는 간결한 구조를 가지고 있습니다. 이 모델은 입력 문장 임베딩에 노이즈를 추가하고, 이를 점진적으로 제거하며 다음 문장 임베딩을 생성합니다. One-Tower 구조는 전체 문맥을 처리하고 동시에 노이즈를 제거하는 역할을 Transformer가 단독으로 수행합니다.

One-Tower 모델은 입력으로 노이즈가 섞인 문장 임베딩과, 깨끗한 문장 임베딩을 번갈아 가며 처리합니다. 이를 통해 모델은 노이즈 제거와 문맥적 연관성을 동시에 학습합니다. 입력 데이터는 각 문장의 Diffusion 단계에 따라 생성된 노이즈 임베딩과 함께 Transformer에 전달됩니다. 모델은 자기-회귀적(causal) Transformer 블록을 사용하여 이전 문장 임베딩의 정보를 참조하며, 점진적으로 다음 문장 임베딩을 복원합니다.

One-Tower 구조는 Diffusion 단계를 단일 네트워크에서 처리하기 때문에 구조적으로 단순하고 학습 효율이 높습니다. 그러나 단일 Transformer가 노이즈 제거와 문맥 처리를 모두 담당해야 하기 때문에, 복잡한 문맥 정보를 다루는 데 한계가 있을 수 있습니다.

긴 문서에서 특정 문장을 생성하는 작업을 예로 들어보겠습니다. “The weather today is pleasant and sunny.“라는 문장이 문맥의 일부로 주어졌을 때, 모델은 이 문장을 기반으로 다음 문장인 “It’s a great day for a walk.“를 생성할 수 있습니다. 이 과정에서 노이즈가 섞인 중간 임베딩을 복원하며, 최종적으로 깨끗한 문장 임베딩을 생성하게 됩니다.

Two-Tower Diffusion LCM

Two-Tower Diffusion LCM은 One-Tower 모델과 달리, 문맥 정보 처리와 노이즈 제거를 각각 독립된 모듈로 분리하여 수행합니다. 이러한 구조는 문맥 정보를 더 정교하게 처리할 수 있는 여지를 제공하며, 높은 품질의 문장 생성을 가능하게 합니다. Two-Tower 모델은 두 가지 주요 구성 요소인 **컨텍스트라이저(Contextualizer)**와 **디노이저(Denoiser)**로 나뉩니다.

컨텍스트라이저(Contextualizer)는 입력 문장 임베딩 시퀀스를 처리하여 문맥 정보를 인코딩합니다. 이 과정은 causal self-attention을 사용하는 Transformer 블록을 통해 이루어지며, 이전 문장들로부터 문맥적 의존성을 캡처합니다. 생성된 문맥 임베딩은 디노이저로 전달되어, 노이즈가 섞인 문장 임베딩을 점진적으로 정제합니다. 디노이저는 cross-attention 메커니즘을 활용하여 컨텍스트라이저에서 생성된 문맥 정보를 참조하며, 다음 문장의 깨끗한 임베딩을 복원합니다.

디노이저(Denoiser)는 노이즈 수준(timestep)에 따라 조정되는 적응형 레이어 정규화(Adaptive Layer Normalization, AdaLN)를 사용하여 각 Diffusion 단계에서의 정보 처리를 최적화합니다. 이를 통해 모델은 다양한 노이즈 수준에서의 문장 복원을 효과적으로 수행할 수 있습니다.

Two-Tower 구조는 문맥 정보 처리와 노이즈 제거를 독립적으로 수행하기 때문에, 복잡한 문맥을 더 정교하게 처리할 수 있습니다. 특히 긴 문서나 다중 문장 생성 작업에서 높은 품질의 문장을 생성하는 데 유리합니다. 또한, 컨텍스트라이저와 디노이저가 각각 최적화되므로, 모델의 확장성과 모듈성을 제공합니다.

다음 문장을 생성하는 작업을 Two-Tower 모델에 적용해보겠습니다. 입력으로 “The weather is clear, and the temperature is warm.“이라는 문장이 주어졌다고 가정합시다. 컨텍스트라이저는 이 문장을 포함한 이전 문장들의 문맥 정보를 인코딩하여 의미적 의존성을 캡처합니다. 디노이저는 이 문맥 정보를 활용하여 “It’s an ideal day for outdoor activities.“라는 다음 문장 임베딩을 복원합니다. 이 과정에서 노이즈가 단계적으로 제거되며, 최종적으로 고품질의 임베딩이 생성됩니다.

양자화를 적용한 Quant-LCM 구조

Quant-LCM(Quantized Large Concept Model)은 SONAR 임베딩 공간의 연속적 데이터 표현을 이산적(Discrete) 데이터로 변환하여 모델링 효율성을 높이는 접근법을 채택한 모델입니다. 일반적으로 자연어는 연속적인 의미 공간에서 표현되지만, Quant-LCM은 이러한 연속적 표현을 양자화(Quantization) 기법을 통해 이산적인 단위로 변환합니다. 이는 생성 과정에서의 메모리 효율성을 극대화하고, 모델이 문장을 샘플링할 때 다양한 제어 기법(예: 온도 조절, Top-k 샘플링)을 쉽게 사용할 수 있도록 합니다.

Quant-LCM은 연속적인 벡터 표현을 잃지 않으면서도, 이를 이산적 코드북(Codebook)으로 변환하여 학습과 추론을 단순화합니다. 이를 통해 기존의 Diffusion 기반 LCM과는 다른 방식으로 다음 문장의 임베딩을 생성하며, 고품질의 문장 생성 작업에서도 뛰어난 성능을 발휘합니다.

이러한 Quant-LCM은 두 가지 주요 과정으로 구성됩니다. 첫째, 연속적 SONAR 벡터를 양자화하여 코드북의 이산적 유닛으로 변환하는 양자화 과정이 있습니다. 둘째, 양자화된 표현을 사용하여 다음 문장의 임베딩을 생성하는 Quant-LCM 아키텍처가 있습니다. 이 두 과정은 SONAR 임베딩 공간의 의미를 최대한 보존하면서, 효율적인 문장 생성과 학습을 지원합니다.

SONAR 벡터의 양자화

Quant-LCM은 Residual Vector Quantization(RVQ)이라는 양자화 기술을 활용하여 SONAR 임베딩 벡터를 이산적인 코드북 유닛으로 변환합니다. RVQ는 입력 임베딩 벡터를 반복적으로 양자화하며, 각 단계에서 남은 잔차(residual)를 다음 단계의 코드북으로 학습합니다. 이 과정을 통해 연속적 표현은 계층적이고 세분화된 코드북의 유닛으로 변환됩니다.

RVQ의 학습은 다음과 같은 단계를 따릅니다:

코드북 생성: SONAR 벡터를 기반으로 여러 개의 코드북을 학습합니다. 예를 들어, 64개의 코드북이 각 8192개의 유닛을 가지는 경우, 입력 벡터는 이산적 표현으로 세밀하게 분해됩니다.
잔차 처리: 초기 양자화 단계에서 처리되지 않은 잔차(residual)를 다음 코드북이 처리하며, 이 과정이 반복됩니다.
양자화 품질 평가: 양자화된 벡터가 원래 벡터를 얼마나 잘 복원하는지를 Auto-BLEU 점수로 평가합니다. 코드북 수가 증가할수록 복원 품질이 개선됩니다.

예를 들어, “The sun is shining brightly today.“라는 문장은 SONAR 인코더에 의해 고차원 벡터로 표현된 뒤, RVQ를 통해 점진적으로 양자화됩니다. 결과적으로 이 문장은 코드북의 이산적 유닛으로 변환되어, Quant-LCM이 이를 처리할 준비를 합니다.

Quant-LCM 구조

Quant-LCM은 Diffusion 기반 LCM과 유사한 구조를 가지지만, 연속적인 임베딩 대신 이산화된 표현을 사용하여 학습 및 생성 작업을 수행합니다. Quant-LCM의 아키텍처는 다음과 같은 주요 요소로 구성됩니다.

이산적 목표(Discrete Targets): Quant-LCM은 이산적 코드북 유닛을 예측하는 방식으로 작동합니다. 각 문장은 양자화된 SONAR 임베딩으로 표현되며, 모델은 다음 코드북 유닛을 예측하도록 학습됩니다. 학습 과정에서는 다음 코드북 유닛의 정답을 제공하여 Cross-Entropy 손실을 최소화합니다. 이러한 방식은 이산적 데이터의 명확한 목표를 설정하며, 생성 과정에서의 샘플링 다양성을 제공합니다.
연속적 목표(Continuous Targets): Quant-LCM은 또한 연속적 목표를 설정하여 양자화된 표현의 의미를 더 잘 보존할 수 있습니다. 이 경우, 모델은 다음 코드북 유닛을 예측할 때 Mean Squared Error(MSE) 손실을 최소화하며, 연속적인 벡터 공간에서의 복원을 목표로 합니다. 생성 과정에서는 확률 분포에 따라 샘플링하거나, 가장 가까운 코드북 유닛을 선택하여 문장을 생성합니다.
단계적 생성: Quant-LCM은 단계적으로 SONAR 벡터를 생성합니다. 초기에는 0으로 채워진 임베딩 벡터로 시작하며, 각 코드북 유닛을 점진적으로 추가하여 문장을 완성합니다. 이 과정은 연속적인 벡터 복원보다 효율적이며, 생성된 문장의 품질을 제어하는 데 유용합니다.

예를 들어, “The weather today is pleasant.“이라는 문장을 생성하는 경우, Quant-LCM은 먼저 문맥 정보를 참조하여 첫 번째 코드북 유닛을 예측합니다. 그런 다음, 이전 단계에서 생성된 유닛을 기반으로 다음 유닛을 예측하며, 이 과정을 반복하여 최종 문장 임베딩을 완성합니다.

Quant-LCM의 장점과 활용 사례

Quant-LCM은 연속적 표현의 복잡성을 줄이고, 이산적 데이터의 단순성을 활용하여 효율성과 유연성을 제공합니다. 특히, 다음과 같은 장점이 두드러집니다:

메모리 효율성: 이산적 데이터 표현을 사용하므로, Diffusion 기반 LCM에 비해 메모리 사용량이 적습니다.
샘플링 제어: 온도 조절(Temperature Control) 및 Top-k 샘플링과 같은 기법을 통해 생성된 문장의 다양성과 품질을 제어할 수 있습니다.
확장 가능성: 새로운 언어 또는 모달리티를 추가할 때, 기존 SONAR 코드북을 확장하거나 새로운 코드북을 학습하여 쉽게 적용할 수 있습니다.

Quant-LCM은 SONAR 임베딩 공간의 양자화를 통해 연속적인 벡터 표현을 단순화하면서도 고품질의 문장 생성을 가능하게 합니다. 이산적 목표와 연속적 목표를 모두 활용할 수 있는 유연한 구조는 모델의 활용 범위를 확장하며, 메모리 효율성과 샘플링 제어의 이점을 제공합니다. Diffusion 기반 LCM과는 다른 접근법으로 문장을 생성하지만, 두 모델은 상호 보완적으로 활용될 수 있습니다. Quant-LCM은 특히 대규모 데이터 처리와 다양한 언어 및 모달리티 작업에서 효과적인 도구로 자리 잡을 잠재력을 보이며, 요약 / 문장 생성 / 다국어 번역과 같은 작업에서 사용할 수 있으며, 특히 복잡한 데이터 구조를 다룰 때 효과적입니다.

LCM 모델 구조별 성능 비교

LCM(Large Concept Model)은 다양한 구조와 학습 방식에 따라 성능이 달라집니다. 논문에서는 사전 학습(pre-training) 평가, 명령어 튜닝(instruction-tuning) 결과, 그리고 특정 하이퍼파라미터와 노이즈 스케줄에 따른 성능 분석 등을 평가하였습니다.

먼저, 주요 성능 지표를 기반으로 Base-LCM, Diffusion 기반 LCM (One-Tower 및 Two-Tower), 그리고 **Quant-LCM (Quant-LCM-c 및 Quant-LCM-d)**의 사전 학습 성능을 평가 및 비교한 결과입니다:

성능 측정에 사용한 지표 및 결과들은 다음과 같습니다:

L2 거리(ℓ2): 예측된 문장 임베딩과 실제 문장 임베딩 사이의 유클리드 거리입니다. 낮을수록 모델이 실제 문장을 더 정확히 예측했음을 의미합니다. Base-LCM이 가장 낮은 ℓ2 점수를 기록했으나, 이는 모델이 평균적인 임베딩을 생성했기 때문으로, 문맥적 연결성을 충분히 고려하지 못했음을 의미합니다. Two-Tower와 Quant-LCM은 높은 ℓ2 점수를 기록했지만, 이는 복잡한 문맥적 관계를 반영하려는 모델의 특성 때문으로 보입니다.
Round-Trip L2 거리(ℓ2-r): 예측된 임베딩을 SONAR 디코더를 통해 다시 텍스트로 변환한 후 재인코딩된 임베딩과 실제 임베딩 간의 거리입니다. 이는 디코더로 인해 발생하는 의미적 손실을 측정합니다. Two-Tower Diffusion LCM이 가장 낮은 점수를 기록하여, 의미 복원 능력이 뛰어남을 보여줍니다.
Paraphrasing(PAR): PAR은 이전 문장 임베딩과 새로 생성된 문장 임베딩 간의 유사성을 평가하는 지표로, 이전 문장 임베딩이 다음 문장의 임베딩 생성 과정에서 얼마나 반영되었는지를 확인하는 척도로 사용합니다. 이는 모델이 문맥 의존성을 잘 학습했는지 평가합니다.
Contrastive Accuracy(CA): CA는 예측된 문장 임베딩이 실제 임베딩보다 문맥적으로 적합한지 평가합니다. 즉, 어떠한 모델이 문맥 정보를 더 효과적으로 활용하거나 문맥적 연결성을 잘 유지하는지를 측정합니다. Two-Tower와 Quant-LCM-d가 가장 높은 CA 점수를 기록했습니다. 이는 두 모델이 문맥적 일관성을 잘 반영했음을 보여줍니다.
Mutual Information(MI): MI는 생성된 문장이 이전 문장들과 얼마나 높은 상호 의존성을 가지는지를 평가합니다. 문맥 정보를 활용하여 논리적이고 일관된 문장을 생성하는지를 평가하는 지표로, 높은 점수는 문맥적 연결성이 강함을 의미합니다. Two-Tower Diffusion LCM이 가장 높은 MI 점수를 기록하며, 문맥적 유사성과 연결성이 뛰어남을 보여줍니다.

다음으로 명령어 튜닝(IT, Instruction-Tuning)을 수행한 뒤의 각 모델들의 성능을 측정하였습니다. 주요 지표로는 ROUGE-L(R-L)과 Coherence가 사용되었습니다. R-L은 생성된 문장과 참조 문장 간의 유사성을 측정하며, Coherence는 문장의 논리적 일관성을 평가합니다:

ROUGE-L (R-L): R-L 점수는 생성된 문장과 참조 문장 간의 텍스트 유사성을 평가합니다. Two-Tower Diffusion LCM이 가장 높은 R-L 점수(33.64)를 기록하며, 문장 생성 품질이 뛰어남을 보여줍니다. Quant-LCM은 Diffusion 기반 모델보다 낮은 점수를 기록했으나, Base-LCM보다는 높은 점수를 보여줍니다.
Coherence: Coherence 점수는 문장이 논리적으로 일관되고 의미가 연결되는 정도를 평가합니다. One-Tower와 Two-Tower 모델 모두 0.93 이상으로 높은 점수를 기록하며, 논리적 연결성과 문맥 일관성이 뛰어납니다. Quant-LCM-d는 0.704로 상대적으로 낮은 점수를 기록했으며, 이는 양자화 과정에서 발생한 정보 손실 때문으로 보입니다.

전체적으로 Diffusion 기반 LCM(특히 Two-Tower) 이 문맥적 일관성, 생성 품질, 그리고 다양한 노이즈 처리 능력에서 가장 뛰어난 성능을 발휘함을 명확히 보여줍니다. Quant-LCM은 메모리 효율성과 실용성 면에서 여전히 유리하지만, 성능 면에서는 Diffusion 기반 모델에 비해 약간 뒤처집니다. (주요 하이퍼파라매터 및 노이즈에 따른 실험 및 성능 평가 결과는 논문을 참고해주세요. )

LCM 모델과 기존 LLM과의 성능 비교

요약(Summarization) 성능 비교

먼저 LCM 모델과 기존 LLM과의 CNN DailyMail 및 XSum 요약 결과를 먼저 비교해보았습니다. CNN DailyMail 데이터셋은 CNN의 기사를 기반으로 기사의 본문과 함께 기사의 주요 요약(Highlights)을 제공하는 데이터셋으로, 본문을 기반으로 추출적 요약(Extractive Summarization) 성능을 측정합니다. XSum 데이터셋은 BBC 뉴스 기사 데이터를 기반으로 본문과 함께 단일 문장으로 구성된 요약(Headline)을 제공하는 데이터셋으로, 본문 내용을 요약하는 추상적 요약(Abstractive Summarization) 성능을 측정합니다:

실험 결과 LCM은 기존 LLM보다 추상적 요약 생성 능력(낮은 OVL-3, REP-4)에서 강점을 보였습니다. 문법적 유창성(CoLA) 및 원문 의미 충실성(SH-4, SH-5)에서 LLM보다 낮은 성능을 보였지만, 이는 LCM이 보다 독창적이고 추상적인 요약을 생성하는 데 초점을 맞추고 있음을 반영합니다.

긴 문맥에서의 요약(Long-Context Summarization) 성능 비교

다음으로 긴 문서를 요약하기 위한 장문 요약(Long-Context Summarization)을 위한 LCFO 데이터셋을 사용하여 성능을 측정 및 비교하였습니다. LCFO 데이터셋의 평균 문서 길이는 약 5,000단어로, 상당히 긴 텍스트를 포함하고 있습니다. 요약문은 입력 문서 길이의 20%, 10%, 5%로 제한된 길이를 가지도록 요구하고 있어, 긴 문서를 기반으로 얼마나 추상적인 요약(Abstractive Summarization)을 잘 생성하는지를 측정합니다:

긴 문서의 일부(5%, 10%, 20%)를 요약하는 실험 결과, Two-Tower-7B-IT 모델이 요청된 요약 길이에 가장 적합한 WR(Word Ratio) 점수를 기록하여, 긴 문서 요약에서도 안정적인 성능을 보였습니다. 그 외 LLaMA-3.1-8B 모델도 R-L에서 높은 점수를 기록했지만, 이는 사전 학습 데이터와의 중복 가능성 때문으로 보입니다. 또한 Two-Tower 모델은 REP-4 점수가 가장 낮아 반복이 적은 요약을 생성했습니다. 이는 다른 모델보다 깔끔한 요약을 생성하는 데 탁월함을 보여줍니다.

이러한 비교를 통해 전체적으로 LCM이 LLM 대비 긴 문서 요약에서도 반복을 줄이고 추상적 요약을 생성하는 강점을 보이는 것을 확인할 수 있었습니다.

LCM 확장(Large Concept Model Extensions)

LCM은 기존의 대형 언어 모델(LLM)과 달리 문장 수준에서 작동하며, 이를 통해 언어 모델링의 새로운 가능성을 열었습니다. 이 섹션에서는 LCM의 주요 확장 영역을 다룹니다.

우선, Diffusion 기반 확장은 LCM이 문장 임베딩을 점진적으로 정제하는 방식을 도입합니다. Diffusion은 원래 이미지 생성 모델에서 널리 사용되었지만, LCM은 이를 텍스트 도메인으로 성공적으로 가져와 문맥 정보를 보존하면서 새로운 문장을 생성하는 데 활용합니다. 특히, One-Tower와 Two-Tower 구조는 문맥 처리와 노이즈 제거를 각각 효율적으로 수행하며, 이 두 접근법은 복잡한 문맥을 다룰 때 탁월한 성능을 보입니다.

또한, 양자화된 LCM(Quantized LCM)은 연속적 SONAR 벡터를 이산적 코드북(discrete codebook)으로 변환하여 모델링의 효율성을 크게 향상시켰습니다. 양자화는 메모리 사용량을 줄이고, 샘플링 과정에서 온도 조절(Temperature Control) 및 Top-k 샘플링과 같은 기법을 통해 생성 다양성을 극대화합니다. 이는 특히 저자원 환경에서의 활용 가능성을 높이며, 효율성을 극대화하려는 작업에 적합합니다.

LCM의 또 다른 강점은 다중 모달리티(multi-modality) 지원으로, 텍스트와 음성을 통합적으로 처리할 수 있는 능력을 갖추고 있습니다. 이를 통해 음성 데이터를 텍스트로 변환하거나 다국어를 지원하는 등의 작업이 가능해졌습니다. SONAR 임베딩 공간은 이미 다국어 및 음성 데이터를 처리할 수 있는 기반을 제공하며, 향후에는 비디오와 같은 비텍스트적 데이터로도 확장될 가능성이 있습니다.

이처럼 LCM은 Diffusion, 양자화, 다중 모달리티 등 여러 측면에서 확장 가능성을 제시하며, 기존 LLM이 다루기 어려운 저자원 데이터 및 다국어 작업에서도 강력한 성능을 발휘합니다. 이는 언어 모델링의 새로운 방향성을 제시하며, 실질적인 응용 가능성을 더욱 확대합니다.

결론: 관련 연구 및 한계점

한계점(Limitations)

LCM은 혁신적인 구조와 강력한 성능을 제공하지만, 현재 설계와 구현에는 몇 가지 제약 사항이 존재합니다. 첫 번째로, 학습 데이터의 크기와 다양성 부족이 중요한 문제로 지적됩니다. LCM은 주로 짧은 문장과 제한된 문맥에서 학습되었기 때문에 긴 문서를 처리하거나 복잡한 문맥을 학습하는 데 한계가 있습니다. 이는 특히 긴 문서 요약 작업(LCFO 데이터셋)에서의 성능 저하로 나타납니다. 향후 더 긴 문맥을 포함하는 데이터로의 학습이 필요합니다.

두 번째로, Diffusion 기반 구조와 양자화된 모델은 높은 계산 비용을 요구합니다. Diffusion 모델은 노이즈 제거를 위한 여러 샘플링 단계가 필요하기 때문에 추론 속도가 느릴 수 있으며, 이는 실시간 응용에서의 제약으로 작용할 가능성이 있습니다. 양자화된 LCM은 메모리 효율성을 제공하지만, 양자화 과정에서 발생하는 정보 손실은 생성된 문장의 품질 저하로 이어질 수 있습니다.

세 번째로, LCM의 다중 모달리티 지원은 텍스트와 음성에 초점이 맞춰져 있지만, 이미지나 비디오와 같은 복잡한 비텍스트 모달리티 데이터를 처리하는 능력은 아직 제한적입니다. 이를 확장하기 위해서는 새로운 학습 데이터와 아키텍처의 개선이 필요합니다.

마지막으로, 현재 사용되는 평가 메트릭(예: ROUGE, CoLA)은 LCM의 독창적이고 추상적인 요약 능력을 완벽히 반영하지 못할 수 있습니다. 기존의 메트릭은 주로 추출적 요약이나 단순한 문법 평가에 초점이 맞춰져 있어, LCM의 장점을 충분히 측정하지 못할 가능성이 있습니다. 이는 더 적합한 메트릭을 개발해야 하는 필요성을 강조합니다.

이러한 제약 사항에도 불구하고, LCM은 혁신적인 접근법과 실질적인 가능성을 통해 언어 모델링의 새로운 기준을 제시하고 있습니다. 향후 연구는 이러한 제약을 해결하는 데 초점을 맞출 것이며, 이는 LCM의 확장성과 실질적인 활용 가능성을 더욱 강화할 것입니다.

LCM 논문: Large Concept Models: Language Modeling in a Sentence Representation Space

LCM GitHub 저장소

https://github.com/facebookresearch/large_concept_model

SONAR 논문: Sentence-Level Multimodal and Language-Agnostic Representations

이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.

파이토치 한국 사용자 모임이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

아래쪽에 좋아요를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~