LLaDA2.0-Uni: 마스크 토큰 예측 패러다임으로 멀티모달 이해와 생성을 통합한 확산 언어 모델에 대한 연구

LLaDA2.0-Uni 소개

멀티모달 AI 모델은 지금까지 두 가지 뚜렷한 흐름으로 발전해 왔습니다. 하나는 이미지와 텍스트를 함께 이해하는 비전-언어 모델(Vision-Language Model, VLM)이고, 다른 하나는 텍스트 조건을 받아 이미지를 생성하는 텍스트-이미지 확산 모델입니다. 최근에는 이 두 기능을 하나의 모델로 통합하려는 시도가 활발해졌지만, 대부분은 이해(understanding)와 생성(generation)을 위한 별도의 구성 요소를 연결하는 방식이라 아키텍처가 복잡해지는 한계가 있었습니다. 진정한 통합을 위해서는 이해와 생성을 하나의 학습 목표 아래에서 처리할 수 있는 단일 프레임워크가 필요했습니다.

기존의 통합 멀티모달 모델은 대부분 자기회귀(Autoregressive, AR) 아키텍처를 기반으로 합니다. Janus나 Lumina-mGPT는 이미지를 이산 시퀀스로 토큰화한 뒤 다음 토큰 예측(next-token prediction)으로 통합하고, OmniGen2, Hunyuan Image 3.0, BAGEL 등은 텍스트의 자기회귀와 이미지의 확산을 결합한 하이브리드 방식을 채택합니다. 반면 마스크 확산 모델(masked diffusion model)은 병렬 디코딩(parallel decoding)과 양방향 컨텍스트 모델링이 가능하다는 본질적 장점을 가지고 있지만, 기존의 통합 마스크 확산 모델인 MMaDA나 Lumina-DiMOO는 (1) 재구성 기반 VQ 토크나이저가 의미 정보를 충분히 담지 못해 이해 성능이 떨어지고, (2) 과도한 이미지 압축이 생성 품질을 저해하며, (3) 완전 양방향 어텐션이 텍스트에서 불안정하다는 문제를 안고 있었습니다.

LLaDA2.0-Uni는 Ant Group의 InclusionAI AGI Research Center가 이러한 한계를 극복하기 위해 개발한 멀티모달 통합 확산 언어 모델입니다. 이 모델은 마스크 토큰 예측(Mask Token Prediction) 이라는 단일 패러다임 아래에서 텍스트 이해, 이미지 이해(시각 질의응답), 텍스트-이미지 생성, 이미지 편집을 모두 처리합니다. LLaDA 2.0의 16B 규모 dLLM-MoE 백본 위에 시각 입력을 완전히 이산적이고 의미론적인 토큰으로 변환하는 SigLIP-VQ 토크나이저와, 이산 토큰을 고해상도 이미지로 복원하는 효율적 확산 디코더(diffusion decoder)를 결합한 구조입니다. 논문은 arXiv에 게재되었으며(arXiv:2604.20796), 코드와 모델 가중치는 Apache 2.0 라이선스로 공개되어 있습니다.

LLaDA2.0-Uni의 설계 철학은 단순함입니다. 이해 태스크에서는 이미지 토큰을 텍스트 토큰과 동일한 마스크 예측 방식으로 처리하고, 생성 태스크에서는 텍스트 조건을 마스크에 주입하여 이미지 토큰을 복원합니다. 이 단일한 메커니즘이 멀티모달 이해와 생성 모두에 적용되므로, 별도의 모듈을 조합하는 기존 접근법보다 학습이 일관되고 추론 경로가 단순합니다.

LLaDA2.0-Uni의 핵심 기여

LLaDA2.0-Uni 논문이 제시하는 주요 기여는 다음 네 가지로 정리됩니다.

  • 새로운 통합 아키텍처(Novel Unified Architecture): 완전 의미론적 토크나이저(SigLIP-VQ), 16B MoE dLLM 백본, 그리고 확산 디코더를 결합하여 텍스트와 이미지를 공유된 블록 단위 마스크 예측(block-wise mask prediction) 목표로 통합합니다. 이질적인 인코더 없이 단일 학습 목표로 종단간(end-to-end) 학습이 가능합니다.
  • 인터리브(Interleaved) 생성 및 추론: 이미지와 텍스트가 번갈아 나타나는 인터리브 시퀀스에 대한 생성과 추론을 기본적으로 지원합니다. 이는 생성과 이해가 서로 강화되는 새로운 패러다임을 향한 중요한 진전을 의미합니다.
  • 효율적 추론(Efficient Inference): 병렬 디코딩의 이점 위에 dLLM 백본의 디코딩 과정을 최적화하고 디코더에 소수 단계 증류(few-step distillation)를 적용하여, 속도와 성능 간 효과적인 균형을 달성합니다. 새롭게 제안된 SPRINT 가속 기법은 학습 없이 최대 1.6배 속도 향상을 제공합니다.
  • 강력한 벤치마크 성능(Strong Benchmark Performance): 시각 이해, 이미지 생성, 이미지 편집 벤치마크 전반에서 최첨단 통합 모델과 동등하거나 능가하는 성능을 보이며, 일부 지표에서는 Qwen2.5-VL-7B와 같은 전용 VLM도 앞섭니다.

LLaDA2.0-Uni의 아키텍처

LLaDA2.0-Uni는 세 가지 핵심 구성 요소로 이루어져 있습니다.

의미론적 이산 토크나이저 (SigLIP-VQ)

SigLIP-VQ는 X-Omni를 기반으로 한 토크나이저로, 픽셀 수준 재구성에 의존하는 표준 VQ-VAE와 달리 이해 태스크에서 직접 학습되어 풍부한 의미 정보를 보존합니다. 사전학습된 SigLIP2-g ViT를 시각 특성 추출기로 사용하며 동적 해상도(dynamic resolution) 처리를 지원합니다. ViT 인코더 다음의 벡터 양자화기(vector quantizer)는 시각 표현을 사전학습된 LLM과 정렬하며, 코드북(codebook)의 어휘 크기는 16,384, 차원은 2,048입니다. 이 이산화 덕분에 이미지와 텍스트를 동일한 마스크 예측 목표로 학습할 수 있습니다. SigLIP-VQ 자체는 이미지 복원 능력이 없으므로, 별도의 확산 디코더가 이를 담당합니다.

dLLM-MoE 백본

LLaDA-2.0-mini를 백본으로 채택했으며, 16B 총 파라미터의 모달리티 무관(modality-agnostic) Mixture-of-Experts 아키텍처입니다. 시각 정보를 통합하기 위해 원본 dLLM 어휘에 SigLIP-VQ 코드북 토큰과 이미지 생성/이해를 위한 특수 토큰을 추가합니다. 입력 임베딩에서는 사전학습된 언어 임베딩을 유지하고 새로 추가된 시각 토큰 임베딩만 무작위로 초기화하며, 최종 예측 헤드 또한 확장된 어휘에 맞게 조정됩니다.

블록 단위 어텐션(Block-wise Attention) 은 학습 안정성의 핵심입니다. dLLM에 이론적으로 이상적인 완전 양방향 어텐션은 실제로는 성능을 저하시키는 경우가 많습니다. 특히 SigLIP-VQ 토큰은 Qwen2.5와 의미적으로 정렬되어 있어 자기회귀적 편향(autoregressive bias)을 상속하므로, 순수 풀 어텐션을 적용하면 이 편향이 손상됩니다. 사전 정의된 블록 내에서는 어텐션을 제한하고 블록 간에는 선택적으로 활성화함으로써, 병렬 디코딩 속도와 언어/시각 태스크 모두에서의 성능을 동시에 확보합니다.

위치 임베딩 및 임의 해상도(Arbitrary Resolution): 최근의 통합 모델 다수가 이미지에 2D RoPE를 채택하는 것과 달리, LLaDA2.0-Uni는 단순성을 위해 1D RoPE 구조를 그대로 유지합니다. 2D 공간 정보는 평탄화된(flattened) 1D 시각 시퀀스 앞에 <height>, <width> 같은 특수 크기 토큰(예: <imgsize 512>)을 추가하여 표현합니다. 이 단순한 방식만으로도 임의의 이미지 해상도를 아키텍처 변경 없이 처리할 수 있습니다.

확산 디코더(Diffusion Decoder)

의미론적 VQ는 의미 공간의 특성을 픽셀 공간으로 되돌리기 위한 전용 디코더가 필요합니다. LLaDA2.0-Uni는 6B 규모의 사전학습된 텍스트-이미지 모델인 Z-Image-Base를 기반으로 디코더를 구축합니다. dLLM이 이미지 토큰을 생성하면 이 토큰들이 일반적인 텍스트 프롬프트를 대체하여 디코더의 조건 신호로 사용됩니다. NextFlow나 X-Omni처럼 텍스트 프롬프트와 시각 토큰을 중복적으로 결합하는 방식과 다르게, LLaDA2.0-Uni의 디코더는 업샘플링된 의미 토큰만을 유일한 조건 입력으로 사용하면서 추가로 2배 초해상도(super-resolution)까지 수행합니다. 50단계 CFG 샘플링의 계산 비용을 줄이기 위해 모델 증류(distillation)를 적용하여 8단계 CFG-free 추론을 달성합니다.

학습 목표 및 손실 함수

LLaDA2.0-Uni는 Block Diffusion Language Model(BDLM) 학습 목표를 사용합니다. 표준 이산 확산을 개별 토큰이 아닌 블록 단위 마스크 영역으로 확장한 형태로, 각 블록 내에서는 일관된 컨텍스트를 유지하면서도 병렬 디코딩이 가능합니다.

L_{BDLM}(\theta) = -\mathbb{E}_{t, x_0, x_t}\left[\frac{\alpha'_t}{1-\alpha_t}\sum_{k=1}^{K}\sum_{i=1}^{L_B} \mathbf{1}[x_{t,k}^{i} = \text{[MASK]}] \log p_\theta(x_{0,k}^{i} \mid x_{0,<k}, x_{t,k})\right]

여기서 $K = L_{total}/L_B$는 블록 수, $L_B$는 블록 크기, $x_{0,<k}$는 이전 깨끗한 블록들, $x_{t,k}$는 현재 블록의 노이즈가 추가된 버전입니다. 인디케이터(indicator)는 마스크 토큰에 대해서만 예측을 수행하도록 보장합니다.

SFT 단계의 마스크 토큰 재가중 손실(Mask Token Reweighting Loss): SFT에서는 샘플 길이가 최대 두 자릿수 차이로 변동하므로, 토큰 평균 손실은 긴 시퀀스가 그래디언트를 지배하고 샘플 평균 손실은 짧은 응답을 부추기는 문제가 발생합니다. LLaDA2.0-Uni는 다음과 같은 재가중 메커니즘을 도입합니다.

L_{MTRS} = \frac{\sum_j \beta_j L_{SFT}^{(j)}}{\sum_j \beta_j}, \quad \beta_j = \frac{1}{\sqrt{\sum_{k,i} \mathbf{1}[x_{t,k}^{i,(j)} = \text{[MASK]}]}}

스케일링 인자 $\beta_j$는 샘플 $j$의 마스크 토큰 수의 역제곱근으로, 다양한 응답 길이에 걸쳐 그래디언트 기여를 균등화합니다. 또한 상보적 마스킹(Complementary Masking) 을 사용하여 단일 시퀀스에서 서로 보완적인 두 학습 인스턴스를 구성함으로써 모든 토큰 위치가 정확히 한 번씩 손상되지 않은 형태로 등장하도록 하여 데이터 효율을 두 배로 끌어올립니다.

MoE 부하 균형(Load Balancing): 보조 손실 없는(auxiliary-loss-free) 부하 균형 메커니즘을 채택하여 라우팅 붕괴(routing collapse)를 방지합니다. 라우팅 게이트 출력을 2.5배 스케일링해 RMS 크기를 안정화하고, 다음과 같은 RMSNorm 스타일 정규화로 편향(bias)을 부드럽게 갱신합니다.

b_i = b_i + u \cdot \frac{(F_i - Q_i)}{\sqrt{\frac{1}{n}\sum_{j=1}^{n}(F_j - Q_j)^2}}

여기서 $F$는 현재 전문가(expert) 부하 분포, $Q$는 균등 분포입니다.

학습 데이터와 3단계 학습 파이프라인

LLaDA2.0-Uni는 신중히 선별된 대규모 데이터로 3단계 학습 파이프라인을 거칩니다.

단계 목표 데이터 토큰 수 시퀀스 길이
S0: 비전-언어 정렬 시각/언어 표현 정렬 이미지 캡션, 텍스트, 텍스트-이미지 100B 8192
S1: 멀티태스크 사전학습 이해/생성 능력 종합 개발 이미지 캡션, OCR, Grounding, Counting, 비디오, VQA, T2I, 이미지 편집, 인터리브 생성 210B 8192
S2: 지도 미세조정(SFT) 명령 추종 및 추론 강화 고품질 멀티모달 VQA/텍스트 QA, 인터리브 추론, CoT 이미지 생성, 고품질 편집 80B 8192 → 16384

Stage 0 (비전-언어 정렬): 점진적 임의 해상도 방식을 채택하여 생성은 256×256(약 256토큰)에서 512×512(약 1024토큰)로 전환되고, 이해는 800×800 임의 해상도(약 2048토큰)로 일관되게 처리됩니다. 생성 태스크에서는 이미지 토큰만, 이해 태스크에서는 텍스트 토큰만 마스킹됩니다.

Stage 1 (멀티태스크 사전학습): 이미지-텍스트 인터리브 데이터, OCR, 시각 카운팅/그라운딩, 이미지 편집, 주체 기반(subject-driven) 생성, 제어 가능한 생성, 참조 이미지 기반 스타일 전이, 다중 시점 생성 등 다양한 태스크로 학습합니다.

Stage 2 (지도 미세조정): 8k 컨텍스트에서 기본 명령 추종 능력을 익힌 뒤 16k로 확장해 복잡한 시각 추론과 생성을 수행합니다. SFT 데이터셋은 약 6천만 샘플(텍스트:멀티모달 = 1:5)이며, Qwen3-VL이 입력 공간을 감사(audit)하여 모호한 지시를 정제하고, 응답에 대해서는 규칙 기반 휴리스틱과 GPT-OSS 필터링을 거친 2단계 품질 관리 파이프라인을 통과합니다.

이미지 생성용 데이터는 2억 장 이상의 웹 이미지에서 (1) 메타데이터 필터링(짧은 변 512px 미만, 압축률 비정상 제외), (2) 미적 점수(ArtiMuse < 60 제외), (3) 품질 점수(DeQA-Score < 4.0 제외)의 3단계 정제를 거쳐 1.4억 장으로 정제됩니다. 인터리브 데이터는 Koala36M 비디오 코퍼스에서 길이/품질/모션 필터링으로 약 75%를 제거하고 600만 클립을 추출, 5초 간격으로 2~6프레임의 인터리브 시퀀스를 생성합니다.

SPRINT: 학습 없는 추론 가속

LLaDA2.0-Uni는 SPRINT(Sparse Prefix Retention with Inference-time Non-uniform Token Unmasking) 라는 학습 없는 가속 프레임워크를 새롭게 제안합니다. 블록 단위 이산 확산 LM은 $B$개 블록 각각을 $T$단계로 디노이징하므로 총 $B \times T$번의 순전파가 필요한데, SPRINT는 두 직교 축에서 비용을 줄여 최대 1.6배 속도 향상을 달성합니다.

Sparse Prefix Retention: 블록 시작 시 한 번만 KV 캐시를 가지치기하여 이후 모든 단계가 더 짧은 시퀀스에 어텐션하도록 합니다. 각 prefix 위치 $i$의 중요도는 키 노름 중요도 $\bar{I}_i$와 토큰 신뢰도 $c_i$를 결합한 복합 점수로 산출됩니다.

s_i = \alpha \cdot \bar{I}_i + (1 - \alpha) \cdot c_i

여기서 $\bar{I}_i = |k_i|_2 / \left(\frac{1}{L}\sum_j |k_j|2\right)$는 평균 정규화된 키 노름이고, $c_i = \max_v p\theta(v \mid x_t)는 top-1 소프트맥스 신뢰도, \alpha = 0.5$입니다. 가지치기는 모달리티 인지(modality-aware)로 수행되어 이미지 토큰은 공간적 중복성이 높아 적극적인 가지치기를 견디지만(r_{img} = 0.8), 텍스트 토큰은 명령이나 추론 사슬을 담고 있어 보존됩니다(r_{text} = 1.0).

Non-uniform Token Unmasking: 표준 디노이징 스케줄은 신뢰도와 무관하게 단계당 고정된 \lceil m/T \rceil 토큰을 언마스킹하므로 자신 있는 예측에 계산을 낭비합니다. SPRINT는 신뢰도가 임계값 $\tau$를 넘는 모든 위치를 한 단계에서 받아들입니다.

A = \{n \in [m] : c_n > \tau\}

각 단계에서 최소 $\lceil m/(T-t) \rceil$개의 수락을 강제하여 종료를 보장하며, $\tau \in {0.93, 0.95}$를 검증합니다. 이 두 구성요소가 결합되어 품질 손실 없이 추론 속도를 크게 높입니다.

실험 결과

멀티모달 이해

LLaDA2.0-Uni는 21개 멀티모달 이해 벤치마크에서 평가되었으며, 동일한 확산 기반 통합 모델(Lumina-DiMOO, LLaDA-o)을 모든 주요 카테고리에서 큰 폭으로 능가합니다. 일반 VQA에서 MMStar 64.1(LLaDA-o의 58.0 대비), 추론에서 MMMU 50.1(LLaDA-o의 44.9 대비)을 기록했습니다. 가장 인상적인 결과는 전용 VLM과의 비교입니다: MMStar에서는 Qwen2.5-VL-7B(63.9)를 약간 앞서고(64.1), CountBench에서도 86.0 대 84.9로 우위를 보입니다. 다음은 주요 벤치마크에서의 비교입니다(괄호 안은 비교 대상).

  • MMStar: 64.1 (Qwen2.5-VL-7B 63.9, LLaDA-o 58.0, Lumina-DiMOO 61.0)
  • MMBench-EN: 81.5 (Qwen2.5-VL-7B 83.5)
  • MMMU: 50.1 (Qwen2.5-VL-7B 51.3, LLaDA-o 44.9)
  • MathVista: 68.1 (Qwen2.5-VL-7B 68.2)
  • DocVQA: 91.5 (Qwen2.5-VL-7B 94.9)
  • OCRBench: 75.7 (Qwen2.5-VL-7B 84.2)
  • CountBench: 86.0 (Qwen2.5-VL-7B 84.9)

텍스트-이미지 생성

GenEval 벤치마크에서 LLaDA2.0-Uni는 전체 점수 0.89를 기록하여 평가된 모든 통합 모델을 앞지르고, 생성 전용 최상위 모델과의 격차를 메웁니다. 특히 공간 배치(Position) 점수 0.90 은 모든 비교 모델 중 최고치입니다. DPG 벤치마크에서는 87.76점, OneIG-EN에서 0.505로 통합 모델 중 최상위에 위치합니다. 가장 두드러진 결과는 추론 정보 기반 생성을 평가하는 WISE-Bench에서의 성능과, UniGenBench의 전반적인 균형 잡힌 점수(전체 79.63)입니다. CVTG-2K 텍스트 렌더링에서도 통합 모델 중 강력한 결과를 보였습니다.

이미지 편집과 인터리브 생성

단일 참조 및 다중 참조 이미지 편집에서 원본 세부사항을 보존하면서 정밀한 편집을 수행합니다. 이산 시각 토큰을 텍스트와 동일한 어휘 공간에서 다루므로 인터리브 생성과 추론을 자연스럽게 지원하며, "생각 모드(thinking mode)"를 활성화하면 CoT(Chain-of-Thought) 방식의 다단계 추론을 통해 더 복잡한 시각 태스크를 처리할 수 있습니다.

LLaDA2.0-Uni 설치 및 사용법

환경 설정:

git clone https://github.com/inclusionAI/LLaDA2-Uni && cd LLaDA2-Uni
conda create -n llada2_uni python=3.10 -y
conda activate llada2_uni

# CUDA 12.4 기반 PyTorch 설치
pip install torch torchvision --index-url https://download.pytorch.org/whl/cu124

# Flash Attention 2 설치 (효율적 추론에 필수)
pip install flash-attn --no-build-isolation

pip install -r requirements.txt

텍스트-이미지 생성 (기본 모드, 8단계 디코더-터보):

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
from decoder import decode_vq_tokens

model_path = "inclusionAI/LLaDA2.0-Uni"
tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
    model_path, device_map="cuda", torch_dtype="bfloat16", trust_remote_code=True
).eval()
model.tokenizer = tokenizer

# 이미지 토큰 생성
result = model.generate_image(
    "A serene mountain lake at sunset with reflections.",
    image_h=1024, image_w=1024,
    steps=8, cfg_scale=2.0,
)

# 증류된 8단계 디코더로 약 10배 빠르게 디코딩
image = decode_vq_tokens(
    result["token_ids"], result["h"], result["w"], model_path, "cuda",
    num_steps=8, decode_mode="decoder-turbo",
)
image.save("output.png")

Thinking 모드로 텍스트-이미지 생성:

result = model.generate_image(
    "A fox with thick, dense, fluffy fur in a winter setting, possibly surrounded by snow.",
    image_h=1024, image_w=1024,
    mode="thinking",
    steps=8, cfg_scale=2.0,
    thinking_steps=32, thinking_gen_length=4096,
)
print("Thinking:", result["thinking"])
image = decode_vq_tokens(
    result["token_ids"], result["h"], result["w"], model_path, "cuda",
    num_steps=8, decode_mode="decoder-turbo",
)

이미지 이해 (VQA):

from encoder.image_tokenizer import ImageTokenizer
from decoder.smart_img_process import smart_resize_images

image_tokenizer = ImageTokenizer(model_path=model_path, device="cuda")
pil_image = smart_resize_images(["./assets/understanding_example.png"])[0]
info = image_tokenizer.encode_with_info(pil_image)
image_tokens = [x + model.config.image_token_offset for x in info["token_ids"]]
_, h, w = info["grid_thw"]

response = model.understand_image(
    image_tokens, h, w,
    question="Describe this image in detail.",
    steps=32, gen_length=2048,
)
print(response)

이미지 편집:

from decoder.utils import generate_crop_size_list, var_center_crop
from PIL import Image

crop_size_list = generate_crop_size_list((512 // 32) ** 2, 32)
pil_image = var_center_crop(
    Image.open("./assets/edit_example.png").convert("RGB"),
    crop_size_list=crop_size_list,
)
info = image_tokenizer.encode_with_info(pil_image)
image_tokens = [x + model.config.image_token_offset for x in info["token_ids"]]
_, h, w = info["grid_thw"]

result = model.edit_image(
    image_tokens, h, w,
    instruction="Change the background to a beach.",
    steps=8, cfg_text_scale=4.0,
)
edited = decode_vq_tokens(
    result["token_ids"], result["h"], result["w"], model_path, "cuda",
    num_steps=8, decode_mode="decoder-turbo",
)
edited.save("edited.png")

SPRINT 가속 추론:

# 이미지 이해에 SPRINT 적용
response = model.understand_image(
    image_tokens, h, w,
    question="Describe this image in detail.",
    steps=32, gen_length=4096,
    use_sprint=True,
    threshold=0.93,
    keep_ratio=0.5,
    cache_warmup_steps=1,
    image_keep_ratio=1.0,
    text_keep_ratio=1.0,
)

# 텍스트-이미지 생성에 SPRINT 적용
result = model.generate_image(
    "A modern Scandinavian kitchen ...",
    image_h=1024, image_w=1024,
    cfg_scale=2.0,
    use_sprint=True,
    block_length=32,
    steps=8,
    keep_ratio=0.5,
    cache_warmup_steps=1,
)

CLI 스크립트도 함께 제공됩니다:

# Text-to-Image
python scripts/t2i_generate.py --model_path inclusionAI/LLaDA2.0-Uni --prompt "..."

# Image Understanding
python scripts/mmu_understand.py --model_path inclusionAI/LLaDA2.0-Uni --image ./assets/understanding_example.png

# Image Editing
python scripts/image_edit.py --model_path inclusionAI/LLaDA2.0-Uni --image ./assets/edit_example.png --instruction "Make it a watercolor painting"

참고: SPRINT는 Simple CFG와 no-CFG 모드에서 지원됩니다. 편집 CFG(cfg_text_scale / cfg_image_scale을 사용하는 3-way guidance) 사용 시에는 자동으로 베이스라인으로 폴백됩니다. 또한, 향후 SGLang 기반의 고처리량 서빙 통합도 공개 예정입니다.

:scroll: LLaDA2.0-Uni 논문

:github: LLaDA2.0-Uni 프로젝트 GitHub 저장소

:hugs: LLaDA2.0-Uni 모델 다운로드

더 읽어보기




이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. :hugs:

:pytorch:파이토치 한국 사용자 모임:south_korea:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:wrapped_gift: 아래:down_right_arrow:쪽에 좋아요:+1:를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~ :star_struck: