[2025/12/22 ~ 28] 이번 주에 살펴볼 만한 AI/ML 논문 모음
PyTorchKR


심층적인 환각 탐지와 완화 전략 (Deep Hallucination Detection & Mitigation): 이번 주 선정된 논문들을 살펴보면, 단순히 모델의 크기를 키우는 것을 넘어, LLM의 고질적인 문제인 환각(Hallucination) 을 근본적으로 해결하려는 시도가 두드러집니다. QuCo-RAG는 모델 내부의 주관적 신뢰도 대신 사전 학습 데이터의 통계라는 객관적 지표를 활용해 검색 시점을 결정하며, H-Neurons는 환각을 유발하는 특정 뉴런을 식별하고 그 기원을 추적하는 미시적 접근을 취합니다. 또한, Model-First Reasoning은 문제 해결 전 명시적인 모델링 단계를 거치게 함으로써 구조적인 오류를 줄입니다. 이는 AI 연구가 단순히 '그럴듯한 답변'을 내놓는 것에서 '검증 가능하고 신뢰할 수 있는 메커니즘'을 갖추는 방향으로 진화하고 있음을 보여줍니다.
추론 효율성 및 실시간 처리 기술의 진화 (Evolution of Inference Efficiency & Real-Time Processing): 또한, 모델이 거대해짐에 따라 추론 속도와 메모리 효율성을 극대화하려는 연구가 활발합니다. WorldPlay는 속도와 메모리 간의 트레이드오프를 해결하여 실시간 비디오 생성을 가능하게 했고, Jacobi Forcing은 순차적인 생성 방식(AR)의 한계를 넘어 병렬 디코딩을 통해 추론 속도를 획기적으로 높였습니다. 또한 qTTT는 긴 문맥 처리 시 발생하는 성능 저하(점수 희석)를 막기 위해 추론 단계에서 경량화된 학습을 수행하는 새로운 접근법을 제시했습니다. 이는 고성능 모델을 실제 서비스 레벨(Real-time application)에서 활용하기 위한 필수적인 최적화 과정으로 해석됩니다.
동적 세계 이해와 구조적 추론 능력 강화 (Enhanced Dynamic World Understanding & Structured Reasoning): 정적인 이미지나 텍스트 분석을 넘어, 시간의 흐름(4D)과 물리적/논리적 구조를 이해하려는 흐름이 강합니다. 4D-RGPT는 비디오의 시간적 동역학을 이해하기 위해 3D 공간에 시간 축을 더한 4D 인식을 시도하며, WorldPlay는 기하학적 일관성을 유지하며 세계 모델링을 수행합니다. NEPA 역시 픽셀 복원 대신 임베딩 예측을 통해 시각적 이해를 높이려 합니다. 이는 AI가 단순한 패턴 매칭을 넘어, 인간처럼 물리 법칙과 논리적 인과관계를 포함한 '세계의 작동 원리' 를 내재화하는 단계로 나아가고 있음을 시사합니다.
월드플레이: 실시간 상호작용 세계 모델링을 위한 장기 기하학적 일관성 향상 / WorldPlay: Towards Long-Term Geometric Consistency for Real-Time Interactive World Modeling
논문 소개
WorldPlay는 실시간 상호작용 세계 모델링을 위한 혁신적인 스트리밍 비디오 디퓨전 모델로, 장기 기하학적 일관성을 유지하면서도 속도와 메모리 간의 트레이드오프를 해결하는 데 중점을 두고 개발되었습니다. 이 모델은 세 가지 주요 혁신을 통해 성능을 극대화합니다. 첫째, Dual Action Representation을 통해 사용자의 입력에 대한 강력한 동작 제어를 가능하게 하여, 다양한 스케일의 장면에서 물리적으로 그럴듯한 움직임을 구현합니다. 둘째, Reconstituted Context Memory는 과거 프레임의 정보를 동적으로 재구성하여 장기 일관성을 유지하는 데 기여합니다. 이를 통해 기하학적으로 중요한 오래된 프레임을 접근 가능하게 하여 메모리 효율성을 높입니다. 셋째, Context Forcing이라는 새로운 증류 방법을 도입하여 메모리 인식 모델의 성능을 향상시킵니다. 이 방법은 교사와 학생 모델 간의 메모리 컨텍스트를 정렬하여 학생 모델이 장기 정보를 효과적으로 활용할 수 있도록 지원합니다.
WorldPlay는 24 프레임 초당 720p 비디오를 생성하며, 기존 기술들과 비교할 때 우수한 일관성을 보여줍니다. 이 모델은 실시간 비디오 생성에서의 속도와 장기 기하학적 일관성을 동시에 달성하는 데 성공하였으며, 다양한 장면에서 강한 일반화를 나타냅니다. 또한, 고품질의 3D 재구성을 가능하게 하여 동적인 세계 이벤트를 트리거할 수 있는 프롬프트 기반 상호작용을 지원합니다. 이러한 특성 덕분에 WorldPlay는 실시간 상호작용 비디오 생성 분야에서 중요한 기여를 하고 있으며, 향후 다양한 응용 가능성을 열어줍니다.
논문 초록(Abstract)
이 논문은 실시간 상호작용 세계 모델링을 가능하게 하는 스트리밍 비디오 디퓨전 모델인 WorldPlay를 제시합니다. WorldPlay는 현재 방법들이 제한하는 속도와 메모리 간의 트레이드오프를 해결하여 장기적인 기하학적 일관성을 유지합니다. WorldPlay는 세 가지 주요 혁신에서 힘을 얻습니다. 1) 우리는 사용자의 키보드와 마우스 입력에 대한 강력한 행동 제어를 가능하게 하는 이중 행동 표현(Dual Action Representation)을 사용합니다. 2) 장기적인 일관성을 유지하기 위해, 우리의 재구성된 컨텍스트 메모리(Reconstituted Context Memory)는 과거 프레임에서 컨텍스트를 동적으로 재구성하고, 기하학적으로 중요한 그러나 오래된 프레임을 접근 가능하게 유지하기 위해 시간적 재구성을 사용하여 메모리 감소를 효과적으로 완화합니다. 3) 우리는 또한 메모리 인식 모델을 위해 설계된 새로운 증류 방법인 컨텍스트 포싱(Context Forcing)을 제안합니다. 교사와 학생 간의 메모리 컨텍스트를 정렬함으로써 학생이 장기 정보를 사용할 수 있는 능력을 유지하여 오류 드리프트를 방지하면서 실시간 속도를 가능하게 합니다. 종합적으로, WorldPlay는 기존 기술과 비교하여 우수한 일관성을 유지하며 다양한 장면에서 강력한 일반화를 보여주면서 24 FPS로 720p 비디오를 장기적으로 스트리밍할 수 있습니다. 프로젝트 페이지와 온라인 데모는 다음에서 확인할 수 있습니다: 腾讯混元3D 및 https://3d.hunyuan.tencent.com/sceneTo3D.
This paper presents WorldPlay, a streaming video diffusion model that enables real-time, interactive world modeling with long-term geometric consistency, resolving the trade-off between speed and memory that limits current methods. WorldPlay draws power from three key innovations. 1) We use a Dual Action Representation to enable robust action control in response to the user's keyboard and mouse inputs. 2) To enforce long-term consistency, our Reconstituted Context Memory dynamically rebuilds context from past frames and uses temporal reframing to keep geometrically important but long-past frames accessible, effectively alleviating memory attenuation. 3) We also propose Context Forcing, a novel distillation method designed for memory-aware model. Aligning memory context between the teacher and student preserves the student's capacity to use long-range information, enabling real-time speeds while preventing error drift. Taken together, WorldPlay generates long-horizon streaming 720p video at 24 FPS with superior consistency, comparing favorably with existing techniques and showing strong generalization across diverse scenes. Project page and online demo can be found: 腾讯混元3D and https://3d.hunyuan.tencent.com/sceneTo3D.
논문 링크
더 읽어보기
QuCo-RAG: 사전 학습 데이터에서 불확실성을 정량화하여 동적 검색 증강 생성을 위한 방법 / QuCo-RAG: Quantifying Uncertainty from the Pre-training Corpus for Dynamic Retrieval-Augmented Generation
논문 소개
QuCo-RAG는 대규모 언어 모델(LLM)의 생성 과정에서 동적으로 검색 시점을 결정하여 허위 정보를 완화하는 혁신적인 방법론이다. 기존의 접근 방식은 모델 내부 신호에 의존하였으나, 이는 LLM이 종종 잘 보정되지 않고 잘못된 출력에 대해 높은 신뢰도를 보이는 문제를 안고 있다. 본 연구에서는 이러한 한계를 극복하기 위해 주관적인 신뢰도 대신 사전 학습 데이터에서 계산된 객관적인 통계로 불확실성을 정량화하는 새로운 방법을 제안한다.
QuCo-RAG의 불확실성 정량화는 두 가지 주요 단계로 구성된다. 첫 번째 단계에서는 생성 전에 긴 꼬리 지식 격차를 나타내는 저빈도 엔티티를 식별한다. 두 번째 단계에서는 생성 중에 사전 학습 데이터에서 엔티티의 동시 발생을 검증하여, 동시 발생이 0일 경우 허위 정보의 위험을 신호한다. 이러한 두 단계는 Infini-gram을 활용하여 4조 개의 토큰에 대해 밀리초 지연 쿼리를 수행함으로써 불확실성이 높은 상황에서 검색을 트리거한다.
실험 결과, QuCo-RAG는 다단계 질문 응답(QA) 벤치마크에서 OLMo-2 모델을 사용하여 최신 기준선보다 5-12 포인트의 정확도(EM) 향상을 달성하였다. 또한, 비공식 사전 학습 데이터를 가진 모델(Llama, Qwen, GPT)에서도 효과적으로 이전되어 EM을 최대 14 포인트 향상시켰다. 생물 의학 QA에서의 도메인 일반화 실험은 QuCo-RAG의 강건성을 추가로 검증하였다.
QuCo-RAG는 사전 학습 코퍼스를 기반으로 한 검증을 통해 동적 검색 증강 생성의 새로운 패러다임을 제시하며, 이는 모델 비의존적인 접근 방식으로 다양한 LLM에 적용 가능하다. 이러한 연구는 허위 정보의 위험을 줄이는 데 기여하며, 향후 다양한 도메인에 적용할 수 있는 가능성을 탐색할 예정이다.
논문 초록(Abstract)
다이나믹 검색-증강 생성(Dynamic Retrieval-Augmented Generation)은 대규모 언어 모델(LLMs)에서 환각을 완화하기 위해 생성 중 검색 시점을 적응적으로 결정합니다. 그러나 기존 방법은 모델 내부 신호(예: 로짓, 엔트로피)에 의존하는데, 이는 LLM이 일반적으로 잘 보정되지 않고 종종 잘못된 출력에 대해 높은 신뢰도를 보이기 때문에 근본적으로 신뢰할 수 없습니다. 우리는 주관적인 신뢰도에서 사전 학습 데이터로부터 계산된 객관적인 통계로 전환하는 QuCo-RAG를 제안합니다. 우리의 방법은 두 단계로 불확실성을 정량화합니다: (1) 생성 이전에, 우리는 긴 꼬리 지식 격차를 나타내는 저빈도 엔티티를 식별합니다; (2) 생성 중에, 우리는 사전 학습 코퍼스에서 엔티티의 동시 발생을 검증하며, 동시 발생이 없는 경우 환각 위험을 신호하는 경우가 많습니다. 두 단계 모두 4조 개의 토큰에 대해 밀리초 지연 쿼리를 위한 Infini-gram을 활용하여 불확실성이 높을 때 검색을 트리거합니다. 다중 홉 QA 벤치마크에 대한 실험 결과, QuCo-RAG는 OLMo-2 모델을 사용하여 최첨단 기준보다 5-12 포인트의 EM 향상을 달성하며, 비공개 사전 학습 데이터를 가진 모델(Llama, Qwen, GPT)로도 효과적으로 전이되어 EM을 최대 14 포인트 향상시킵니다. 생물 의학 QA에 대한 도메인 일반화는 우리의 패러다임의 강건성을 추가로 검증합니다. 이러한 결과는 코퍼스 기반 검증이 다이나믹 RAG를 위한 원칙적이고 실질적으로 모델 비의존적인 패러다임으로 자리잡게 합니다. 우리의 코드는 GitHub - ZhishanQ/QuCo-RAG: Official code implementation of the paper: QuCo-RAG: Quantifying Uncertainty from the Pre-training Corpus for Dynamic Retrieval-Augmented Generation 에서 공개적으로 이용 가능합니다.
Dynamic Retrieval-Augmented Generation adaptively determines when to retrieve during generation to mitigate hallucinations in large language models (LLMs). However, existing methods rely on model-internal signals (e.g., logits, entropy), which are fundamentally unreliable because LLMs are typically ill-calibrated and often exhibit high confidence in erroneous outputs. We propose QuCo-RAG, which shifts from subjective confidence to objective statistics computed from pre-training data. Our method quantifies uncertainty through two stages: (1) before generation, we identify low-frequency entities indicating long-tail knowledge gaps; (2) during generation, we verify entity co-occurrence in the pre-training corpus, where zero co-occurrence often signals hallucination risk. Both stages leverage Infini-gram for millisecond-latency queries over 4 trillion tokens, triggering retrieval when uncertainty is high. Experiments on multi-hop QA benchmarks show QuCo-RAG achieves EM gains of 5--12 points over state-of-the-art baselines with OLMo-2 models, and transfers effectively to models with undisclosed pre-training data (Llama, Qwen, GPT), improving EM by up to 14 points. Domain generalization on biomedical QA further validates the robustness of our paradigm. These results establish corpus-grounded verification as a principled, practically model-agnostic paradigm for dynamic RAG. Our code is publicly available at GitHub - ZhishanQ/QuCo-RAG: Official code implementation of the paper: QuCo-RAG: Quantifying Uncertainty from the Pre-training Corpus for Dynamic Retrieval-Augmented Generation.
논문 링크
더 읽어보기
4D-RGPT: 지역 수준의 4D 이해를 위한 지각 증류 접근법 / 4D-RGPT: Toward Region-level 4D Understanding via Perceptual Distillation
논문 소개
4D-RGPT는 비디오 입력에서 4D 표현을 효과적으로 포착하기 위해 설계된 전문화된 멀티모달 대규모 언어 모델(MMLM)이다. 기존의 3D 및 4D 비디오 질문 응답(VQA) 벤치마크는 정적 장면에 중점을 두고 있으며, 지역 수준의 프롬프트가 부족하여 시간적 동역학에 대한 이해가 제한적이었다. 이러한 문제를 해결하기 위해 본 연구에서는 지각적 4D 증류(Perceptual 4D Distillation, P4D)라는 혁신적인 학습 프레임워크를 도입하여, 동결된 전문가 모델에서 4D 표현을 4D-RGPT로 전이함으로써 포괄적인 4D 인식을 가능하게 한다.
R4D-Bench라는 새로운 벤치마크도 제안되었으며, 이는 깊이 인식 동적 장면을 위한 지역 수준의 프롬프트를 포함하고 있다. R4D-Bench는 하이브리드 자동화 및 인간 검증 파이프라인을 통해 구축되어, 기존의 비지역 기반 4D VQA 벤치마크의 한계를 극복하고자 한다. 이 벤치마크는 4D 이해의 다양한 측면을 평가하기 위해 9개의 질문 카테고리를 포함하고 있으며, 각 카테고리는 MMLM의 성능을 종합적으로 평가하는 기준을 제공한다.
질문 옵션 형식은 MMLM이 정확한 답변을 제공하기 위해 필요한 정밀도를 요구하며, 이는 객체의 위치와 방향을 이해하는 데 필수적이다. 이러한 접근 방식은 MMLM의 4D 이해 능력을 향상시키고, 지역 기반 질문을 통해 보다 깊이 있는 평가를 가능하게 한다. 본 연구는 4D-RGPT와 R4D-Bench를 통해 기존의 VQA 시스템의 한계를 극복하고, 4D 인식 및 시간적 이해를 향상시키는 중요한 기여를 하고 있다.
논문 초록(Abstract)
다양한 멀티모달 대규모 언어 모델(MLLM)의 발전에도 불구하고, 3D 구조와 시간적 동역학에 대한 추론 능력은 여전히 제한적이며, 이는 약한 4D 인식과 시간적 이해에 의해 제약받고 있습니다. 기존의 3D 및 4D 비디오 질문 응답(VQA) 벤치마크는 정적인 장면에 중점을 두고 있으며, 지역 수준의 프롬프트가 부족합니다. 우리는 다음과 같은 문제를 해결하기 위해 다음을 도입합니다: (a) 향상된 시간적 인식을 통해 비디오 입력에서 4D 표현을 캡처하도록 설계된 전문화된 MLLM인 4D-RGPT; (b) 고정된 전문가 모델에서 4D 표현을 4D-RGPT로 전이하여 포괄적인 4D 인식을 위한 훈련 프레임워크인 지각적 4D 증류(P4D); (c) 지역 수준의 프롬프트를 갖춘 깊이 인식 동적 장면을 위한 벤치마크인 R4D-Bench로, 하이브리드 자동화 및 인간 검증 파이프라인을 통해 구축되었습니다. 우리의 4D-RGPT는 기존의 4D VQA 벤치마크와 제안된 R4D-Bench 벤치마크 모두에서 주목할 만한 개선을 달성했습니다.
Despite advances in Multimodal LLMs (MLLMs), their ability to reason over 3D structures and temporal dynamics remains limited, constrained by weak 4D perception and temporal understanding. Existing 3D and 4D Video Question Answering (VQA) benchmarks also emphasize static scenes and lack region-level prompting. We tackle these issues by introducing: (a) 4D-RGPT, a specialized MLLM designed to capture 4D representations from video inputs with enhanced temporal perception; (b) Perceptual 4D Distillation (P4D), a training framework that transfers 4D representations from a frozen expert model into 4D-RGPT for comprehensive 4D perception; and (c) R4D-Bench, a benchmark for depth-aware dynamic scenes with region-level prompting, built via a hybrid automated and human-verified pipeline. Our 4D-RGPT achieves notable improvements on both existing 4D VQA benchmarks and the proposed R4D-Bench benchmark.
논문 링크
더 읽어보기
H-뉴런: 대규모 언어 모델에서 환각 관련 뉴런의 존재, 영향 및 기원에 대한 연구 / H-Neurons: On the Existence, Impact, and Origin of Hallucination-Associated Neurons in LLMs
논문 소개
대규모 언어 모델(LLMs)에서 발생하는 환각 문제는 모델의 신뢰성을 저해하는 주요 요인 중 하나로, 그럴듯하지만 사실과 다른 출력을 생성하는 현상을 의미한다. 본 연구에서는 환각과 관련된 뉴런, 즉 H-Neurons의 존재와 그 영향, 기원을 체계적으로 분석하였다. H-Neurons의 식별 과정에서는 전체 뉴런의 0.1% 미만의 희소한 뉴런 집합이 환각 발생을 신뢰성 있게 예측할 수 있음을 입증하였다. 이러한 뉴런들은 다양한 시나리오에서 강한 일반화 능력을 보여주었다.
행동적 영향 측면에서, 통제된 개입을 통해 H-Neurons가 과도한 순응 행동과 인과적으로 연결되어 있음을 발견하였다. 이는 환각 발생에 기여하는 뉴런들이 단순히 우연히 활성화되는 것이 아니라, 특정 행동 패턴과 밀접한 관계가 있음을 시사한다. 기원 측면에서는 H-Neurons가 사전 학습된 기본 모델에서 유래되며, 이들 뉴런이 환각 탐지에 대한 예측력을 유지함을 확인하였다. 이는 H-Neurons가 모델의 초기 학습 과정에서 형성된다는 중요한 통찰을 제공한다.
연구 방법론으로는, 환각과 관련된 뉴런을 강력하게 식별하기 위해 TriviaQA 데이터셋을 활용하여 신뢰할 수 있는 출력과 환각 출력을 구분하는 고품질 대조 집합을 구축하였다. 이후, 각 뉴런의 기여도를 정량화하기 위해 선형 분류기를 훈련하고, 이를 통해 환각 여부를 예측하는 이진 레이블을 생성하였다. 이러한 접근은 H-Neurons의 기능적 영향을 명확히 평가할 수 있는 기반을 마련하였다.
마지막으로, 본 연구는 LLM에서 환각과 관련된 뉴런의 신경 메커니즘을 이해하는 데 기여하며, 향후 보다 신뢰할 수 있는 LLM 개발을 위한 중요한 기초 자료를 제공한다. 이러한 발견은 LLM의 신뢰성을 높이기 위한 연구에 있어 필수적인 통찰을 제공하며, 향후 연구 방향에 대한 중요한 기초를 마련한다.
논문 초록(Abstract)
대규모 언어 모델(LLM)은 자주 환각을 생성하는데, 이는 그럴듯하지만 사실과 일치하지 않는 출력으로 신뢰성을 저해합니다. 이전 연구에서는 훈련 데이터와 목표와 같은 거시적 관점에서 환각을 조사했지만, 기본적인 뉴런 수준의 메커니즘은 대부분 탐구되지 않았습니다. 본 논문에서는 LLM의 환각 관련 뉴런(H-뉴런)에 대해 세 가지 관점에서 체계적인 조사를 수행합니다: 식별, 행동적 영향, 그리고 기원. 식별 측면에서, 우리는 전체 뉴런의 0.1\% 미만이라는 놀라울 정도로 희소한 뉴런 집합이 환각 발생을 신뢰성 있게 예측할 수 있음을 보여주며, 다양한 시나리오에서 강한 일반화를 보입니다. 행동적 영향 측면에서, 통제된 개입을 통해 이러한 뉴런이 과도한 순응 행동과 인과적으로 연결되어 있음을 밝혀냅니다. 기원에 관해서는, 이러한 뉴런이 사전 학습된 기본 모델로 거슬러 올라가며, 환각 탐지에 대한 예측력을 유지함을 발견하여, 이들이 사전 학습 중에 나타남을 나타냅니다. 우리의 발견은 거시적 행동 패턴과 미시적 신경 메커니즘을 연결하여, 보다 신뢰할 수 있는 LLM 개발을 위한 통찰을 제공합니다.
Large language models (LLMs) frequently generate hallucinations -- plausible but factually incorrect outputs -- undermining their reliability. While prior work has examined hallucinations from macroscopic perspectives such as training data and objectives, the underlying neuron-level mechanisms remain largely unexplored. In this paper, we conduct a systematic investigation into hallucination-associated neurons (H-Neurons) in LLMs from three perspectives: identification, behavioral impact, and origins. Regarding their identification, we demonstrate that a remarkably sparse subset of neurons (less than 0.1\% of total neurons) can reliably predict hallucination occurrences, with strong generalization across diverse scenarios. In terms of behavioral impact, controlled interventions reveal that these neurons are causally linked to over-compliance behaviors. Concerning their origins, we trace these neurons back to the pre-trained base models and find that these neurons remain predictive for hallucination detection, indicating they emerge during pre-training. Our findings bridge macroscopic behavioral patterns with microscopic neural mechanisms, offering insights for developing more reliable LLMs.
논문 링크
다음 임베딩 예측이 강력한 비전 학습자를 만든다 / Next-Embedding Prediction Makes Strong Vision Learners
논문 소개
자기 지도 학습(self-supervised learning)은 대규모 주석 없는 데이터셋을 활용하여 표현을 학습하는 중요한 방법론으로 자리잡고 있으며, 최근에는 대조적 학습(contrastive learning) 및 자기 증류(self-distillation)와 같은 다양한 접근법이 발전해왔다. 그러나 이러한 방법들은 종종 대규모 배치나 메모리 뱅크를 필요로 하며, 경량 디코더를 통한 재구성 목표(reconstruction objectives)도 그 한계를 드러내고 있다. 이에 대한 대안으로 제안된 예측 표현 학습(predictive representation learning)은 원시 입력 대신 의미론적 임베딩을 예측하는 접근법으로, 특히 JEPA(Just-Embedding Predictive Autoregression)와 같은 방법이 주목받고 있다. 그러나 JEPA는 표현 중심으로, 사전 학습된 인코더가 다운스트림 모듈에 의해 별도로 소비되는 특징을 생성하는 한계가 있다.
이러한 배경에서 제안된 Next-Embedding Predictive Autoregression(NEPA) 접근법은 과거 패치 임베딩을 조건으로 미래 패치 임베딩을 예측하는 방식으로, 인과 마스킹(causal masking)과 그래디언트 중단(stop gradient) 기법을 활용한다. NEPA는 모델이 다운스트림 작업을 위해 특징을 출력하는 대신, 예측 작업을 직접 수행하도록 학습하는 데 중점을 두고 있다. 이 방법론은 단순한 트랜스포머(Transformer) 아키텍처를 기반으로 하며, ImageNet-1k 데이터셋에서 사전 학습을 통해 높은 성능을 발휘한다. 특히, 픽셀 재구성, 이산 토큰, 대조 손실, 작업 특정 헤드 없이도 강력한 성능을 유지하는 점이 주목할 만하다.
NEPA는 ViT-B 및 ViT-L 백본을 사용하여 ImageNet-1K에서 각각 83.8% 및 85.3%의 top-1 정확도를 달성하였으며, ADE20K에서의 의미론적 분할(semantic segmentation) 작업으로도 효과적으로 전이되었다. 이러한 결과는 NEPA가 단순하고 확장 가능하며, 잠재적으로 모달리티에 구애받지 않는 대안으로 시각적 자기 지도 학습에 기여할 수 있음을 보여준다. NEPA의 연구는 예측을 통해 작업 행동을 직접 유도할 수 있는 가능성을 제시하며, 향후 다양한 비전 작업에서의 활용 가능성을 열어주는 중요한 기여를 하고 있다.
논문 초록(Abstract)
자연어에서 생성적 사전학습의 성공에 영감을 받아, 우리는 동일한 원칙이 강력한 자기 지도 시각 학습자를 생성할 수 있는지 질문합니다. 모델이 다운스트림 사용을 위한 특징을 출력하도록 훈련하는 대신, 우리는 예측 작업을 직접 수행하기 위해 임베딩을 생성하도록 훈련합니다. 이 연구는 표현 학습에서 모델 학습으로의 전환을 탐구합니다. 구체적으로, 모델은 과거 패치 임베딩을 조건으로 미래 패치 임베딩을 예측하도록 학습하며, 이를 인과 마스킹과 그래디언트 정지를 사용하여 수행합니다. 우리는 이를 다음 임베딩 예측 자기 회귀(Next-Embedding Predictive Autoregression, NEPA)라고 부릅니다. 우리는 이미지넷-1k에서 사전학습된 간단한 트랜스포머가 다음 임베딩 예측을 유일한 학습 목표로 삼았을 때 효과적임을 입증합니다. 픽셀 재구성, 이산 토큰, 대조 손실 또는 작업 특정 헤드가 필요하지 않습니다. 이 공식은 추가적인 설계 복잡성 없이 구조적 단순성과 확장성을 유지합니다. NEPA는 다양한 작업에서 강력한 결과를 달성하며, ViT-B와 ViT-L 백본을 사용하여 이미지넷-1K에서 각각 83.8%와 85.3%의 top-1 정확도를 기록하고, ADE20K에서 의미론적 분할로 효과적으로 전이됩니다. 우리는 임베딩에서의 생성적 사전학습이 시각 자기 지도 학습에 대한 간단하고 확장 가능하며 잠재적으로 모달리티에 구애받지 않는 대안을 제공한다고 믿습니다.
Inspired by the success of generative pretraining in natural language, we ask whether the same principles can yield strong self-supervised visual learners. Instead of training models to output features for downstream use, we train them to generate embeddings to perform predictive tasks directly. This work explores such a shift from learning representations to learning models. Specifically, models learn to predict future patch embeddings conditioned on past ones, using causal masking and stop gradient, which we refer to as Next-Embedding Predictive Autoregression (NEPA). We demonstrate that a simple Transformer pretrained on ImageNet-1k with next embedding prediction as its sole learning objective is effective - no pixel reconstruction, discrete tokens, contrastive loss, or task-specific heads. This formulation retains architectural simplicity and scalability, without requiring additional design complexity. NEPA achieves strong results across tasks, attaining 83.8% and 85.3% top-1 accuracy on ImageNet-1K with ViT-B and ViT-L backbones after fine-tuning, and transferring effectively to semantic segmentation on ADE20K. We believe generative pretraining from embeddings provides a simple, scalable, and potentially modality-agnostic alternative to visual self-supervised learning.
논문 링크
더 읽어보기
모델 우선 추론 LLM 에이전트: 명시적 문제 모델링을 통한 환각 감소 / Model-First Reasoning LLM Agents: Reducing Hallucinations through Explicit Problem Modeling
논문 소개
대규모 언어 모델(LLM)은 복잡한 다단계 계획 작업에서 높은 비율의 제약 위반과 일관성 없는 솔루션을 보여주는 경향이 있다. 기존의 Chain-of-Thought(사고의 연쇄) 및 ReAct(반응적 행동)와 같은 전략은 암묵적인 상태 추적에 의존하며, 명시적인 문제 표현이 부족하여 이러한 한계를 극복하지 못하고 있다. 본 연구에서는 고전 인공지능(AI) 계획에서 영감을 받아 **모델 우선 추론(Model-First Reasoning, MFR)**이라는 새로운 두 단계의 패러다임을 제안한다. 이 접근법에서는 LLM이 먼저 문제의 명시적인 모델을 구축한 후, 이를 기반으로 솔루션 계획을 생성하도록 한다.
MFR은 여러 계획 도메인에서 실험을 통해 제약 준수와 솔루션 품질을 향상시키는 결과를 보여주었다. 특히, 의료 일정 관리, 경로 계획, 자원 할당, 논리 퍼즐 및 절차적 합성 등 다양한 분야에서 MFR의 효과가 입증되었다. 아블레이션 연구를 통해 명시적인 모델링 단계가 이러한 성과에 필수적이라는 점이 강조되었다. 연구 결과는 LLM의 계획 실패가 주로 표현의 결함에서 비롯된다는 점을 시사하며, 이는 추론의 한계가 아닌 문제 표현의 부족에 기인한다.
MFR은 문제의 명시적인 모델을 구성하는 단계와 솔루션을 생성하는 단계로 나뉘며, 이 과정에서 엔티티, 상태 변수, 행동 및 제약을 정의한다. 이러한 명시적인 모델링은 LLM이 보다 구조화된 방식으로 문제를 이해하고 해결할 수 있도록 돕는다. 본 연구는 LLM 기반 계획 및 추론 작업에서의 표현 실패를 해결하기 위한 기초를 제공하며, 신뢰할 수 있는 AI 에이전트를 위한 중요한 기여를 한다. 모든 프롬프트, 평가 절차 및 작업 데이터셋이 문서화되어 재현성을 촉진하고, 향후 연구에 대한 기초를 마련한다.
논문 초록(Abstract)
대규모 언어 모델(LLM)은 복잡한 다단계 계획 작업에서 종종 어려움을 겪으며, 제약 위반율이 높고 일관되지 않은 솔루션을 보여줍니다. 체인 오브 사고(Chain-of-Thought)와 리액트(ReAct)와 같은 기존 전략은 암묵적인 상태 추적에 의존하며 명시적인 문제 표현이 부족합니다. 고전 AI 계획에서 영감을 받아, 우리는 모델 우선 추론(Model-First Reasoning, MFR)을 제안합니다. MFR은 LLM이 먼저 문제의 명시적인 모델을 구축하고, 엔티티, 상태 변수, 행동 및 제약을 정의한 후 솔루션 계획을 생성하는 두 단계의 패러다임입니다. 의료 일정 계획, 경로 계획, 자원 할당, 논리 퍼즐 및 절차적 합성을 포함한 여러 계획 도메인에서 MFR은 제약 위반을 줄이고 체인 오브 사고 및 리액트에 비해 솔루션 품질을 향상시킵니다. 제거 연구 결과, 명시적인 모델링 단계가 이러한 개선에 중요하다는 것을 보여줍니다. 우리의 결과는 많은 LLM 계획 실패가 추론 한계가 아닌 표현적 결함에서 비롯된다는 것을 시사하며, 강력하고 해석 가능한 AI 에이전트를 위한 핵심 요소로서 명시적인 모델링을 강조합니다. 모든 프롬프트, 평가 절차 및 작업 데이터셋은 재현성을 용이하게 하기 위해 문서화되었습니다.
Large Language Models (LLMs) often struggle with complex multi-step planning tasks, showing high rates of constraint violations and inconsistent solutions. Existing strategies such as Chain-of-Thought and ReAct rely on implicit state tracking and lack an explicit problem representation. Inspired by classical AI planning, we propose Model-First Reasoning (MFR), a two-phase paradigm in which the LLM first constructs an explicit model of the problem, defining entities, state variables, actions, and constraints, before generating a solution plan. Across multiple planning domains, including medical scheduling, route planning, resource allocation, logic puzzles, and procedural synthesis, MFR reduces constraint violations and improves solution quality compared to Chain-of-Thought and ReAct. Ablation studies show that the explicit modeling phase is critical for these gains. Our results suggest that many LLM planning failures stem from representational deficiencies rather than reasoning limitations, highlighting explicit modeling as a key component for robust and interpretable AI agents. All prompts, evaluation procedures, and task datasets are documented to facilitate reproducibility.
논문 링크
맥락에 단순히 의존하지 말자: 긴 맥락 LLM을 위한 테스트 시간 학습 / Let's (not) just put things in Context: Test-Time Training for Long-Context LLMs
논문 소개
대규모 언어 모델(LLM)의 발전은 긴 컨텍스트를 처리하는 능력을 크게 향상시켰지만, 이러한 모델이 실제로 긴 컨텍스트에서 효과적으로 작동하지 못하는 문제를 해결하는 것이 중요하다. 본 연구에서는 기존의 추론 시간 전략이 성능을 개선하기 위해 사용하는 생각 토큰(thinking tokens) 생성 방식이 점수 희석(score dilution) 문제로 인해 한계를 가진다는 점을 지적한다. 점수 희석은 정적 자기 어텐션(static self-attention) 특성으로 인해 발생하며, 이는 긴 컨텍스트에서 모델의 정확도를 저하시킨다.
이러한 문제를 해결하기 위해, 본 연구는 쿼리 전용 테스트 시간 학습(query-only test-time training, qTTT)이라는 새로운 방법론을 제안한다. qTTT는 주어진 컨텍스트에 대한 목표 그래디언트 업데이트를 통해 정적 자기 어텐션의 한계를 극복하며, 긴 컨텍스트에서의 성능 향상을 목표로 한다. 실험 결과, qTTT는 기존의 추론 시간 전략보다 더 효과적인 접근 방식을 제공하며, Qwen3-4B 모델에서 LongBench-v2 및 ZeroScrolls 벤치마크의 하위 집합에 대해 평균 12.6% 및 14.1% 포인트의 성능 향상을 이끌어낸다.
이 연구는 긴 컨텍스트에서의 성능 향상을 위해 컨텍스트에 특화된 소량의 학습이 필요하다는 점을 강조하며, 이는 추론 계산의 더 나은 활용을 의미한다. qTTT의 도입은 긴 컨텍스트 LLM의 성능을 극대화할 수 있는 실질적인 방법을 제시하며, 향후 연구에서 긴 컨텍스트 처리의 새로운 방향성을 제시할 것으로 기대된다. 이러한 혁신적인 접근은 LLM의 활용 가능성을 더욱 넓히고, 다양한 응용 분야에서의 성능 개선에 기여할 것으로 보인다.
논문 초록(Abstract)
훈련 및 아키텍처 전략의 발전으로 수백만 개의 토큰을 포함하는 긴 문맥 길이를 가진 대규모 언어 모델(LLM)이 가능해졌습니다. 그러나 경험적 증거에 따르면 이러한 긴 문맥 LLM은 신뢰성 있게 사용할 수 있는 것보다 훨씬 더 많은 텍스트를 소비할 수 있습니다. 반면, 추론 시간의 계산을 사용하여 다단계 추론을 포함하는 도전적인 작업에서 LLM의 성능을 확장할 수 있다는 것이 입증되었습니다. 샌드박스 긴 문맥 작업에 대한 통제된 실험을 통해, 이러한 추론 시간 전략이 빠르게 수익이 감소하고 긴 문맥에서 실패한다는 것을 발견했습니다. 우리는 이러한 실패를 정적 자기 어텐션에 내재된 현상인 점수 희석(score dilution)으로 귀속시킵니다. 또한, 현재의 추론 시간 전략이 특정 조건에서 관련 긴 문맥 신호를 검색할 수 없음을 보여줍니다. 우리는 주어진 문맥에 대한 목표 그래디언트 업데이트를 통해 정적 자기 어텐션의 한계를 극복하는 간단한 방법을 제안합니다. 우리는 추론 시간 계산이 사용되는 방식의 변화가 모델과 긴 문맥 벤치마크 전반에 걸쳐 일관되게 큰 성능 향상을 가져온다는 것을 발견했습니다. 우리의 방법은 LongBench-v2 및 ZeroScrolls 벤치마크의 하위 집합에서 Qwen3-4B에 대해 평균 12.6 및 14.1 퍼센트 포인트의 큰 향상을 이끌어냅니다. 실질적인 결론은 다음과 같습니다: 긴 문맥의 경우, 문맥에 특화된 소량의 학습이 더 많은 사고 토큰을 생성하는 현재의 추론 시간 확장 전략보다 추론 계산을 더 잘 활용하는 방법입니다.
Progress on training and architecture strategies has enabled LLMs with millions of tokens in context length. However, empirical evidence suggests that such long-context LLMs can consume far more text than they can reliably use. On the other hand, it has been shown that inference-time compute can be used to scale performance of LLMs, often by generating thinking tokens, on challenging tasks involving multi-step reasoning. Through controlled experiments on sandbox long-context tasks, we find that such inference-time strategies show rapidly diminishing returns and fail at long context. We attribute these failures to score dilution, a phenomenon inherent to static self-attention. Further, we show that current inference-time strategies cannot retrieve relevant long-context signals under certain conditions. We propose a simple method that, through targeted gradient updates on the given context, provably overcomes limitations of static self-attention. We find that this shift in how inference-time compute is spent leads to consistently large performance improvements across models and long-context benchmarks. Our method leads to large 12.6 and 14.1 percentage point improvements for Qwen3-4B on average across subsets of LongBench-v2 and ZeroScrolls benchmarks. The takeaway is practical: for long context, a small amount of context-specific training is a better use of inference compute than current inference-time scaling strategies like producing more thinking tokens.
논문 링크
대규모 언어 모델을 활용한 강화학습 안정화: 공식화 및 실천 / Stabilizing Reinforcement Learning with LLMs: Formulation and Practices
논문 소개
강화학습(Reinforcement Learning, RL)은 다양한 분야에서 성공적으로 적용되고 있지만, 훈련 과정에서의 불안정성 문제는 여전히 해결해야 할 주요 과제입니다. 본 연구는 대규모 언어 모델(Large Language Models, LLMs)을 활용하여 RL의 안정성을 높이는 새로운 방법론을 제안합니다. 특히, 정책 그래디언트 방법론인 REINFORCE를 통해 시퀀스 수준 보상을 대체하는 토큰 수준 목표를 최적화할 수 있는 조건을 규명하였습니다. 1차 근사를 통해, 이 대체 목표가 유효해지는 조건은 학습-추론 불일치와 정책의 노후화가 최소화될 때임을 보여줍니다.
이러한 통찰력은 중요도 샘플링 보정, 클리핑, 그리고 Mixture-of-Experts (MoE) 모델을 위한 Routing Replay와 같은 기술들이 RL 훈련의 안정화에 미치는 영향을 설명하는 데 기여합니다. 30B MoE 모델을 사용한 수백만 GPU 시간에 걸친 실험을 통해, 온-정책 훈련에서 중요도 샘플링 보정을 포함한 기본 정책 그래디언트 알고리즘이 가장 높은 훈련 안정성을 달성함을 입증하였습니다. 또한, 오프-정책 업데이트를 도입하여 수렴을 가속화할 때, 클리핑과 Routing Replay의 결합이 정책의 노후화로 인한 불안정을 완화하는 데 필수적임을 강조합니다.
훈련이 안정화된 후에는 초기화 방식에 관계없이 지속적인 최적화가 일관된 최종 성능을 발휘함을 보여줍니다. 이러한 연구 결과는 안정적인 RL 훈련을 위한 새로운 통찰력을 제공하며, 향후 연구에 기여할 수 있는 중요한 기초를 마련합니다. 본 논문은 대규모 언어 모델을 활용한 강화학습의 안정화에 대한 혁신적인 접근 방식을 제시하며, RL 훈련의 불안정성을 해결하기 위한 중요한 기여를 하고 있습니다.
논문 초록(Abstract)
이 논문은 대규모 언어 모델(LLM)을 활용한 강화학습(RL)에 대한 새로운 공식을 제안하며, 진정한 시퀀스 수준의 보상을 어떻게 그리고 어떤 조건에서 대리 토큰 수준의 목표를 통해 정책 경량화 방법인 REINFORCE에서 최적화할 수 있는지를 설명합니다. 구체적으로, 1차 근사를 통해 우리는 이 대리가 훈련-추론 불일치와 정책 노후화가 최소화될 때만 점점 더 유효해진다는 것을 보여줍니다. 이 통찰은 중요 샘플링 보정, 클리핑, 그리고 특히 전문가 혼합(Mixture-of-Experts, MoE) 모델을 위한 라우팅 리플레이(Routing Replay)와 같은 여러 널리 채택된 기술들이 RL 훈련을 안정화하는 데 중요한 역할을 하는 이유를 원칙적으로 설명합니다. 수십만 GPU 시간을 소요한 30B MoE 모델을 이용한 광범위한 실험을 통해, 온-정책 훈련에서는 중요 샘플링 보정이 포함된 기본 정책 경량화 알고리즘이 가장 높은 훈련 안정성을 달성함을 보여줍니다. 오프-정책 업데이트가 수렴을 가속화하기 위해 도입될 때, 클리핑과 라우팅 리플레이의 결합이 정책 노후화로 인한 불안정을 완화하는 데 필수적입니다. 특히, 훈련이 안정화되면, 장기 최적화는 초기화 방식에 관계없이 일관되게 유사한 최종 성능을 제공합니다. 우리는 공유된 통찰과 안정적인 RL 훈련을 위한 개발된 레시피가 향후 연구에 도움이 되기를 바랍니다.
This paper proposes a novel formulation for reinforcement learning (RL) with large language models, explaining why and under what conditions the true sequence-level reward can be optimized via a surrogate token-level objective in policy gradient methods such as REINFORCE. Specifically, through a first-order approximation, we show that this surrogate becomes increasingly valid only when both the training-inference discrepancy and policy staleness are minimized. This insight provides a principled explanation for the crucial role of several widely adopted techniques in stabilizing RL training, including importance sampling correction, clipping, and particularly Routing Replay for Mixture-of-Experts (MoE) models. Through extensive experiments with a 30B MoE model totaling hundreds of thousands of GPU hours, we show that for on-policy training, the basic policy gradient algorithm with importance sampling correction achieves the highest training stability. When off-policy updates are introduced to accelerate convergence, combining clipping and Routing Replay becomes essential to mitigate the instability caused by policy staleness. Notably, once training is stabilized, prolonged optimization consistently yields comparable final performance regardless of cold-start initialization. We hope that the shared insights and the developed recipes for stable RL training will facilitate future research.
논문 링크
재귀 강제를 이용한 빠르고 정확한 인과적 병렬 디코딩 / Fast and Accurate Causal Parallel Decoding using Jacobi Forcing
논문 소개
대규모 언어 모델의 추론 속도를 향상시키기 위한 연구가 활발히 진행되고 있는 가운데, 본 연구는 자코비 포싱(Jacobi Forcing)이라는 혁신적인 방법론을 제안한다. 이 방법론은 다중 토큰 생성을 통해 트랜스포머 기반 모델의 병렬 디코딩을 가능하게 하여, 추론 지연을 최소화하는 데 초점을 맞춘다. 기존의 디퓨전 대규모 언어 모델(dLLMs) 접근 방식은 사전학습(pre-training)과 사후학습(post-training) 간의 불일치로 인해 성능 향상에 한계를 보였다. 특히, dLLMs는 양방향 어텐션을 사용하여 인과적 사전(causal prior)과의 충돌을 야기하며, 이는 정확한 키-값 캐시(KV cache) 재사용을 방해한다.
자코비 포싱은 모델이 자신의 생성된 병렬 디코딩 경로에서 학습하도록 하여, 사전학습된 인과 추론 속성을 유지하면서 효율적인 병렬 디코더로 전환하는 점진적 증류(paradigm)이다. 이 방법론을 통해 학습된 자코비 포싱 모델은 코딩 및 수학 벤치마크에서 3.8배의 벽시 속도 향상을 달성하면서도 성능 손실을 최소화하였다. 또한, 거부 재활용(rejection recycling)을 통한 다중 블록 디코딩을 도입하여, 각 반복에서 최대 4.5배의 높은 토큰 수용량을 가능하게 하고, 거의 4.0배의 벽시 속도 향상을 이루었다.
이 연구는 자코비 포싱을 통해 AR 모델의 인과적 추론 속성을 유지하면서도 효율적인 병렬 디코딩을 가능하게 하는 방법론을 제시하며, 대규모 언어 모델의 추론 속도를 획기적으로 향상시킬 수 있는 가능성을 보여준다. 이러한 접근은 자연어 처리(NLP) 분야에서의 모델 효율성을 크게 개선할 수 있는 잠재력을 지니고 있으며, 향후 연구에 중요한 기여를 할 것으로 기대된다.
논문 초록(Abstract)
다중 토큰 생성은 트랜스포머 기반 대규모 모델 추론을 가속화하기 위한 유망한 패러다임으로 부상하였습니다. 최근의 노력은 주로 추론 지연을 줄이기 위해 병렬 디코딩을 위한 디퓨전 대규모 언어 모델(dLLMs)을 탐색하고 있습니다. AR 수준의 생성 품질을 달성하기 위해 많은 기술들이 AR 모델을 dLLMs에 적응시켜 병렬 디코딩을 가능하게 하고 있습니다. 그러나 이들은 사전학습과 사후학습 간의 불일치로 인해 AR 모델에 비해 제한된 속도 향상을 겪고 있습니다. 구체적으로, 사후학습에서의 마스킹된 데이터 분포는 사전학습 중에 관찰된 실제 데이터 분포와 크게 다르며, dLLMs는 양방향 어텐션에 의존하는데, 이는 사전학습 중에 학습된 인과적 선행과 충돌하여 정확한 KV 캐시 재사용의 통합을 방해합니다. 이를 해결하기 위해 우리는 Jacobi Forcing을 도입합니다. 이는 모델이 자신의 생성된 병렬 디코딩 경로에서 학습되는 점진적 증류 패러다임으로, AR 모델을 효율적인 병렬 디코더로 부드럽게 전환하면서 사전학습된 인과 추론 속성을 유지합니다. 이 패러다임 하에 훈련된 모델인 Jacobi Forcing Model은 코딩 및 수학 벤치마크에서 성능 손실을 최소화하면서 3.8배의 벽시계 속도 향상을 달성합니다. Jacobi Forcing Models의 경로 특성을 기반으로 우리는 거부 재활용을 통한 다중 블록 디코딩을 도입하여, 반복당 최대 4.5배의 높은 토큰 수용량을 가능하게 하고 거의 4.0배의 벽시계 속도 향상을 이루어내며, 추가적인 계산을 통해 낮은 추론 지연을 효과적으로 거래합니다. 우리의 코드는 GitHub - hao-ai-lab/JacobiForcing: Jacobi Forcing: Fast and Accurate Diffusion-style Decoding 에서 이용 가능합니다.
Multi-token generation has emerged as a promising paradigm for accelerating transformer-based large model inference. Recent efforts primarily explore diffusion Large Language Models (dLLMs) for parallel decoding to reduce inference latency. To achieve AR-level generation quality, many techniques adapt AR models into dLLMs to enable parallel decoding. However, they suffer from limited speedup compared to AR models due to a pretrain-to-posttrain mismatch. Specifically, the masked data distribution in post-training deviates significantly from the real-world data distribution seen during pretraining, and dLLMs rely on bidirectional attention, which conflicts with the causal prior learned during pretraining and hinders the integration of exact KV cache reuse. To address this, we introduce Jacobi Forcing, a progressive distillation paradigm where models are trained on their own generated parallel decoding trajectories, smoothly shifting AR models into efficient parallel decoders while preserving their pretrained causal inference property. The models trained under this paradigm, Jacobi Forcing Model, achieves 3.8x wall-clock speedup on coding and math benchmarks with minimal loss in performance. Based on Jacobi Forcing Models' trajectory characteristics, we introduce multi-block decoding with rejection recycling, which enables up to 4.5x higher token acceptance count per iteration and nearly 4.0x wall-clock speedup, effectively trading additional compute for lower inference latency. Our code is available at GitHub - hao-ai-lab/JacobiForcing: Jacobi Forcing: Fast and Accurate Diffusion-style Decoding.
논문 링크
더 읽어보기
대규모 언어 모델(LLM)의 피해: 분류 및 논의 / LLM Harms: A Taxonomy and Discussion
논문 소개
대규모 언어 모델(LLM)과 관련된 해악의 범주를 다룬 연구이다. 연구에서는 AI 애플리케이션 개발 전, 중, 후에 발생할 수 있는 다섯 가지 해악 범주를 제시한다: 개발 전, 직접 출력, 오용 및 악의적 응용, 그리고 하위 응용이다. 현재의 환경에서 위험을 정의할 필요성을 강조하며, 책임성, 투명성 및 편향을 관리하는 방법을 제시한다. 또한, 특정 도메인에 대한 완화 전략과 향후 방향성을 제안하며, LLM의 책임 있는 개발 및 통합을 위한 동적 감사 시스템을 안내하는 표준화된 제안을 포함한다.
논문 초록(Abstract)
이 연구는 인공지능 분야에서 대규모 언어 모델(LLMs)을 둘러싼 해악의 범주를 다룹니다. 이는 AI 애플리케이션의 개발 전, 개발 중, 개발 후에 다루어지는 다섯 가지 해악 범주인 사전 개발, 직접 출력, 오용 및 악의적 적용, 그리고 하류 응용을 포함합니다. 현재의 환경에서 위험을 정의할 필요성을 강조하여 책임성, 투명성 및 LLM을 실제 응용에 적응할 때 편향을 탐색하는 것을 보장합니다. 또한 특정 분야에 대한 완화 전략과 향후 방향, 그리고 LLM의 책임 있는 개발 및 통합을 안내하는 동적 감사 시스템을 표준화된 제안으로 제시합니다.
This study addresses categories of harm surrounding Large Language Models (LLMs) in the field of artificial intelligence. It addresses five categories of harms addressed before, during, and after development of AI applications: pre-development, direct output, Misuse and Malicious Application, and downstream application. By underscoring the need to define risks of the current landscape to ensure accountability, transparency and navigating bias when adapting LLMs for practical applications. It proposes mitigation strategies and future directions for specific domains and a dynamic auditing system guiding responsible development and integration of LLMs in a standardized proposal.
논문 링크
파이토치 한국 사용자 모임
이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일
로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)
아래
쪽에 좋아요
를 눌러주시면 뉴스 발행에 힘이 됩니다~ ![]()
















