[2026/01/05 ~ 11] 이번 주에 살펴볼 만한 AI/ML 논문 모음
PyTorchKR


"균일한 연산"을 넘어선 구조적 효율성 및 동적 추론: 이번 주 선정된 논문들을 살펴보면, 기존 트랜스포머가 모든 토큰에 동일한 자원을 쓰는 비효율을 개선하기 위해, 상황에 따라 연산량을 조절하는 연구들이 등장했습니다. DLCM은 중요한 개념(Concept) 단위로 연산을 집중해 효율을 높였고, RelayLLM은 평소엔 작은 모델(SLM)을 쓰다 필요할 때만 큰 모델(LLM)을 호출하는 협업 방식을 제안했습니다. 또한 PHOTON은 계층적 구조를 도입해 긴 문맥 처리 시의 메모리 병목을 해결하고 처리 속도를 비약적으로 높였습니다. 이는 무작정 모델 크기를 키우기보다, 연산의 '밀도'를 최적화하여 비용과 성능을 모두 잡으려는 실용적인 접근입니다.
복잡한 환경에서의 "강건성(Robustness)" 및 "신뢰성" 확보: 또 다른 연구 트렌드는 긴 작업 호흡이나 열악한 입력 환경에서도 모델이 무너지지 않도록 시스템적 안정성을 확보하려는 시도입니다. InfiAgent는 모델 내부 메모리에만 의존하던 기존 방식에서 벗어나, 파일 시스템을 활용해 상태를 외부화함으로써 무한히 긴 작업에서도 오류 없이 동작하도록 설계되었습니다. Robust-R1은 시각 정보가 훼손된 상황을 인지해 추론 깊이를 스스로 조절하며, The 4/\delta Bound는 수학적 증명을 통해 LLM이 코드 검증 과정에서 확실하게 목표를 달성할 수 있음을 입증했습니다. 이는 AI를 단순한 생성 도구를 넘어, 신뢰할 수 있는 시스템의 부품으로 안착시키려는 노력입니다.
평가의 진화: "지각적 품질"에서 "논리적/물리적 추론"으로: 또한, 평가 기준이 단순히 결과물이 '그럴듯한지'를 넘어, 물리 법칙과 논리적 인과관계를 지키는지 검증하는 방향으로 고도화되고 있습니다. MMGR은 비디오 모델이 실제 물리 세계의 법칙을 이해하고 생성했는지를 평가하며, DatBench는 이미지 없이도 풀 수 있는 허수를 걷어내어 VLM의 진짜 실력을 측정합니다. 또한 실제 보안 환경에서 전문가와 AI를 경쟁시킨 연구는 시뮬레이션이 아닌 현실 세계(Real world)에서의 유용성과 한계를 명확히 드러냈습니다. 이러한 엄격한 잣대는 거품을 제거하고 모델의 실질적인 산업 적용 가능성을 확인하는 데 필수적입니다.
InfiAgent: 일반 목적 자율 에이전트를 위한 무한 지평 프레임워크 / InfiAgent: An Infinite-Horizon Framework for General-Purpose Autonomous Agents
논문 소개
InfiAgent는 일반 목적 자율 에이전트를 위한 혁신적인 프레임워크로, 장기 작업 수행 시 발생하는 불안정성을 해결하기 위해 설계되었다. 기존의 대규모 언어 모델(LLM) 에이전트는 긴 작업 지평에서 맥락의 무한한 성장과 누적된 오류로 인해 성능이 저하되는 경향이 있다. 이러한 문제를 해결하기 위해 InfiAgent는 작업 기간에 관계없이 에이전트의 추론 맥락을 엄격하게 제한하고, 지속적인 상태를 파일 중심의 상태 추상화로 외부화하는 접근 방식을 채택하였다.
이 프레임워크는 각 단계에서 작업 공간 상태의 스냅샷과 최근 행동의 고정된 창을 기반으로 맥락을 재구성함으로써, 에이전트가 안정적으로 장기 작업을 수행할 수 있도록 지원한다. 실험 결과, InfiAgent는 20B 매개변수를 가진 오픈 소스 모델을 사용하여 작업 특정 파인튜닝 없이도 DeepResearch와 80편의 문헌 리뷰 작업에서 더 큰 독점 시스템과 경쟁할 수 있는 성능을 보여주었으며, 맥락 중심의 기준선보다 훨씬 높은 장기 커버리지를 유지하였다.
InfiAgent의 핵심 혁신은 명시적인 상태 외부화로, 이는 에이전트의 행동, 환경 및 중간 아티팩트를 기록하는 데 있어 파일 시스템을 활용한다. 이러한 설계는 에이전트의 추론 맥락을 제한하여 오류 전파를 줄이고, 일관된 행동을 유지할 수 있도록 한다. 또한, 외부 어텐션 메커니즘을 도입하여 대형 문서 및 방대한 정보를 처리할 수 있는 능력을 갖추었다.
이 연구는 LLM 에이전트의 장기 작업 수행에서의 안정성을 개선하기 위한 실용적이고 효과적인 기초를 제공하며, 일반 목적 자율 에이전트 개발에 있어 중요한 기여를 할 수 있음을 시사한다. InfiAgent는 과학 연구, 소프트웨어 엔지니어링 등 다양한 분야에서의 응용 가능성을 보여주며, 향후 연구에 있어 중요한 방향성을 제시한다.
논문 초록(Abstract)
LLM 에이전트는 추론하고 도구를 사용할 수 있지만, 무한한 컨텍스트 성장과 누적된 오류로 인해 긴 시간의 작업에서 종종 실패합니다. 컨텍스트 압축이나 검색-증강 프롬프트와 같은 일반적인 해결책은 정보 충실도와 추론 안정성 간의 절충을 초래합니다. 우리는 작업 기간에 관계없이 에이전트의 추론 컨텍스트를 엄격하게 제한하는 일반 목적의 프레임워크인 InfiAgent를 제시합니다. 각 단계에서 에이전트는 작업 공간 상태 스냅샷과 최근 행동의 고정 윈도우를 결합하여 컨텍스트를 재구성합니다. DeepResearch와 80편의 문헌 리뷰 작업에 대한 실험 결과, 작업별 파인튜닝 없이도 20B 오픈 소스 모델을 사용하는 InfiAgent가 더 큰 독점 시스템과 경쟁력을 가지며, 컨텍스트 중심 기준보다 상당히 높은 긴 시간 범위를 유지한다는 것을 보여줍니다. 이러한 결과는 안정적인 긴 시간 에이전트를 위한 실용적인 기반으로서 명시적인 상태 외부화를 지지합니다. GitHub 저장소: GitHub - polyuiislab/infiAgent: Build your own Cowork, AI Scientist and other SoTA Agents just by editing config files. An infinite-horizon agent framework designed for long-running, complex tasks.
LLM agents can reason and use tools, but they often break down on long-horizon tasks due to unbounded context growth and accumulated errors. Common remedies such as context compression or retrieval-augmented prompting introduce trade-offs between information fidelity and reasoning stability. We present InfiAgent, a general-purpose framework that keeps the agent's reasoning context strictly bounded regardless of task duration by externalizing persistent state into a file-centric state abstraction. At each step, the agent reconstructs context from a workspace state snapshot plus a fixed window of recent actions. Experiments on DeepResearch and an 80-paper literature review task show that, without task-specific fine-tuning, InfiAgent with a 20B open-source model is competitive with larger proprietary systems and maintains substantially higher long-horizon coverage than context-centric baselines. These results support explicit state externalization as a practical foundation for stable long-horizon agents. Github Repo:GitHub - polyuiislab/infiAgent: Build your own Cowork, AI Scientist and other SoTA Agents just by editing config files. An infinite-horizon agent framework designed for long-running, complex tasks.
논문 링크
더 읽어보기
동적 대규모 개념 모델: 적응형 의미 공간에서의 잠재적 추론 / Dynamic Large Concept Models: Latent Reasoning in an Adaptive Semantic Space
논문 소개
대규모 언어 모델(LLMs)은 자연어 처리에서 뛰어난 성능을 보여주지만, 이들 모델은 모든 토큰에 대해 균일한 계산을 적용하는 한계를 가지고 있다. 이러한 접근은 언어의 비균일한 정보 밀도를 고려하지 않아, 의미적으로 중요한 전환에 대한 계산이 과소 할당되며, 예측 가능한 구간에서 용량을 낭비하는 결과를 초래한다. 이를 해결하기 위해 제안된 동적 대규모 개념 모델(DLCM) 은 계층적 언어 모델링 프레임워크로, 잠재 표현에서 의미 경계를 학습하고 계산을 토큰에서 압축된 개념 공간으로 이동시켜 보다 효율적인 추론을 가능하게 한다.
DLCM은 미리 정의된 언어 단위에 의존하지 않고 가변 길이의 개념을 엔드 투 엔드로 발견하는 혁신적인 방법론을 채택하고 있다. 이 모델은 계층적 압축을 통해 스케일링 행동을 근본적으로 변화시키며, 압축 인식 스케일링 법칙을 도입하여 고정된 부동소수점 연산(FLOPs) 하에서 토큰 수준 용량과 개념 수준 추론 용량을 분리하여 원칙적인 계산 할당을 가능하게 한다. 또한, 분리된 $μ$P 파라미터화를 통해 이질적인 아키텍처의 안정적인 훈련을 지원하며, 제로샷 하이퍼파라미터 전이를 가능하게 한다.
실험 결과, DLCM은 평균 2.69%의 성능 향상을 보여주며, 약 34%의 계산을 더 높은 용량의 추론 백본으로 재배치하는 데 성공하였다. 이러한 성과는 모델이 정보 밀도가 극단적으로 다른 다양한 도메인에서 강력한 동적 세분화를 학습할 수 있도록 돕는다. DLCM의 접근 방식은 단순히 매개변수나 데이터를 증가시키는 것이 아니라, 계산이 수행되는 위치를 재고하는 문제임을 시사하며, 이는 향후 언어 모델의 효율성과 추론 능력을 향상시키는 데 기여할 것으로 기대된다.
이 연구는 개념 수준의 잠재 추론이 더 효율적이고 강력한 언어 모델을 구축하기 위한 유망한 방향을 제시하며, 대규모 신경 시스템에서의 적응형 추상화와 다단계 추론에 대한 연구의 기초를 마련한다.
논문 초록(Abstract)
대규모 언어 모델(LLM)은 언어가 매우 비균일한 정보 밀도를 나타내는데도 불구하고 모든 토큰에 대해 균일한 계산을 적용합니다. 이러한 토큰 균일 체계는 지역적으로 예측 가능한 범위에 용량을 낭비하고 의미적으로 중요한 전환에 대한 계산을 적게 할당합니다. 우리는 잠재 표현에서 의미 경계를 학습하고 계산을 토큰에서 보다 효율적인 추론이 가능한 압축 개념 공간으로 이동하는 계층적 언어 모델링 프레임워크인 동적 대규모 개념 모델(DLCM) 을 제안합니다. DLCM은 미리 정의된 언어 단위에 의존하지 않고 엔드 투 엔드로 가변 길이 개념을 발견합니다. 계층적 압축은 근본적으로 스케일링 동작을 변화시킵니다. 우리는 토큰 수준 용량, 개념 수준 추론 용량 및 압축 비율을 분리하여 고정된 FLOPs 하에서 원칙적인 계산 할당을 가능하게 하는 첫 번째 압축 인식 스케일링 법칙을 소개합니다. 이 이질적인 아키텍처를 안정적으로 훈련하기 위해, 우리는 폭과 압축 체계 간의 제로샷 하이퍼파라미터 전이를 지원하는 분리된 $μ$P 매개변수화를 추가로 개발합니다. 실제 설정(R=4, 개념당 평균 4개의 토큰에 해당)에서 DLCM은 추론 계산의 약 1/3을 더 높은 용량의 추론 백본으로 재할당하여, 일치하는 추론 FLOPs 하에서 12개의 제로샷 벤치마크에서 평균 +2.69% 개선을 달성합니다.
Large Language Models (LLMs) apply uniform computation to all tokens, despite language exhibiting highly non-uniform information density. This token-uniform regime wastes capacity on locally predictable spans while under-allocating computation to semantically critical transitions. We propose \textbf{Dynamic Large Concept Models (DLCM)}, a hierarchical language modeling framework that learns semantic boundaries from latent representations and shifts computation from tokens to a compressed concept space where reasoning is more efficient. DLCM discovers variable-length concepts end-to-end without relying on predefined linguistic units. Hierarchical compression fundamentally changes scaling behavior. We introduce the first \textbf{compression-aware scaling law}, which disentangles token-level capacity, concept-level reasoning capacity, and compression ratio, enabling principled compute allocation under fixed FLOPs. To stably train this heterogeneous architecture, we further develop a $\textbf{decoupled $μ$P parametrization}$ that supports zero-shot hyperparameter transfer across widths and compression regimes. At a practical setting (R=4, corresponding to an average of four tokens per concept), DLCM reallocates roughly one-third of inference compute into a higher-capacity reasoning backbone, achieving a \textbf{+2.69} % average improvement across 12 zero-shot benchmarks under matched inference FLOPs.
논문 링크
PHOTON: 고속 및 메모리 효율적인 언어 생성을 위한 계층적 자기회귀 모델링 / PHOTON: Hierarchical Autoregressive Modeling for Lightspeed and Memory-Efficient Language Generation
논문 소개
PHOTON(Parallel Hierarchical Operation for Top-down Networks)은 트랜스포머(Transformer) 모델의 한계를 극복하기 위해 제안된 계층적 자기회귀 모델로, 긴 시퀀스 처리에서 발생하는 메모리 및 시간 지연 문제를 해결하는 데 중점을 두고 있다. 기존 트랜스포머 모델은 각 생성 단계에서 증가하는 토큰 수준의 상태에 접근하여 프리필(latency) 지연을 초래하고, 긴 컨텍스트를 디코딩할 때 메모리 제약이 심화되는 문제가 있었다. PHOTON은 이러한 문제를 해결하기 위해 수직적이고 다중 해상도의 컨텍스트 접근 방식을 도입하였다.
PHOTON의 구조는 하향식 인코더와 상향식 디코더로 구성되어 있으며, 인코더는 입력된 토큰 시퀀스를 저속도 컨텍스트 상태로 압축하고, 디코더는 이를 바탕으로 세밀한 토큰 표현을 재구성한다. 이러한 계층적 접근 방식은 각 수준의 상태가 이전 수준의 상태를 그룹화하고 요약하여 처리함으로써 메모리 사용을 최적화하고 처리 속도를 향상시킨다. 실험 결과, PHOTON은 긴 컨텍스트와 다중 쿼리 작업에서 기존의 트랜스포머 모델보다 우수한 성능을 보였으며, 메모리 단위당 최대 10^{3}\times 높은 처리량을 제공하였다. 이는 디코드 시간의 KV 캐시 트래픽을 줄이는 데 기여하여, 효율적인 언어 생성이 가능하게 한다.
PHOTON의 혁신적인 접근 방식은 자연어 처리 분야에서의 새로운 가능성을 열어주며, 긴 컨텍스트 처리의 효율성을 크게 향상시킨다. 이 모델은 메모리 효율성과 처리 속도를 동시에 개선하여 다양한 자연어 처리 작업에서의 활용 가능성을 높이며, 향후 연구 방향에 대한 기초를 마련한다. PHOTON은 기존 연구들과 비교할 때, 트랜스포머 아키텍처의 한계를 극복하는 데 중요한 기여를 하며, 자연어 생성의 효율성을 증대시키는 데 중요한 역할을 할 것으로 기대된다.
논문 초록(Abstract)
트랜스포머는 수평적으로 토큰 단위로 스캔하는 방식으로 작동합니다. 각 생성 단계에서 모델은 점점 더 커지는 토큰 수준 상태 시퀀스에 주목합니다. 이러한 접근 패턴은 사전 채우기 지연을 증가시키고, KV 캐시의 읽기 및 쓰기가 산술 계산보다 추론 처리량을 지배함에 따라 긴 컨텍스트 디코딩을 점점 더 메모리 의존적으로 만듭니다. 우리는 수직적이고 다중 해상도 컨텍스트 접근으로 평면 스캔을 대체하는 계층적 자율 회귀 모델인 Top-down Networks를 위한 병렬 계층적 작업(Parallel Hierarchical Operation for Top-down Networks, PHOTON)을 제안합니다. PHOTON은 잠재적 스트림의 계층을 유지하며, 하향식 인코더가 토큰을 점진적으로 저속 컨텍스트 상태로 압축하는 반면, 경량의 상향식 디코더가 세밀한 토큰 표현을 재구성합니다. 실험 결과, PHOTON은 처리량-품질 균형 측면에서 경쟁하는 트랜스포머 기반 언어 모델보다 우수하며, 긴 컨텍스트 및 다중 쿼리 작업에서 상당한 이점을 제공합니다. 이는 디코드 시간 동안 KV 캐시 트래픽을 줄여주어 단위 메모리당 최대 10^{3}\times 더 높은 처리량을 제공합니다.
Transformers operate as horizontal token-by-token scanners; at each generation step, the model attends to an ever-growing sequence of token-level states. This access pattern increases prefill latency and makes long-context decoding increasingly memory-bound, as KV-cache reads and writes dominate inference throughput rather than arithmetic computation. We propose Parallel Hierarchical Operation for Top-down Networks (PHOTON), a hierarchical autoregressive model that replaces flat scanning with vertical, multi-resolution context access. PHOTON maintains a hierarchy of latent streams: a bottom-up encoder progressively compresses tokens into low-rate contextual states, while lightweight top-down decoders reconstruct fine-grained token representations. Experimental results show that PHOTON is superior to competitive Transformer-based language models regarding the throughput-quality trade-off, offering significant advantages in long-context and multi-query tasks. This reduces decode-time KV-cache traffic, yielding up to 10^{3}\times higher throughput per unit memory.
논문 링크
SPO: 단일 스트림 정책 최적화 / Single-stream Policy Optimization
논문 소개
Single-stream Policy Optimization (SPO)은 대규모 언어 모델(LLM)의 정책 경량화 최적화를 위한 혁신적인 접근법으로, 기존의 그룹 기반 방법인 GRPO의 한계를 극복하는 데 중점을 두고 설계되었습니다. GRPO는 즉석 기준을 통해 분산을 줄이는 데 기여하지만, 빈번한 퇴화 그룹과 동기화 장벽으로 인해 학습 신호가 손실되고 확장성이 저해되는 문제를 안고 있습니다. SPO는 이러한 문제를 해결하기 위해 각 샘플에 대해 안정적이고 낮은 분산의 학습 신호를 제공하는 지속적인 KL-적응형 가치 추적기를 도입합니다. 이를 통해 그룹 없이도 높은 처리량을 유지하며, 긴 수명 또는 도구 통합 환경에서 효과적으로 확장할 수 있습니다.
SPO의 핵심 원리는 이점 정규화에 있습니다. 기존의 그룹 내 정규화 방식 대신, SPO는 전체 배치에 걸쳐 이점을 정규화하여 각 샘플의 응답 시퀀스에 적용합니다. 이 과정은 정책의 안정성을 보장하고, 다양한 정책 손실 함수를 통해 정책 매개변수를 업데이트하는 데 기여합니다. 특히, SPO는 "기준 없음"의 경우에도 유효하게 작동하며, 높은 정책 경량화 분산 문제를 해결하는 데 중점을 둡니다.
실험 결과, SPO는 Qwen3-8B 모델을 사용하여 GRPO보다 더 매끄럽게 수렴하고 높은 정확도를 달성하며, 퇴화 그룹에서 낭비되는 계산을 제거하는 성과를 보였습니다. 다섯 가지 어려운 수학 벤치마크에서 SPO는 평균 maj@32를 +3.4 퍼센트 포인트 향상시키며, 특정 데이터셋에서는 +7.3 pp, +4.4 pp, +3.3 pp의 절대 점수 향상을 이끌어냈습니다. 이러한 결과는 SPO의 접근 방식이 LLM 추론에 있어 보다 강력하고 효율적인 경로를 제공함을 시사합니다.
SPO는 기존의 복잡성을 추가하는 경향에 도전하며, 기본 원칙에 기반한 접근이 LLM 추론의 다음 진전을 이끄는 길임을 강조합니다. 이 연구는 LLM의 정책 최적화에서 새로운 가능성을 제시하며, 향후 연구 방향에 대한 중요한 통찰력을 제공합니다.
논문 초록(Abstract)
우리는 단일 스트림 관점에서 대규모 언어 모델(LLM)의 정책 경량화 최적화를 재조명합니다. GRPO와 같은 기존의 그룹 기반 방법은 즉석 기준선을 통해 분산을 줄이지만, 빈번한 퇴화 그룹이 학습 신호를 지우고 동기화 장벽이 확장성을 저해하는 심각한 결함이 있습니다. 우리는 이러한 문제를 설계적으로 제거하는 단일 스트림 정책 최적화(SPO)를 소개합니다. SPO는 그룹별 기준선을 지속적인 KL 적응 값 추적기로 대체하고 배치 전반에 걸쳐 이점을 정규화하여 모든 샘플에 대해 안정적이고 낮은 분산의 학습 신호를 제공합니다. 그룹이 없는 SPO는 더 높은 처리량을 가능하게 하고 생성 시간이 다양한 장기적 또는 도구 통합 환경에서 효과적으로 확장됩니다. 또한, 지속적인 값 추적기는 우선 샘플링을 통해 자연스럽게 적응형 커리큘럼을 가능하게 합니다. Qwen3-8B를 사용한 실험 결과, SPO는 GRPO보다 더 부드럽게 수렴하고 더 높은 정확도를 달성하며, 퇴화 그룹에 낭비되는 계산을 없앱니다. 제거 연구는 SPO의 이점이 기준선 추정 및 이점 정규화에 대한 원칙적인 접근에서 비롯된다는 것을 확인하며, LLM 추론을 위한 보다 강력하고 효율적인 경로를 제공합니다. Qwen3 8B로 다섯 개의 어려운 수학 벤치마크에서 SPO는 GRPO에 비해 평균 maj@32를 +3.4 퍼센트 포인트(pp) 향상시켰으며, BRUMO 25에서 +7.3 pp, AIME 25에서 +4.4 pp, HMMT 25에서 +3.3 pp와 같은 도전적인 데이터셋에서 상당한 절대 포인트 향상을 이끌어냈고, 평가된 k 값 전반에 걸쳐 pass@k 에서 일관된 상대적 이득을 달성했습니다. SPO의 성공은 RL 알고리즘에 우발적인 복잡성을 추가하는 기존 경향에 도전하며, 근본적인 원칙이 LLM 추론의 다음 진전을 이끄는 경로를 강조합니다.
We revisit policy-gradient optimization for Large Language Models (LLMs) from a single-stream perspective. Prevailing group-based methods like GRPO reduce variance with on-the-fly baselines but suffer from critical flaws: frequent degenerate groups erase learning signals, and synchronization barriers hinder scalability. We introduce Single-stream Policy Optimization (SPO), which eliminates these issues by design. SPO replaces per-group baselines with a persistent, KL-adaptive value tracker and normalizes advantages globally across the batch, providing a stable, low-variance learning signal for every sample. Being group-free, SPO enables higher throughput and scales effectively in long-horizon or tool-integrated settings where generation times vary. Furthermore, the persistent value tracker naturally enables an adaptive curriculum via prioritized sampling. Experiments using Qwen3-8B show that SPO converges more smoothly and attains higher accuracy than GRPO, while eliminating computation wasted on degenerate groups. Ablation studies confirm that SPO's gains stem from its principled approach to baseline estimation and advantage normalization, offering a more robust and efficient path for LLM reasoning. Across five hard math benchmarks with Qwen3 8B, SPO improves the average maj@32 by +3.4 percentage points (pp) over GRPO, driven by substantial absolute point gains on challenging datasets, including +7.3 pp on BRUMO 25, +4.4 pp on AIME 25, +3.3 pp on HMMT 25, and achieves consistent relative gain in pass@k across the evaluated k values. SPO's success challenges the prevailing trend of adding incidental complexity to RL algorithms, highlighting a path where fundamental principles, not architectural workarounds, drive the next wave of progress in LLM reasoning.
논문 링크
Robust-R1: 강인한 시각 이해를 위한 열화 인식 추론 / Robust-R1: Degradation-Aware Reasoning for Robust Visual Understanding
논문 소개
Robust-R1은 시각적 열화에 대한 강인성을 향상시키기 위해 설계된 혁신적인 프레임워크로, Multimodal Large Language Models (MLLMs)의 성능 저하 문제를 해결하고자 한다. 기존의 접근 방식들이 주로 시각 인코더의 일반화에 초점을 맞추어 암묵적 훈련 및 적응에 의존한 반면, Robust-R1은 열화를 명시적으로 모델링하는 구조화된 추론 체인을 도입하여 해석 가능성과 최적화의 통합을 추구한다.
이 프레임워크는 세 가지 핵심 요소로 구성된다. 첫째, 감독된 파인튜닝(Supervised Fine-Tuning)을 통해 열화 인식 추론의 기초를 마련한다. 둘째, 보상 기반 정렬(Reward-driven Alignment)을 통해 모델이 열화 매개변수를 정확히 인식하도록 조정한다. 셋째, 동적 추론 깊이 조정(Dynamic Reasoning Depth Scaling)을 통해 열화 강도에 따라 적절한 추론 깊이를 유지함으로써 계산 효율성을 극대화한다.
Robust-R1의 효과적인 구현을 위해 연구진은 11K 샘플로 구성된 데이터셋을 구축하였으며, 이는 네 가지 주요 시각 처리 단계에서의 실제적인 열화를 포함하고 있다. 각 샘플은 열화 매개변수와 그에 따른 지각적 영향, 원래의 의미론적 추론 체인 및 결론을 연결하는 구조화된 체인으로 주석이 달려 있어, 모델의 학습을 지원한다.
성능 평가 결과, Robust-R1은 R-Bench라는 실제 열화 벤치마크에서 모든 일반 및 강인한 기준선 모델을 초월하는 성능을 보였으며, MMMB, MMStar, RealWorldQA와 같은 다양한 평가에서도 우수한 반열화 성능을 유지하였다. 이러한 결과는 Robust-R1이 다양한 열화 강도에서 뛰어난 이미지 이해 능력을 발휘함을 입증하며, 기존 모델들에 비해 강인성을 크게 향상시킨다는 점에서 중요한 기여를 한다.
Robust-R1의 접근 방식은 시각적 열화에 대한 명시적 추론 체인을 활용하여 MLLMs의 해석 가능성을 높이고, 강인성을 향상시키는 새로운 경로를 제시한다. 이 연구는 실제 환경에서의 시각적 이해를 위한 필수적인 발전을 이루어내며, 향후 연구에 대한 중요한 기초를 제공할 것으로 기대된다.
논문 초록(Abstract)
다중 모달 대규모 언어 모델(MLLM)은 극단적인 현실 세계의 시각적 열화 하에서 신뢰할 수 있는 성능을 유지하는 데 어려움을 겪으며, 이는 실용적인 강건성을 저해합니다. 기존의 강건한 MLLM은 주로 시각적 인코더 일반화에만 초점을 맞춘 암묵적인 학습/적응에 의존하여 해석 가능성이 제한되고 고립된 최적화 문제를 겪고 있습니다. 이러한 한계를 극복하기 위해, 우리는 구조화된 추론 체인을 통해 시각적 열화를 명시적으로 모델링하는 새로운 프레임워크인 Robust-R1을 제안합니다. 우리의 접근 방식은 다음을 통합합니다: (i) 열화 인식 추론 기초를 위한 감독된 파인튜닝, (ii) 열화 매개변수를 정확하게 인식하기 위한 보상 기반 정렬, (iii) 열화 강도에 맞춘 동적 추론 깊이 조정. 이 접근 방식을 용이하게 하기 위해, 우리는 네 가지 주요 현실 세계 시각 처리 단계에서 합성된 현실적인 열화를 특징으로 하는 특수한 11K 데이터셋을 소개하며, 각 데이터는 열화 매개변수, 지각적 영향, 원래의 의미적 추론 체인 및 결론을 연결하는 구조화된 체인으로 주석이 달려 있습니다. 포괄적인 평가 결과, Robust-R1은 R-Bench라는 현실 세계 열화 벤치마크에서 모든 일반 및 강건 기준선을 초월하며, MMMB, MMStar 및 RealWorldQA에서 다중 강도의 적대적 열화 하에서도 우수한 반열화 성능을 유지함을 입증합니다.
Multimodal Large Language Models struggle to maintain reliable performance under extreme real-world visual degradations, which impede their practical robustness. Existing robust MLLMs predominantly rely on implicit training/adaptation that focuses solely on visual encoder generalization, suffering from limited interpretability and isolated optimization. To overcome these limitations, we propose Robust-R1, a novel framework that explicitly models visual degradations through structured reasoning chains. Our approach integrates: (i) supervised fine-tuning for degradation-aware reasoning foundations, (ii) reward-driven alignment for accurately perceiving degradation parameters, and (iii) dynamic reasoning depth scaling adapted to degradation intensity. To facilitate this approach, we introduce a specialized 11K dataset featuring realistic degradations synthesized across four critical real-world visual processing stages, each annotated with structured chains connecting degradation parameters, perceptual influence, pristine semantic reasoning chain, and conclusion. Comprehensive evaluations demonstrate state-of-the-art robustness: Robust-R1 outperforms all general and robust baselines on the real-world degradation benchmark R-Bench, while maintaining superior anti-degradation performance under multi-intensity adversarial degradations on MMMB, MMStar, and RealWorldQA.
논문 링크
더 읽어보기
4/δ 경계: 형식적 방법 보장을 위한 예측 가능한 LLM-검증기 시스템 설계 / The 4/δ Bound: Designing Predictable LLM-Verifier Systems for Formal Method Guarantee
논문 소개
형식 검증 도구와 대규모 언어 모델(LLMs)의 통합은 소프트웨어 검증의 효율성을 크게 향상시킬 수 있는 잠재력을 지니고 있지만, 기존의 접근 방식은 신뢰성이 부족하여 실용적인 사용에 제약이 있었습니다. 본 연구는 이러한 문제를 해결하기 위해 LLM-검증기 수렴 정리를 제안하며, 다단계 검증 파이프라인에서 종료를 보장하는 첫 번째 형식적 프레임워크를 제공합니다. 이 연구의 핵심은 상호작용을 일반적인 루프가 아닌 네 가지 필수 엔지니어링 단계로 구성된 순차적 흡수 마르코프 체인으로 모델링한 점입니다. 각 단계는 CodeGen, Compilation, InvariantSynth, SMTSolving으로 나뉘며, 이 과정에서 비제로 단계 성공 확률(δ> 0)을 기반으로 시스템이 거의 확실히 Verified 상태에 도달함을 증명하였습니다.
또한, 파이프라인의 순차적 특성을 활용하여 대기 시간 경계인 \mathbb{E}[n] \leq 4/δ 를 도출하였으며, 이를 통해 시스템의 성능을 예측할 수 있는 기초를 마련하였습니다. 90,000회 이상의 실험을 통해 이론적 예측을 스트레스 테스트한 결과, 모든 실행이 검증에 도달하였고, 경험적 수렴 계수는 C_f \approx 1.0 에 밀집하여 이론과의 일치성을 확인하였습니다. 이러한 결과는 LLM-검증기 시스템의 동작을 보다 명확하게 이해할 수 있게 하며, 한계, 실용, 고성능의 세 가지 운영 영역을 정의하고 각 영역에 대한 동적 보정 전략을 제안합니다.
이 연구는 경험적 추측을 엄격한 아키텍처 기반으로 대체하여 안전-critical 소프트웨어에 대한 예측 가능한 자원 계획 및 성능 예산 수립을 가능하게 합니다. LLM과 형식 검증의 통합을 통해 소프트웨어 검증의 신뢰성을 높이는 데 기여하며, 향후 연구 방향으로는 동적 보정 전략의 실제 환경에서의 적용 가능성을 논의합니다. 이러한 기여는 소프트웨어 개발의 효율성을 증대시키고, 안전-critical 소프트웨어의 품질 보증을 위한 중요한 이론적 기반을 제공합니다.
논문 초록(Abstract)
형식 검증 도구와 대규모 언어 모델(LLM)의 통합은 소프트웨어 검증을 수동 작업 흐름을 넘어 확장할 수 있는 경로를 제공합니다. 그러나 현재의 방법들은 여전히 신뢰할 수 없습니다: 확고한 이론적 기반 없이, 정제 과정은 진동하거나 반복되거나 발산할 수 있는 블랙 박스처럼 작용합니다. 본 연구는 LLM-검증자 수렴 정리를 개발하여 이 중요한 격차를 메우며, 다단계 검증 파이프라인에서 종료에 대한 증명 가능한 보장을 제공하는 최초의 형식적 프레임워크를 제시합니다. 우리는 상호작용을 일반적인 루프로 모델링하는 것이 아니라, 네 가지 필수 엔지니어링 단계인 \texttt{CodeGen}, \texttt{Compilation}, \texttt{InvariantSynth}, \texttt{SMTSolving} 으로 구성된 순차적 흡수 마르코프 체인으로 모델링합니다. 우리는 비영(非零) 단계 성공 확률(δ> 0)에 대해 시스템이 거의 확실히 \texttt{Verified} 상태에 도달함을 증명합니다. 또한, 파이프라인의 순차적 특성으로 인해, 우리는 정확한 대기 시간 경계를 \mathbb{E}[n] \leq 4/δ 로 도출합니다. 우리는 90,000회 이상의 실험을 포함한 광범위한 실증 캠페인에서 이 예측을 스트레스 테스트했습니다. 결과는 이론과 놀라운 일관성을 보이며 일치했습니다: 모든 실행이 검증에 도달했고, 실증적 수렴 계수는 C_f\approx 1.0 주위에 밀집하여 4/δ 경계가 느슨한 완충 역할이 아니라 시스템 행동을 정확하게 반영함을 확인했습니다. 이 데이터를 바탕으로 우리는 세 가지 뚜렷한 운영 영역—한계, 실용, 고성능—를 식별하고 실제 환경에서 매개변수 드리프트를 처리하기 위한 동적 보정 전략을 제안합니다. 이러한 기여는 휴리스틱 추측을 엄격한 아키텍처 기반으로 대체하여 안전-critical 소프트웨어의 예측 가능한 자원 계획 및 성능 예산 수립을 가능하게 합니다.
The integration of Formal Verification tools with Large Language Models (LLMs) offers a path to scale software verification beyond manual workflows. However, current methods remain unreliable: without a solid theoretical footing, the refinement process acts as a black box that may oscillate, loop, or diverge. This work bridges this critical gap by developing an LLM-Verifier Convergence Theorem, providing the first formal framework with provable guarantees for termination in multi-stage verification pipelines. We model the interaction not as a generic loop, but as a sequential absorbing Markov Chain comprising four essential engineering stages: \texttt{CodeGen}, \texttt{Compilation}, \texttt{InvariantSynth}, and \texttt{SMTSolving}. We prove that for any non-zero stage success probability (δ> 0), the system reaches the \texttt{Verified} state almost surely. Furthermore, because of the sequential nature of the pipeline, we derive a precise latency bound of \mathbb{E}[n] \leq 4/δ. We stress-tested this prediction in an extensive empirical campaign comprising over 90,000 trials. The results match the theory with striking consistency: every run reached verification, and the empirical convergence factor clustered tightly around C_f\approx 1.0, confirming that the 4/δ bound accurately mirrors system behavior rather than serving as a loose buffer. Based on this data, we identify three distinct operating zones -- marginal, practical, and high-performance -- and propose a dynamic calibration strategy to handle parameter drift in real-world environments. Together, these contributions replace heuristic guesswork with a rigorous architectural foundation, enabling predictable resource planning and performance budgeting for safety-critical software.
논문 링크
MMGR: 멀티모달 생성 추론 평가 및 벤치마크 / MMGR: Multi-Modal Generative Reasoning
논문 소개
비디오 생성 모델은 시각적으로 사실적이고 시간적으로 일관된 콘텐츠를 생성하는 데 있어 중요한 발전을 이루었으나, 이들이 세계를 시뮬레이션하는 신뢰성은 물리적, 논리적, 공간적 제약을 얼마나 잘 반영하는지에 달려 있다. 기존의 평가 지표인 Fréchet Video Distance (FVD)는 주로 지각 품질에 초점을 맞추며, 인과관계 및 물리적 일관성의 위반과 같은 추론 실패를 간과하는 경향이 있다. 이러한 한계를 극복하기 위해, MMGR (Multi-Modal Generative Reasoning Evaluation and Benchmark)라는 새로운 평가 프레임워크가 제안되었다. 이 프레임워크는 물리적, 논리적, 3D 공간적, 2D 공간적, 시간적 추론 능력의 다섯 가지 핵심 요소를 기반으로 하여 생성적 추론을 평가한다.
MMGR은 추상적 추론, 구체적 내비게이션, 물리적 상식의 세 가지 영역에서 평가를 수행하며, 각 영역은 서로 보완적인 관계를 유지한다. 특히, MMGR은 비디오 및 이미지 생성 모델을 대상으로 세밀한 지표를 적용하여 성능을 비교하고, 최신 비디오 모델(Veo-3, Sora-2, Wan-2.2)과 이미지 모델(Nano-banana, GPT-4o-image 등)의 성능 차이를 드러낸다. 연구 결과, 모델들은 물리적 상식 작업에서는 중간 정도의 성과를 보였지만, 추상적 추론에서는 10% 미만의 정확도로 저조한 성과를 기록하였다. 이러한 결과는 현재 모델들이 지각 데이터에 과도하게 의존하고 있으며, 물리적 및 논리적 일관성에 대한 고려가 부족함을 시사한다.
MMGR은 이러한 한계를 진단하고, 추론 인식 생성 세계 모델로 나아가는 방향성을 제시하는 통합된 벤치마크를 제공한다. 이 연구는 비디오 생성 모델의 평가 방식을 혁신적으로 변화시킬 수 있는 가능성을 지니고 있으며, 향후 모델 개발에 중요한 기초 자료로 활용될 수 있을 것이다. MMGR의 도입은 생성적 모델의 신뢰성을 높이고, 보다 정교한 세계 시뮬레이션을 위한 새로운 기준을 설정하는 데 기여할 것으로 기대된다.
논문 초록(Abstract)
비디오 파운데이션 모델은 시각적으로 사실적이고 시간적으로 일관된 콘텐츠를 생성하지만, 세계 시뮬레이터로서의 신뢰성은 물리적, 논리적 및 공간적 제약을 얼마나 잘 포착하는지에 달려 있습니다. 기존의 메트릭인 프레셰 비디오 거리(Frechet Video Distance, FVD)는 지각 품질을 강조하고 인과관계, 물리학 및 전반적인 일관성 위반과 같은 추론 실패를 간과합니다. 우리는 물리적, 논리적, 3D 공간적, 2D 공간적, 시간적 다섯 가지 추론 능력을 기반으로 한 원칙적인 평가 프레임워크인 MMGR(멀티모달 생성 추론 평가 및 벤치마크)를 소개합니다. MMGR은 추상적 추론(ARC-AGI, 스도쿠), 구현된 탐색(실제 3D 탐색 및 위치 확인), 물리적 상식(스포츠 및 구성 상호작용) 등 세 가지 영역에서 생성적 추론을 평가합니다. MMGR은 비디오와 이미지 생성 모두에서 전체적인 정확성을 요구하는 세밀한 메트릭을 적용합니다. 우리는 선도적인 비디오 모델(Veo-3, Sora-2, Wan-2.2)과 이미지 모델(Nano-banana, Nano-banana Pro, GPT-4o-image, Qwen-image)을 벤치마크하여 영역 간의 성능 격차를 드러냅니다. 모델은 물리적 상식 작업에서 중간 정도의 성공을 보이지만, 추상적 추론(ARC-AGI에서 10% 미만의 정확도)에서는 저조한 성과를 내며, 구현된 환경에서 장기적인 공간 계획에 어려움을 겪습니다. 우리의 분석은 현재 모델의 주요 한계를 강조하며, 이는 지각 데이터에 대한 과도한 의존, 약한 전반적인 상태 일관성, 인과적 정확성보다 시각적 그럴듯함을 보상하는 목표를 포함합니다. MMGR은 통합 진단 벤치마크와 추론 인식 생성 세계 모델로 나아가는 경로를 제공합니다.
Video foundation models generate visually realistic and temporally coherent content, but their reliability as world simulators depends on whether they capture physical, logical, and spatial constraints. Existing metrics such as Frechet Video Distance (FVD) emphasize perceptual quality and overlook reasoning failures, including violations of causality, physics, and global consistency. We introduce MMGR (Multi-Modal Generative Reasoning Evaluation and Benchmark), a principled evaluation framework based on five reasoning abilities: Physical, Logical, 3D Spatial, 2D Spatial, and Temporal. MMGR evaluates generative reasoning across three domains: Abstract Reasoning (ARC-AGI, Sudoku), Embodied Navigation (real-world 3D navigation and localization), and Physical Commonsense (sports and compositional interactions). MMGR applies fine-grained metrics that require holistic correctness across both video and image generation. We benchmark leading video models (Veo-3, Sora-2, Wan-2.2) and image models (Nano-banana, Nano-banana Pro, GPT-4o-image, Qwen-image), revealing strong performance gaps across domains. Models show moderate success on Physical Commonsense tasks but perform poorly on Abstract Reasoning (below 10 percent accuracy on ARC-AGI) and struggle with long-horizon spatial planning in embodied settings. Our analysis highlights key limitations in current models, including overreliance on perceptual data, weak global state consistency, and objectives that reward visual plausibility over causal correctness. MMGR offers a unified diagnostic benchmark and a path toward reasoning-aware generative world models.
논문 링크
더 읽어보기
DatBench: 차별적이고 신뢰할 수 있으며 효율적인 VLM 평가 / DatBench: Discriminative, Faithful, and Efficient VLM Evaluations
논문 소개
비전-언어 모델(Visual-Language Model, VLM)의 발전에 따라, 이러한 모델의 평가 방법론은 연구의 방향성을 결정짓는 중요한 요소로 자리 잡고 있다. 그러나 현재의 평가 방식은 모델의 실제 성능을 제대로 반영하지 못하는 경우가 많아, 신뢰성과 차별성이 결여된 평가 결과를 초래하고 있다. 이를 해결하기 위해 제안된 DatBench 프레임워크는 세 가지 필수 조건, 즉 모달리티와 응용에 대한 신뢰성, 다양한 품질의 모델 간 차별성, 그리고 계산 효율성을 충족하는 평가 방법론을 목표로 한다.
기존의 다중 선택 질문(Multiple-Choice Question, MCQ) 형식은 모델의 성능을 과대평가하는 경향이 있으며, 시각적 입력 없이도 해결 가능한 질문이 상당수 존재한다. 이러한 문제는 평가의 신뢰성을 저하시킬 뿐만 아니라, 모델의 실제 능력을 왜곡하는 결과를 초래한다. 연구진은 이러한 문제를 해결하기 위해 기존 벤치마크를 변환하고 필터링하여 신뢰성과 차별성을 극대화하는 접근 방식을 채택하였다. 예를 들어, 다중 선택 질문을 개방형 생성 작업으로 변환함으로써 성능 저하를 발견하고, 무작위로 해결 가능한 샘플 및 잘못 레이블링된 샘플을 필터링하여 평가의 차별성을 높였다.
이 연구의 주요 기여 중 하나는 DatBench-Full과 DatBench라는 두 가지 평가 데이터셋을 개발한 것이다. DatBench-Full은 33개의 데이터셋으로 구성되어 있으며, VLM의 아홉 가지 기본 능력을 포괄한다. 반면, DatBench는 평균 13배의 속도 향상을 제공하면서도 원본 데이터셋의 차별성을 유지하는 고효율 하위 집합으로 설계되었다. 이러한 접근은 평가의 계산 비용을 대폭 줄이는 동시에, VLM의 실제 성능을 보다 정확하게 반영할 수 있는 기반을 마련한다.
결론적으로, DatBench 프레임워크는 VLM 평가의 신뢰성과 차별성을 높이고, 계산 효율성을 개선하는 혁신적인 방법론을 제시한다. 이는 향후 VLM의 지속적인 확장과 발전에 기여할 수 있는 중요한 연구 방향성을 제시하며, 평가 관행의 개선을 위한 새로운 기준을 설정하는 데 기여할 것으로 기대된다.
논문 초록(Abstract)
경험적 평가는 파운데이션 모델 연구 진행의 주요 나침반 역할을 합니다. 최첨단 비전-언어 모델(VLM) 훈련에 초점을 맞춘 많은 연구가 있음에도 불구하고, 이들 모델의 평가 방법은 아직 초기 단계에 있습니다. 평가의 성숙을 이끌기 위해, 우리는 평가가 충족해야 할 세 가지 요구사항을 제안합니다: (1) 모달리티 및 응용 프로그램에 대한 충실성, (2) 다양한 품질의 모델 간 구별 가능성, (3) 계산 효율성. 이러한 관점에서, 우리는 충실성과 구별 가능성을 위반하고 모델의 능력을 잘못 표현하는 주요 실패 모드를 식별합니다: (i) 다중 선택 형식은 추측을 보상하고, 하류 사용 사례를 잘 반영하지 않으며, 모델이 개선됨에 따라 조기에 포화됩니다; (ii) 이미지를 사용하지 않고도 답변할 수 있는 무작위로 해결 가능한 질문은 일부 평가의 최대 70%를 차지합니다; (iii) 잘못 레이블이 붙거나 모호한 샘플은 특정 데이터셋의 최대 42%의 예제를 손상시킵니다. 효율성과 관련하여, 최첨단 모델 평가의 계산 부담이 과중해졌습니다: 일부 보고에 따르면, 개발 계산의 거의 20%가 평가에만 할당됩니다. 기존 벤치마크를 폐기하기보다는, 우리는 변환 및 필터링을 통해 충실성과 구별 가능성을 극대화하기 위해 이를 선별합니다. 다중 선택 질문을 생성 작업으로 변환하면 최대 35%의 급격한 능력 저하가 드러납니다. 또한, 무작위로 해결 가능한 샘플과 잘못 레이블이 붙은 샘플을 필터링하면 구별력을 향상시키면서 동시에 계산 비용을 줄일 수 있습니다. 우리는 아홉 가지 VLM 능력을 아우르는 33개의 데이터셋으로 구성된 정제된 평가 세트인 DatBench-Full을 공개하며, 원래 데이터셋의 구별력에 밀접하게 일치하면서 평균 13배(최대 50배) 속도 향상을 달성하는 구별 가능한 하위 집합인 DatBench도 제공합니다. 우리의 연구는 VLM이 계속 확장됨에 따라 엄격하고 지속 가능한 평가 관행으로 나아가는 경로를 제시합니다.
Empirical evaluation serves as the primary compass guiding research progress in foundation models. Despite a large body of work focused on training frontier vision-language models (VLMs), approaches to their evaluation remain nascent. To guide their maturation, we propose three desiderata that evaluations should satisfy: (1) faithfulness to the modality and application, (2) discriminability between models of varying quality, and (3) efficiency in compute. Through this lens, we identify critical failure modes that violate faithfulness and discriminability, misrepresenting model capabilities: (i) multiple-choice formats reward guessing, poorly reflect downstream use cases, and saturate early as models improve; (ii) blindly solvable questions, which can be answered without images, constitute up to 70% of some evaluations; and (iii) mislabeled or ambiguous samples compromise up to 42% of examples in certain datasets. Regarding efficiency, the computational burden of evaluating frontier models has become prohibitive: by some accounts, nearly 20% of development compute is devoted to evaluation alone. Rather than discarding existing benchmarks, we curate them via transformation and filtering to maximize fidelity and discriminability. We find that converting multiple-choice questions to generative tasks reveals sharp capability drops of up to 35%. In addition, filtering blindly solvable and mislabeled samples improves discriminative power while simultaneously reducing computational cost. We release DatBench-Full, a cleaned evaluation suite of 33 datasets spanning nine VLM capabilities, and DatBench, a discriminative subset that achieves 13x average speedup (up to 50x) while closely matching the discriminative power of the original datasets. Our work outlines a path toward evaluation practices that are both rigorous and sustainable as VLMs continue to scale.
논문 링크
더 읽어보기
AI 에이전트와 사이버 보안 전문가의 실제 침투 테스트 비교 / Comparing AI Agents to Cybersecurity Professionals in Real-World Penetration Testing
논문 소개
사이버 보안 분야에서 인공지능(AI) 에이전트의 활용이 증가하고 있는 가운데, 본 연구는 AI 에이전트와 인간 사이버 보안 전문가 간의 성능을 비교하는 최초의 포괄적인 평가를 수행하였다. 연구는 약 8,000개의 호스트로 구성된 대규모 대학 네트워크에서 진행되었으며, 10명의 사이버 보안 전문가와 6개의 기존 AI 에이전트, 그리고 새로운 에이전트 스캐폴드인 ARTEMIS를 평가하였다. ARTEMIS는 동적 프롬프트 생성, 임의의 하위 에이전트, 자동 취약점 분류 기능을 갖춘 멀티 에이전트 프레임워크로, 비교 연구에서 9개의 유효한 취약점을 발견하고 82%의 유효 제출률을 기록하여 전체 2위를 차지하였다.
기존 AI 에이전트인 Codex와 CyAgent는 대부분의 인간 참가자에 비해 성능이 떨어졌으나, ARTEMIS는 기술적 정교함과 제출 품질에서 가장 강력한 참가자와 유사한 수준을 보여주었다. AI 에이전트는 체계적인 열거, 병렬적 활용, 비용 측면에서 장점을 제공하며, 특정 ARTEMIS 변형은 시간당 $18의 비용으로 전문 침투 테스터의 $60에 비해 경제적 이점을 나타냈다. 그러나 AI 에이전트는 높은 허위 긍정률을 보이며 GUI 기반 작업에서 어려움을 겪는 주요 능력 격차를 확인하였다.
이 연구는 AI 에이전트의 실제 환경에서의 성능을 평가함으로써 사이버 보안 분야에서 AI의 활용 가능성을 제시하며, 향후 연구 방향으로는 AI 에이전트의 허위 긍정률을 줄이고 GUI 기반 작업의 성능을 개선하기 위한 노력이 필요하다는 점을 강조한다. 이러한 연구 결과는 AI와 사이버 보안의 융합에 대한 중요한 통찰을 제공하며, 향후 연구와 실무에 있어 중요한 기초 자료가 될 것이다.
논문 초록(Abstract)
우리는 실시간 기업 환경에서 AI 에이전트를 인간 사이버 보안 전문가와 비교하여 종합적으로 평가한 첫 번째 연구를 제시합니다. 우리는 약 8,000개의 호스트로 구성된 12개의 서브넷을 가진 대규모 대학 네트워크에서 10명의 사이버 보안 전문가와 6개의 기존 AI 에이전트 및 우리의 새로운 에이전트 스캐폴드인 ARTEMIS를 평가하였습니다. ARTEMIS는 동적 프롬프트 생성, 임의의 서브 에이전트, 자동 취약점 분류 기능을 갖춘 멀티 에이전트 프레임워크입니다. 우리의 비교 연구에서 ARTEMIS는 전체 2위를 차지하며 9개의 유효한 취약점을 발견하였고, 82%의 유효 제출률을 기록하며 10명의 인간 참가자 중 9명을 능가했습니다. Codex와 CyAgent와 같은 기존 스캐폴드는 대부분의 인간 참가자에 비해 성능이 저조했지만, ARTEMIS는 가장 강력한 참가자들과 비교할 수 있는 기술적 정교함과 제출 품질을 보여주었습니다. 우리는 AI 에이전트가 체계적인 열거, 병렬적 활용 및 비용 측면에서 이점을 제공한다는 것을 관찰했습니다. 특정 ARTEMIS 변형은 시간당 $18의 비용이 드는 반면, 전문 침투 테스터는 시간당 $60의 비용이 듭니다. 또한, 우리는 주요 능력 격차를 확인했습니다: AI 에이전트는 높은 허위 긍정률을 보이며 GUI 기반 작업에 어려움을 겪고 있습니다.
We present the first comprehensive evaluation of AI agents against human cybersecurity professionals in a live enterprise environment. We evaluate ten cybersecurity professionals alongside six existing AI agents and ARTEMIS, our new agent scaffold, on a large university network consisting of ~8,000 hosts across 12 subnets. ARTEMIS is a multi-agent framework featuring dynamic prompt generation, arbitrary sub-agents, and automatic vulnerability triaging. In our comparative study, ARTEMIS placed second overall, discovering 9 valid vulnerabilities with an 82% valid submission rate and outperforming 9 of 10 human participants. While existing scaffolds such as Codex and CyAgent underperformed relative to most human participants, ARTEMIS demonstrated technical sophistication and submission quality comparable to the strongest participants. We observe that AI agents offer advantages in systematic enumeration, parallel exploitation, and cost -- certain ARTEMIS variants cost $18/hour versus $60/hour for professional penetration testers. We also identify key capability gaps: AI agents exhibit higher false-positive rates and struggle with GUI-based tasks.
논문 링크
더 읽어보기
https://github.com/StanfordTrinity/ARTEMIS
RelayLLM: 협업 디코딩을 통한 효율적인 추론 / RelayLLM: Efficient Reasoning via Collaborative Decoding
논문 소개
대규모 언어 모델(LLM)은 복잡한 추론 작업에서 뛰어난 성능을 보이지만, 높은 계산 비용과 지연 시간으로 인해 실제 응용에서의 활용이 제한된다. 반면, 소형 언어 모델(SLM)은 자원 효율적이지만, 어려운 추론 작업을 수행하는 데 필요한 능력이 부족하다. 이러한 문제를 해결하기 위해 RelayLLM은 토큰 수준의 협업 디코딩을 기반으로 한 새로운 프레임워크를 제안한다. 이 프레임워크는 SLM이 필요할 때만 LLM을 호출하도록 하여, 효율적인 추론을 가능하게 한다.
RelayLLM의 핵심은 SLM이 특정 조건에서 LLM의 개입을 요청하는 특별한 명령 토큰인 <call>을 생성하는 것이다. SLM은 기본적으로 토큰을 생성하며, <call> 패턴이 감지되면 LLM이 현재 컨텍스트를 받아 추가적인 토큰을 생성하게 된다. 이 과정은 SLM과 LLM 간의 반복적인 릴레이를 통해 이루어지며, SLM은 LLM이 생성한 토큰을 기존 컨텍스트에 추가하여 추론을 지속한다.
RelayLLM의 훈련은 두 단계로 구성된다. 첫 번째 단계는 감독된 웜업(warm-up)으로, SLM이 명령 패턴을 자연스럽게 생성하도록 학습하는 과정이다. 두 번째 단계는 강화 학습을 통해 SLM의 행동을 최적화하여 응답 품질을 극대화하고 협업 비용을 최소화하는 것이다. 이 과정에서 그룹 상대 정책 최적화(Group Relative Policy Optimization, GRPO)를 활용하여 모델이 생성한 응답의 품질을 평가하고 정책을 개선한다.
RelayLLM은 다양한 벤치마크에서 실험을 통해 평균 정확도 49.52%를 달성하며, LLM 호출 비율은 1.07%에 불과하다. 이는 기존의 무작위 라우터에 비해 98.2%의 비용 절감을 이룬 결과로, RelayLLM이 소형 모델과 대형 모델 간의 성능 격차를 효과적으로 해소할 수 있음을 보여준다. 이러한 결과는 SLM이 특정 중요한 위치에서 LLM의 지원을 받을 경우 대다수의 추론 단계를 처리할 수 있음을 입증하며, 자원 효율적인 추론을 위한 강력한 프레임워크로 자리잡을 가능성을 제시한다.
논문 초록(Abstract)
대규모 언어 모델(LLM)은 복잡한 추론을 위해 종종 높은 계산 비용과 지연 시간에 의해 제한받는 반면, 자원 효율적인 소규모 언어 모델(SLM)은 일반적으로 필요한 추론 능력이 부족합니다. 기존의 협업 접근 방식, 예를 들어 캐스케이딩이나 라우팅은 전체 쿼리를 LLM에 오프로드하여 작동하며, SLM이 대부분의 추론 단계를 처리할 수 있을 때 상당한 계산 낭비를 초래합니다. 이를 해결하기 위해, 우리는 토큰 수준의 협업 디코딩을 통한 효율적인 추론을 위한 새로운 프레임워크인 RelayLLM을 제안합니다. RelayLLM은 라우터와 달리 SLM이 특별한 명령을 통해 중요한 토큰에 대해서만 LLM을 동적으로 호출할 수 있는 능동적인 제어자로 작용하도록 하여 생성 과정을 효과적으로 "중계"합니다. 우리는 모델이 독립성과 전략적 도움 요청의 균형을 맞추도록 가르치는 워밍업과 그룹 상대 정책 최적화(Group Relative Policy Optimization, GRPO)를 포함한 두 단계의 학습 프레임워크를 도입합니다. 여섯 개의 벤치마크에서의 실험 결과는 RelayLLM이 평균 49.52%의 정확도를 달성하여 두 모델 간의 성능 격차를 효과적으로 해소함을 보여줍니다. 특히, 이는 총 생성된 토큰의 1.07%에 대해서만 LLM을 호출하여 성능이 일치하는 임의의 라우터에 비해 98.2%의 비용 절감을 제공합니다.
Large Language Models (LLMs) for complex reasoning is often hindered by high computational costs and latency, while resource-efficient Small Language Models (SLMs) typically lack the necessary reasoning capacity. Existing collaborative approaches, such as cascading or routing, operate at a coarse granularity by offloading entire queries to LLMs, resulting in significant computational waste when the SLM is capable of handling the majority of reasoning steps. To address this, we propose RelayLLM, a novel framework for efficient reasoning via token-level collaborative decoding. Unlike routers, RelayLLM empowers the SLM to act as an active controller that dynamically invokes the LLM only for critical tokens via a special command, effectively "relaying" the generation process. We introduce a two-stage training framework, including warm-up and Group Relative Policy Optimization (GRPO) to teach the model to balance independence with strategic help-seeking. Empirical results across six benchmarks demonstrate that RelayLLM achieves an average accuracy of 49.52%, effectively bridging the performance gap between the two models. Notably, this is achieved by invoking the LLM for only 1.07% of the total generated tokens, offering a 98.2% cost reduction compared to performance-matched random routers.
논문 링크
더 읽어보기
https://github.com/Chengsong-Huang/RelayLLM
파이토치 한국 사용자 모임
이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일
로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)
아래
쪽에 좋아요
를 눌러주시면 뉴스 발행에 힘이 됩니다~ ![]()











