[2026/05/11 ~ 17] 이번 주에 살펴볼 만한 AI/ML 논문 모음

[2026/05/11 ~ 17] 이번 주에 살펴볼 만한 AI/ML 논문 모음

PyTorchKR​:fire::south_korea: :thinking::thought_balloon:

대규모 언어 모델 에이전트는 코드를 실행하지 않고도 코드베이스를 탐색하고 코드 의미론에 대해 추론할 수 있을까요? 이번 주에 선정된 논문들은 살펴보면 구조화된 추론, 효율적인 실행 경로 재설계, 그리고 평가 기준의 정교화라는 트렌드들을 살펴볼 수 있습니다.

:one: 추론 과정의 명시적 구조화 및 단계별 세분화: 이번 주 논문들에서는 모델의 사고 과정을 단순한 블랙박스 형태의 텍스트 생성이 아니라, 명시적이고 검증 가능한 단계로 구조화하려는 흐름이 돋보입니다. Agentic Code Reasoning 은 비구조적인 사고의 연쇄를 넘어 전제와 결론이 명확한 준형식적 추론을 도입하여 코드 분석의 신뢰성을 크게 높였습니다. 또한 RubricEMTCRM 은 긴 작업 호흡이나 응답 과정에서 최종 결과에만 보상을 주는 방식을 탈피하여, 작업 단계를 분해하고 토큰이나 중간 궤적 단위로 세밀한 평가 기준을 적용해 최적화의 안정성을 극대화했습니다. STRIDE 역시 언어 모델의 추론 흔적을 시계열 예측 모델의 연속적인 임베딩 공간에 주입하여, 수치 예측 과정에 인간이 이해할 수 있는 정성적 추론 능력을 통합해냈습니다. 이러한 연구들은 인공지능의 능력을 실제 복잡한 문제 해결에 적용하기 위해 중간 과정을 투명하게 통제하고 최적화하려는 시도로 해석됩니다.

:two: 제약을 뛰어넘는 데이터 및 연산 효율성 극대화: 물리적 하드웨어나 주어진 데이터의 한계를 우회하여 최고 수준의 효율성과 성능을 달성하려는 연구들도 이번 주의 핵심 트렌드로 나타났습니다. FairyFuse 는 삼진 가중치를 활용해 부동소수점 곱셈을 배제함으로써 대역폭이 제한된 중앙처리장치(CPU) 환경에서도 극대화된 효율의 추론을 가능하게 만들었습니다. 정보 검색 분야의 SIRA 는 여러 번에 걸쳐 탐색을 반복하던 기존 에이전트의 비효율을 극복하고, 단 한 번의 정교한 쿼리 생성만으로 다중 라운드 검색을 능가하는 획기적인 모델을 입증했습니다. 모방 학습을 다룬 연구에서는 인간 전문가가 남긴 제한적이고 비효율적인 시연 궤적을 맹목적으로 따르는 대신, 상태 기반의 진전 신호를 추론하여 원본보다 훨씬 짧고 빠른 궤적을 로봇 스스로 발견하도록 이끌었습니다. 이는 주어지는 자원이나 환경이 불완전하더라도, 혁신적인 구조적 재설계를 통해 모델의 잠재력을 한계 이상으로 끌어올리려는 실용적인 접근법들입니다.

:three: 이분법적 평가를 넘어선 다차원적 기준의 도입: 인공지능 모델을 평가하고 해석하는 기준이 단순한 정답률이나 이분법적 분류를 벗어나, 훨씬 연속적이고 메타적인 차원으로 진화하고 있습니다. 연구 수준의 수학 능력을 측정하는 Soohak 은 단순히 문제를 푸는 능력을 넘어, 잘못 정의된 문제를 인식하고 무리한 답변을 스스로 멈출 줄 아는 신중한 거절 능력을 새로운 최적화 목표로 제시했습니다. 텍스트 감지 기술인 EditLens 역시 인간 작성과 인공지능 생성이라는 흑백 논리에서 벗어나, 인간의 초안에 인공지능이 개입한 편집의 강도를 연속적인 척도로 정량화하는 방법론을 제안했습니다. 트랜스포머의 표현력을 다룬 연구는 이러한 모델들이 형식 언어를 얼마나 간결하게 압축할 수 있는지 증명하는 동시에, 그 압축성으로 인해 모델 검증의 복잡도가 극단적으로 높아진다는 이론적 한계를 명확히 규명했습니다. 이는 모델의 성능이 고도화됨에 따라, 신뢰성과 한계를 입증하기 위한 평가 잣대 역시 더욱 입체적이고 엄밀해지고 있음을 보여줍니다.

논문 요약

  • Agentic Code Reasoning: 코드 실행 없이도 의미론적 추론이 가능하다는 점을 보이기 위해 semi-formal reasoning을 제안했고, 패치 동등성 검증, 결함 위치 추정, 코드 질의응답에서 일관된 성능 향상을 보였습니다.

  • FairyFuse: Multiplication-Free LLM Inference on CPUs via Fused Ternary Kernels: 삼진(ternary) 가중치와 융합 AVX-512 커널로 CPU에서 곱셈 없는 추론 경로를 만들었고, 메모리 대역폭 병목을 줄여 실제 토큰 생성 속도를 높였습니다.

  • Reward Models Are Secretly Value Functions: Temporally Coherent Reward Modeling: 보상 모델의 토큰별 출력을 최종 보상의 조건부 기댓값으로 해석하고, lookahead consistency와 smoothness 정규화로 보상 모델과 가치 함수를 하나의 틀로 묶었습니다.

  • Transformers are Inherently Succinct: 트랜스포머(Transformer)의 표현력을 succinctness 관점에서 형식화해, 유한 오토마타와 LTL보다 훨씬 압축적으로 언어를 표현할 수 있음을 보였고, 동시에 검증 난이도가 매우 높다는 점도 드러냈습니다.

  • Superintelligent Retrieval Agent: The Next Frontier of Information Retrieval: 검색-증강 에이전트(retrieval-augmented agents)의 반복 검색을 하나의 판별적 검색으로 압축하는 SIRA를 제안해, 문서/질의 양쪽의 증거 어휘를 보강하고 단일 weighted BM25로 높은 검색 성능을 달성했습니다.

  • EditLens: Quantifying the Extent of AI Editing in Text: 인간 초안에 대한 인공지능 편집 강도를 연속값으로 정량화하는 회귀 모델을 만들었고, 인간/AI/혼합 텍스트 구분에서 높은 F1 점수를 기록했습니다.

  • Reasoning-Aware Training for Time Series Forecasting: 시계열 파운데이션 모델(Time Series Foundation Models, TSFMs)에 대규모 언어 모델(LLM)의 추론 흔적을 연속 임베딩으로 주입해, 설명 가능성과 예측 정확도를 함께 끌어올렸습니다.

  • Soohak: A Mathematician-Curated Benchmark for Evaluating Research-level Math Capabilities of LLMs: 수학자 64명이 새로 작성한 439개 문제로 연구 수준 수학 능력을 평가하며, 정답률뿐 아니라 잘못된 문제를 거절하는 능력까지 측정합니다.

  • RubricEM: Meta-RL with Rubric-guided Policy Decomposition beyond Verifiable Rewards: rubric을 정책 실행, 평가 피드백, 기억의 공통 인터페이스로 써서 장문 연구 과제를 단계적으로 분해하고, 메타-강화학습(Meta-RL)으로 장기 과제 성능을 높였습니다.

  • When a Robot is More Capable than a Human: Learning from Constrained Demonstrators: 제약된 시연으로부터 state-only reward를 추론해 로봇이 행동 복제를 넘어서 더 짧고 효율적인 궤적을 학습하도록 만들었습니다.


에이전틱 코드 추론 / Agentic Code Reasoning


논문 소개

대규모 언어 모델 에이전트가 코드를 직접 실행하지 않고도 코드베이스를 탐색하며 의미론적 추론을 수행할 수 있는지에 대한 질문은, 코드 이해의 한계를 재정의하는 중요한 연구 과제로 제시된다. Agentic Code Reasoning은 이러한 능력을 체계적으로 다루며, 이를 위해 semi-formal reasoning이라는 구조화된 추론 방식을 도입한다. 이 방법은 에이전트가 단순한 자유형 사고의 흐름을 나열하는 대신 명시적인 전제, 실행 경로의 추적, 그리고 형식적인 결론을 순서대로 제시하도록 요구함으로써, 추론 과정을 하나의 검증 가능한 증명서처럼 만든다. 특히 이 구조는 케이스를 건너뛰거나 근거가 불충분한 주장을 내놓는 상황을 줄여, 코드 의미를 보다 엄밀하게 분석하도록 유도한다. 저자들은 이 접근을 패치 동등성 검증, 결함 위치 추정, 코드 질의응답이라는 세 가지 과제에 적용하여 그 효과를 평가했다. 패치 동등성 검증에서는 일반적인 추론 방식보다 정확도가 78%에서 88%로 향상되었고, 실제 에이전트가 생성한 패치에 대해서는 93%까지 도달하여 실행 없는 보상 신호로 활용할 수 있을 정도의 신뢰성을 보여주었다. 결함 위치 추정 과제인 Defects4J에서는 Top-5 정확도가 5퍼센트포인트 향상되었고, RubberDuckBench 기반 코드 질의응답에서는 87% 정확도를 달성해 구조화된 추론이 다양한 코드 이해 작업에 폭넓게 유효함을 입증했다. 이러한 결과는 단순히 정답을 생성하는 능력보다, 코드의 행동과 테스트, 변경의 의미를 논리적으로 연결하는 능력이 코드 분석 에이전트의 핵심이라는 점을 강조한다. 또한 실행이 어려운 환경에서도 정적 방식으로 의미론적 판단을 수행할 수 있다는 점에서, 강화학습 학습 파이프라인의 보상 설계, 코드 리뷰 자동화, 정적 프로그램 분석과 같은 실제 응용 가능성을 넓힌다. 결국 이 연구는 코드 이해를 텍스트 수준의 추론에서 벗어나, 근거가 명시된 구조적 추론으로 끌어올림으로써 LLM 에이전트가 실제 소프트웨어 맥락에서 더 신뢰할 수 있는 분석 도구가 될 수 있음을 보여준다.

초록(Abstract)

대규모 언어 모델(LLM) 에이전트는 코드를 실행하지 않고도 코드 저장소를 탐색하고 코드 의미를 추론할 수 있을까요? 우리는 이 능력을 에이전트적 코드 추론(agentic code reasoning)이라 부르고, 준형식적 추론(semi-formal reasoning)을 도입합니다. 이는 에이전트가 명시적인 전제를 구성하고, 실행 경로를 추적하며, 형식적 결론을 도출하도록 요구하는 구조화된 프롬프트 방법론입니다. 비구조적인 사고의 연쇄(chain-of-thought)와 달리, 준형식적 추론은 증명서 역할을 합니다. 즉, 에이전트는 경우를 건너뛰거나 근거 없는 주장을 할 수 없습니다. 우리는 세 가지 과제(패치 동등성 검증, 결함 위치 특정, 코드 질의응답)에서 평가했으며, 준형식적 추론이 모든 과제에서 일관되게 정확도를 향상시킨다는 것을 보였습니다. 패치 동등성의 경우, 정확도는 선별된 예시에서 78%에서 88%로 향상되었고, 실제 에이전트가 생성한 패치에서는 93%에 도달하여 실행 없이 사용할 수 있는 RL 보상 신호에 필요한 신뢰성에 근접했습니다. RubberDuckBench Mohammad et al. (2026)에서의 코드 질의응답에서는 준형식적 추론이 87%의 정확도를 달성했습니다. Defects4J Just et al. (2014)에서의 결함 위치 특정에서는 준형식적 추론이 표준 추론보다 Top-5 정확도를 5퍼센트포인트 향상시켰습니다. 이러한 결과는 구조화된 에이전트적 추론이 실행 없이도 의미 있는 의미론적 코드 분석을 가능하게 하며, RL 학습 파이프라인, 코드 리뷰, 정적 프로그램 분석에서의 실용적 응용을 연다는 점을 보여줍니다.

Can LLM agents explore codebases and reason about code semantics without executing the code? We study this capability, which we call agentic code reasoning, and introduce semi-formal reasoning: a structured prompting methodology that requires agents to construct explicit premises, trace execution paths, and derive formal conclusions. Unlike unstructured chain-of-thought, semi-formal reasoning acts as a certificate: the agent cannot skip cases or make unsupported claims. We evaluate across three tasks (patch equivalence verification, fault localization, and code question answering) and show that semi-formal reasoning consistently improves accuracy on all of them. For patch equivalence, accuracy improves from 78% to 88% on curated examples and reaches 93% on real-world agent-generated patches, approaching the reliability needed for execution-free RL reward signals. For code question answering on RubberDuckBench Mohammad et al. (2026), semi-formal reasoning achieves 87% accuracy. For fault localization on Defects4J Just et al. (2014), semi-formal reasoning improves Top-5 accuracy by 5 percentage points over standard reasoning. These results demonstrate that structured agentic reasoning enables meaningful semantic code analysis without execution, opening practical applications in RL training pipelines, code review, and static program analysis.

논문 링크


FairyFuse: 융합된 3진 커널을 통한 CPU에서의 곱셈 없는 대규모 언어 모델(LLM) 추론 / FairyFuse: Multiplication-Free LLM Inference on CPUs via Fused Ternary Kernels

논문 소개

대규모 언어 모델(Large Language Model, LLM)이 데이터센터를 넘어 CPU(Central Processing Unit)만으로 구동되는 온디바이스 어시스턴트와 엣지 서버로 확장되면서, 자기회귀 생성(autoregressive generation)에서 가장 큰 병목은 연산 자체보다 메모리 대역폭(memory bandwidth)이 되었습니다. 기존의 4비트 이하 양자화는 가중치 저장량을 줄여 주지만, 실제 추론 과정에서는 여전히 가중치를 복원한 뒤 부동소수점 곱셈을 수행하는 경우가 많아, 저비트화가 가져올 수 있는 효율을 충분히 살리지 못합니다. FairyFuse는 이러한 한계를 정면으로 다루며, 가중치를 {-1, 0, +1}의 삼진(ternary) 형태로 표현해 곱셈을 덧셈, 뺄셈, 또는 무연산으로 치환함으로써 CPU 상에서 완전히 곱셈 없는 추론 경로를 구현합니다. 특히 이 시스템은 각 넓은-선형(widely-linear) 층에 포함된 8개의 실수 기반 부분 벡터-행렬 곱(GEMV, General Matrix-Vector Multiplication)을 하나의 AVX-512 루프로 융합하여, 중복된 메모리 접근과 중간 버퍼 생성을 줄이고 마스크 기반 덧셈·뺄셈만으로 계산을 수행합니다. 이 접근은 단순한 저비트 저장 최적화가 아니라, 저비트 구조를 실제 하드웨어 명령 수준에서 직접 활용하는 런타임 설계라는 점에서 의미가 큽니다.

저자들은 Roofline 분석(Roofline analysis)을 통해 삼진 가중치가 16배의 압축 효과를 제공할 때, 메모리 바운드(memory-bound)였던 GEMV가 대역폭 제약이 큰 CPU에서는 계산 경계에 더 가까워질 수 있음을 보이며, 이러한 구조적 변화가 커널 수준에서 29.6배의 속도 향상으로 이어질 수 있음을 제시합니다. 반면 대역폭 여유가 큰 GPU에서는 동일한 압축의 이점이 제한적이라는 점도 함께 보여 주어, 이 방법이 특히 CPU 중심 환경에 적합하다는 사실을 분명히 합니다. 구현 측면에서 FairyFuse는 BMI2와 AVX-512F를 활용해 가중치 비트 패턴을 빠르게 추출하고, OpenMP를 이용한 행 단위 병렬화를 통해 단일 소켓 CPU에서 안정적인 처리량을 확보합니다. 이러한 설계 덕분에 시스템은 곱셈 명령을 전혀 사용하지 않으면서도, 현대 x86 서버 CPU에서 실용적인 추론 속도를 달성합니다.

성능 평가에서도 이 접근의 실효성은 분명하게 드러납니다. 단일 Intel Xeon 8558P에서 초당 32.4개의 토큰을 생성하여 llama.cpp의 Q4_K_M 대비 1.24배 빠른 속도를 보였고, WikiText-2 perplexity는 5.52로 FP16의 5.47과 거의 차이가 없었으며, 다운스트림 정확도 역시 66.0%를 유지했습니다. 이는 삼진 가중치가 단순한 압축 기법을 넘어, 품질 손실을 최소화하면서 CPU 추론의 병목을 실제로 완화할 수 있음을 보여 줍니다. 결국 FairyFuse는 LLM 추론 최적화의 초점을 “얼마나 적게 저장하느냐”에서 “저장한 표현을 얼마나 직접적이고 효율적으로 실행하느냐”로 옮기며, 저비트 모델의 잠재력을 CPU 환경에서 실질적인 속도와 품질로 연결한 중요한 사례라고 볼 수 있습니다.

초록(Abstract)

대규모 언어 모델은 점점 더 CPU 전용 플랫폼에 배포되고 있으며, 여기서 메모리 대역폭은 자기회귀 생성의 주요 병목입니다. 가중치를 4비트 이하로 양자화하면 메모리 압박이 줄어들지만, 기존 시스템은 여전히 가중치를 디양자화하고 부동소수점 곱셈을 수행하므로 달성 가능한 이득이 제한됩니다. {-1, 0, +1}의 삼진 가중치는 곱셈을 조건부 덧셈, 뺄셈 또는 아무 동작도 하지 않음으로 대체하는 더 효율적인 대안입니다. Fairy2i는 삼진 LLM이 FP16 수준의 품질을 달성할 수 있음을 보여주었지만, 해당 런타임은 이 구조를 활용하지 못합니다. 우리는 범용 CPU에서 곱셈 없는 실행을 가능하게 하는 추론 시스템 FairyFuse를 제안합니다. FairyFuse는 각 와이드리니어(widely-linear) 계층의 8개 실수값 sub-GEMV를 마스크된 덧셈과 뺄셈만 사용하는 단일 AVX-512 루프로 융합하여, 부동소수점 곱셈을 전혀 사용하지 않습니다. Roofline 분석에 따르면 16배의 가중치 압축은 대역폭 제한 CPU에서 메모리 병목 GEMV를 연산 중심 영역으로 이동시키며, 커널 속도를 29.6배 향상시키지만 GPU에서는 이득이 거의 없습니다. 엔드투엔드 기준으로 FairyFuse는 단일 Intel Xeon 8558P에서 초당 32.4 토큰을 달성하며, 거의 손실 없는 품질(WikiText-2 perplexity 5.52 대 FP16의 5.47, 다운스트림 정확도 66.0%)로 llama.cpp Q4_K_M보다 1.24배 우수합니다.

Large language models are increasingly deployed on CPU-only platforms where memory bandwidth is the primary bottleneck for autoregressive generation. Weight quantization to four bits or below reduces memory pressure, yet existing systems still dequantize weights and perform floating-point multiplications, limiting the achievable gains. Ternary weights in {-1, 0, +1} provide a more efficient alternative, replacing multiplications with conditional additions, subtractions, or no-ops. While Fairy2i shows that ternary LLMs can match FP16 quality, its runtime does not exploit this structure. We present FairyFuse, an inference system that enables multiplication-free execution on commodity CPUs by fusing the eight real-valued sub-GEMVs of each widely-linear layer into a single AVX-512 loop using masked additions and subtractions, with zero floating-point multiplications. Roofline analysis shows that 16x weight compression shifts memory-bound GEMV toward the compute regime on bandwidth-limited CPUs, yielding a 29.6x kernel speedup while offering little benefit on GPUs. End-to-end, FairyFuse achieves 32.4 tokens per second on a single Intel Xeon 8558P, outperforming llama.cpp Q4_K_M by 1.24x with near-lossless quality (WikiText-2 perplexity 5.52 vs. 5.47 FP16; downstream accuracy 66.0%).

논문 링크


보상 모델은 사실상 가치 함수다: 시간적으로 일관된 보상 모델링 / Reward Models Are Secretly Value Functions: Temporally Coherent Reward Modeling

논문 소개

인간 피드백 강화학습(Reinforcement Learning from Human Feedback, RLHF)에서 보상 모델은 대규모 언어 모델(Large Language Model, LLM)의 응답 품질을 정렬하는 핵심 구성요소이지만, 기존 방식은 응답의 마지막 토큰만 점수화하는 데 머물러 중간 토큰이 담고 있는 풍부한 신호를 거의 활용하지 못했습니다. 이러한 한계를 지적한 이 논문은 보상 모델의 토큰별 출력이 단순한 잡음이 아니라, 현재까지 생성된 부분 응답을 조건으로 한 최종 보상의 조건부 기댓값이어야 한다는 관점을 제시하며, 이를 Temporally Coherent Reward Modeling(TCRM)이라는 학습 틀로 구체화합니다. TCRM은 표준 브래들리-테리(Bradley-Terry) 선호 손실 위에 두 개의 정규화 항을 추가하는 방식으로 설계되며, 아키텍처나 데이터 형식, 추론 절차를 전혀 바꾸지 않으면서도 토큰 수준 출력의 의미를 수학적으로 정립합니다. 첫 번째 정규화는 현재 접두(prefix)로부터 최종 보상을 직접 예측하도록 유도하는 lookahead consistency로, 몬테카를로(Monte Carlo) 가치 추정과 대응되며 중간 시점의 점수를 최종 보상의 조건부 기댓값에 가깝게 만듭니다. 두 번째 정규화는 인접 토큰 사이의 출력을 부드럽게 연결하는 smoothness로, 시간차(Temporal Difference, TD) 부트스트래핑과 구조적으로 맞닿아 있어 토큰별 보상 궤적을 안정화하고 값 함수처럼 점진적인 업데이트를 형성합니다.

이 접근의 중요한 점은 보상 모델과 가치 함수가 서로 다른 역할을 한다는 기존 관념을 재해석해, 사실상 하나의 원리 아래 통합할 수 있음을 보인 데 있습니다. 토큰 수준 보상 궤적이 일관되게 정렬되면, 중간 단계의 해석 가능성이 크게 높아져 어떤 토큰이 응답 품질을 개선하거나 훼손했는지를 직접 추적할 수 있고, 이는 단순한 최종 점수보다 훨씬 세밀한 분석을 가능하게 합니다. 실험 결과에서도 이러한 설계의 효과가 분명하게 드러나는데, 마지막 토큰 정확도를 유지하면서도 중간 토큰 정확도를 무작위 수준에서 크게 끌어올렸고, 응답 궤적의 흔들림도 현저히 줄였습니다. 더 나아가 TCRM은 별도의 step label 없이도 프로세스 보상 모델(Process Reward Model, PRM)처럼 작동하여 ProcessBench에서 outcome-only 방식 중 최상위 성능을 달성했으며, 이는 최종 정답만으로도 과정 수준의 피드백을 상당 부분 복원할 수 있음을 보여줍니다. 특히 근접 정책 최적화(Proximal Policy Optimization, PPO)에서는 보상 모델과 가치 모델을 TCRM 하나로 통합해 사용할 수 있어, 피크 GPU 메모리를 줄이고 학습 시간도 단축하면서도 언어 모델 품질은 유지하는 실용적 이득까지 확인했습니다. 결국 이 논문은 보상 모델의 토큰별 출력을 단순한 보조 신호가 아니라 시간적으로 일관된 가치 추정치로 재해석함으로써, RLHF의 효율성과 해석 가능성을 동시에 높이는 새로운 방향을 제시합니다.

초록(Abstract)

RLHF의 보상 모델은 응답의 최종 토큰만 점수화하도록 학습되는데, 이는 각 중간 위치에서 얻을 수 있는 풍부한 신호를 버리고 토큰 수준 출력이 잡음에 불과한 모델을 만든다는 선택이다. 우리는 이것이 놓친 기회라고 주장한다. 잘 학습된 보상 모델의 임의의 토큰에서의 출력은 지금까지의 응답이 주어졌을 때 최종 보상의 조건부 기댓값을 나타내어야 한다. 우리는 이러한 성질을 표준 Bradley-Terry 손실 위에 두 개의 정규화 항을 더해 유도하는 시공간적으로 일관된 보상 모델링(Temporally Coherent Reward Modeling, TCRM)을 제안하며, 그 최소점이 조건부 기댓값과 정확히 일치함을 증명한다. 이 정규화 항은 몬테카를로 및 TD 가치 학습 목적함수에 해당하며, RL의 가치 함수와의 직접적인 연결을 확립한다. TCRM은 아키텍처, 데이터, 추론에 어떤 변경도 필요로 하지 않지만, 하나의 원리에서 세 가지 기능을 이끌어낸다. 해석 가능한 토큰 수준 보상 궤적(중간 토큰 쌍별 정확도는 50%에서 88.9%로 향상되었고, 최종 토큰 정확도는 유지되었다), 결과 데이터만으로 학습된 모델 중 ProcessBench에서 최신 최고 수준의 PRM 성능(평균 F1 44.9%), 그리고 PPO에서 통합된 보상/가치 모델링으로, LLM 품질은 동일하게 유지하면서 피크 GPU 메모리를 27%, 스텝 시간을 19% 줄인다.

Reward models in RLHF are trained to score only the final token of a response - a choice that discards rich signal from every intermediate position and produces models whose token-level outputs are noise. We argue this is a missed opportunity: a well-trained reward model's output at any token should represent the conditional expectation of the final reward given the response so far. We introduce Temporally Coherent Reward Modeling (TCRM), which induces this property via two regularization terms on top of the standard Bradley-Terry loss, with minimizers provably equal to conditional expectations. The regularizers correspond to Monte Carlo and TD value-learning objectives, establishing a direct connection to RL value functions. TCRM requires zero changes to architecture, data, or inference, yet unlocks three capabilities from one principle: interpretable token-level reward trajectories (middle-token pairwise accuracy improved from 50% to 88.9%, final-token accuracy preserved); state-of-the-art PRM performance on ProcessBench (44.9% average F1) among models trained only on outcome data; and unified reward/value modeling in PPO, reducing peak GPU memory by 27% and step time by 19% with matching LLM quality.

논문 링크


트랜스포머는 본질적으로 간결하다 / Transformers are Inherently Succinct

논문 소개

트랜스포머(Transformer)를 단순히 강력한 예측 모델로 보는 관점을 넘어, 어떤 개념이나 형식언어를 얼마나 간결하게 기술할 수 있는지라는 관점에서 표현력을 정량화한 연구입니다. 여기서 핵심 개념인 간결성(succinctness)는 동일한 대상을 표현하는 데 필요한 기술의 길이와 구조적 압축 정도를 의미하며, 저자들은 이를 통해 트랜스포머의 표현력이 유한 오토마타(finite automata)나 선형 시계 논리(Linear Temporal Logic, LTL)보다 본질적으로 더 높다는 점을 보입니다. 논문의 중심 아이디어는 트랜스포머의 각 층 출력을 하나의 논리식으로 귀납적으로 재구성하는 데 있으며, 이를 통해 네트워크 내부 계산을 위치별 벡터 상태의 논리적 서술로 정확히 옮겨 놓습니다. 특히 0층에서는 임베딩(embedding) 값을 원자명제 수준으로 대응시키고, 이후 층에서는 ReLU와 마스킹된 어텐션(masked attention)의 계산을 각각 다른 방식으로 논리화함으로써 전체 계산 과정을 단계적으로 추적할 수 있게 합니다. 이러한 귀납적 구성은 단순한 번역이 아니라, 각 위치에서 가능한 출력 벡터를 전부 열거한 뒤 실제로 발생 가능한 경우만 남기는 정교한 경우분해에 가깝습니다. 어텐션의 경우에는 strict future masking, strict past masking, no masking, 그리고 rightmost 또는 leftmost tie-breaking과 같은 세부 규칙까지 모두 반영하여, 선택 메커니즘이 시간 논리 연산자와 결합된 형태로 완전히 표현될 수 있음을 보입니다. 그 결과 트랜스포머의 전체 수용 조건은 마지막 층의 가능한 출력들을 하나의 거대한 LTL 공식으로 묶은 형태로 환원되며, 모델의 동작이 형식언어 만족 문제로 바뀝니다. 이 과정은 트랜스포머가 표준적인 형식언어 표현보다 훨씬 더 압축적으로 언어를 기술할 수 있음을 보여 주는 동시에, 그만큼 내부 의미를 전개해 검증하는 일은 매우 복잡해질 수 있음을 드러냅니다. 실제로 논문은 이러한 표현력의 대가로 트랜스포머 성질 검증 문제가 본질적으로 어렵고 EXPSPACE-complete임을 증명하여, 압축성과 검증 난이도 사이의 구조적 긴장을 명확히 제시합니다. 따라서 이 연구는 트랜스포머를 자연어 처리의 도구로만 보는 대신, 형식언어 이론과 계산 복잡도 이론의 접점에서 이해해야 할 대상으로 위치시키며, 강한 표현력이 곧 높은 검증 비용으로 이어질 수 있다는 중요한 이론적 통찰을 제공합니다.

초록(Abstract)

우리는 개념을 기술하는 데 있어 트랜스포머(Transformer)의 표현력을 측정하는 지표로서 간결성(succinctness)을 제안한다. 이를 위해, 우리는 트랜스포머가 유한 오토마타(finite automata)나 선형 시점 논리(Linear Temporal Logic, LTL) 공식과 같은 형식 언어의 표준 표현보다 훨씬 더 간결하게 형식 언어를 표현할 수 있다는 점에서 매우 높은 표현력을 지닌다는 것을 증명한다. 이러한 표현력의 부산물로서, 우리는 트랜스포머의 성질을 검증하는 것이 증명 가능하게 계산상 다루기 어렵고, 즉 EXPSPACE-완전임을 보인다.

We propose succinctness as a measure of the expressive power of a transformer in describing a concept. To this end, we prove that transformers are highly expressive in that they can represent formal languages substantially more succinctly than standard representations of formal languages like finite automata and Linear Temporal Logic (LTL) formulas. As a by-product of this expressivity, we show that verifying properties of transformers is provably intractable (i.e. EXPSPACE-complete).

논문 링크


초지능 검색 에이전트(SIRA): 정보 검색의 다음 최전선 / Superintelligent Retrieval Agent: The Next Frontier of Information Retrieval


논문 소개

검색-증강 에이전트(retrieval-augmented agents)는 대규모 조직 지식베이스를 활용하는 핵심 인터페이스로 자리 잡았지만, 기존 방식은 여전히 검색을 블랙박스처럼 다루며 여러 차례의 탐색적 질의와 결과 확인, 그리고 재질의 과정을 반복하는 데 의존해 왔습니다. 이러한 절차는 사용자가 원하는 근거를 찾기 위해 불필요한 검색 라운드를 늘리고, 응답 지연을 키우며, 때로는 중요한 증거를 놓치게 만드는 한계를 드러냅니다. 이에 따라 제안된 Superintelligent Retrieval Agent(SIRA)는 검색에서의 superintelligence를 단순히 더 많은 추론 능력이 아니라, 여러 번의 탐색적 검색을 한 번의 코퍼스-판별적(corpus-discriminative) 검색 행동으로 압축하는 능력으로 재정의합니다. 핵심 방법론은 “어떤 단어가 관련 있는가”를 묻는 수준을 넘어, “어떤 단어가 원하는 증거를 코퍼스 수준의 혼동 요소(confusers)와 구별해 줄 수 있는가”를 묻는 데 있습니다. 즉, 검색을 단순한 확장(expansion) 문제가 아니라 검색 여유(retrieval margin)를 만드는 판별 문제로 전환함으로써, 전문가처럼 한 번에 더 정교한 탐색을 수행하도록 설계됩니다.

SIRA의 구조는 코퍼스 측면과 쿼리 측면을 함께 다듬는 이중 보강 전략에 기반합니다. 먼저 코퍼스 측면에서는 대형 언어 모델(large language model, LLM)이 각 문서를 오프라인으로 보강하여, 문서에 원래 드러나지 않거나 부족했던 검색 어휘(search vocabulary)를 추가함으로써 표현상의 공백을 줄입니다. 이어서 쿼리 측면에서는 LLM이 사용자의 질문에 명시되지 않았지만 실제 정답 근거를 찾는 데 필요한 증거 어휘(evidence vocabulary)를 예측하여, 질의와 문서 사이의 표현 불일치를 메웁니다. 이후 document-frequency 통계는 도구 호출(tool call)로 작동하여, 제안된 확장어 가운데 문서에 존재하지 않거나 지나치게 흔하거나 실제 검색 여유를 만들 가능성이 낮은 항목을 제거합니다. 이 필터링 단계는 LLM이 생성한 후보를 코퍼스 분포에 맞게 정제하는 장치로서, 과도한 확장으로 인한 노이즈를 줄이고 검색의 해석 가능성을 유지합니다. 최종적으로 SIRA는 원래 쿼리와 검증된 확장어를 결합한 단일 weighted BM25 호출을 수행하며, 반복적인 재질의 없이 한 번의 구조화된 lexical retrieval로 검색을 마무리합니다.

이러한 설계는 검색 에이전트가 더 많이 시도하는 방향이 아니라, 처음부터 더 적절하게 찾는 방향으로 진화할 수 있음을 보여준다는 점에서 중요합니다. 특히 SIRA는 학습 없이(training-free) 작동하면서도 해석 가능하고 효율적이며, 복잡한 에이전틱(agentic) 루프를 거치지 않고도 고성능을 달성한다는 점에서 실용적 가치가 큽니다. 실험적으로는 10개의 BEIR 벤치마크와 후속 질문응답(question answering) 과제에서 강력한 성능을 보였고, dense retriever와 최신 다중 라운드 에이전트 기반 방법들을 앞서는 결과를 보였습니다. 더 나아가 10개 데이터셋 중 8개에서 최고 Recall@10을 기록했으며, 특히 쿼리와 문서의 어휘 분포가 크게 어긋나는 환경에서 두드러진 개선을 나타냈습니다. 후속 질의응답 실험에서도 retrieval-only answer coverage가 NQ와 HotpotQA에서 강화학습(reinforcement learning, RL) 기반 에이전틱 시스템보다 높게 나타나, 정답 생성 이전에 올바른 증거를 노출하는 능력이 얼마나 중요한지 시사합니다. 결국 SIRA는 LLM을 반복적 검색 제어기로 쓰는 대신 검색 행동 자체를 더 전문가적이고 코퍼스 인지적으로 재구성함으로써, 정보 검색의 다음 단계가 무엇인지 분명하게 제시하는 방법론이라고 볼 수 있습니다.

초록(Abstract)

검색-증강 에이전트는 점점 대규모 조직 지식베이스의 인터페이스가 되고 있지만, 대부분은 여전히 검색을 블랙박스로 취급합니다. 이들은 탐색적 쿼리를 발행하고, 반환된 스니펫을 검토한 뒤, 유용한 근거가 나타날 때까지 반복적으로 재구성합니다. 이러한 접근은 전문가가 용어와 가능성이 높은 근거에 대한 강한 사전지식을 바탕으로 탐색하는 방식이라기보다, 낯선 데이터베이스를 처음 접한 초보자가 검색하는 방식에 가깝고, 불필요한 검색 라운드 증가, 지연 시간 증가, 낮은 재현율로 이어집니다. 우리는 \textit{SuperIntelligent Retrieval Agent}(SIRA)를 제안하며, 여기서 검색에서의 \emph{초지능}을 다중 라운드 탐색 검색을 단일한 코퍼스 구분적 검색 동작으로 압축하는 능력으로 정의합니다. SIRA는 단순히 어떤 용어가 쿼리와 관련 있는지를 묻는 데 그치지 않고, 어떤 용어가 원하는 근거를 코퍼스 수준의 혼동 요소로부터 분리해 낼 가능성이 높은지를 묻습니다. 코퍼스 측면에서는 대규모 언어 모델(LLM)이 각 문서를 오프라인에서 부족한 검색 어휘로 보강하고, 쿼리 측면에서는 쿼리에서 빠진 근거 어휘를 예측하며, 문서 빈도 통계는 툴 호출로 사용하여 누락되었거나 지나치게 흔하거나 검색 마진을 만들 가능성이 낮은 제안 용어를 필터링합니다. 최종 검색 단계는 원래 쿼리와 검증된 확장을 결합한 단일 가중 BM25 호출입니다. 10개의 BEIR 벤치마크와 하위 질문응답 작업 전반에서, SIRA는 희소 검색기와 최신 multi-round agentic 베이스라인보다 유의미하게 우수한 성능을 달성했으며, LLM의 인지와 경량 코퍼스 통계의 지도로 형성된 하나의 잘 구성된 어휘 쿼리가, 훨씬 더 비용이 큰 다중 라운드 검색을 능가하면서도 해석 가능하고 학습이 필요 없으며 효율적일 수 있음을 보여줍니다.

Retrieval-augmented agents are increasingly the interface to large organizational knowledge bases, yet most still treat retrieval as a black box: they issue exploratory queries, inspect returned snippets, and iteratively reformulate until useful evidence emerges. This approach resembles how a newcomer searches an unfamiliar database rather than how an expert navigates it with strong priors about terminology and likely evidence, and results in unnecessary retrieval rounds, increased latency, and poor recall. We introduce \textit{SuperIntelligent Retrieval Agent} (SIRA), which defines \emph{superintelligence} in retrieval as the ability to compress multi-round exploratory search into a single corpus-discriminative retrieval action. SIRA does not merely ask what terms are relevant to the query; it asks which terms are likely to separate the desired evidence from corpus-level confusers. On the corpus side, an LLM enriches each document offline with missing search vocabulary; on the query side, it predicts evidence vocabulary omitted by the query; and document-frequency statistics as a tool call to filter proposed terms that are absent, overly common, or unlikely to create retrieval margin. The final retrieval step is a single weighted BM25 call combining the original query with the validated expansion. Across ten BEIR benchmarks and downstream question-answering tasks, SIRA achieves the significantly superior performance outperforming dense retrievers and state-of-the-art multi-round agentic baselines, demonstrating that one well-formed lexical query, guided by LLM cognition and lightweight corpus statistics, can exceed substantially more expensive multi-round search while remaining interpretable, training-free, and efficient.

논문 링크

더 읽어보기


EditLens: 텍스트에서 AI 편집 정도 정량화 / EditLens: Quantifying the Extent of AI Editing in Text

논문 소개

대규모 언어 모델(large language model, LLM)은 이제 새로운 문장을 처음부터 생성하는 도구를 넘어, 사용자가 이미 작성한 글을 다듬고 재구성하는 편집 도구로도 널리 활용되고 있으며, EditLens는 바로 이 지점에서 출발합니다. 기존 연구가 주로 인간 작성 텍스트와 완전한 인공지능 생성 텍스트를 구분하는 데 집중해 왔다면, 이 논문은 실제로 더 흔하게 나타나는 “인간 초안에 인공지능이 개입한 혼합 글”을 별도의 대상으로 삼아, 인공지능이 텍스트에 남긴 변화의 정도를 정량화하려는 문제를 제기합니다. 저자들은 먼저 원문 인간 글과 편집 후 텍스트 사이의 차이를 반영하는 경량 유사도 지표(lightweight similarity metrics)를 설계하고, 이 지표가 사람 주석자의 판단과 일치하는지 검증함으로써 편집 강도를 측정할 수 있는 신뢰 가능한 중간 신호를 마련합니다. 이러한 접근은 단순히 “편집되었는가”를 판정하는 수준을 넘어, 인공지능이 문장 구조, 유창성, 어조, 길이, 명확성 등을 얼마나 크게 바꾸었는지를 연속적인 척도로 포착할 수 있게 해 준다는 점에서 의미가 큽니다.

이후 EditLens는 이러한 유사도 지표를 중간 감독(intermediate supervision)으로 활용해 회귀(regression) 모델로 학습되며, 텍스트 안에 포함된 인공지능 편집의 양을 예측하도록 설계됩니다. 회귀 기반 설계는 인간, 인공지능 생성, 혼합 작성이라는 경계가 흐릿한 현실을 이산적인 범주보다 더 자연스럽게 표현할 수 있어, 미세한 개입부터 전면적 재작성까지 연속적인 편집 스펙트럼을 학습하는 데 적합합니다. 특히 이 방법은 최종 분류기의 성능 향상에도 기여하여, 인간·인공지능·혼합 텍스트를 구분하는 이진 분류(binary classification)와 삼진 분류(ternary classification) 과제에서 각각 F1 점수 94.7%와 90.4%라는 높은 성능을 달성합니다. 이는 혼합형 텍스트가 기존 탐지기의 사각지대에 놓이기 쉬웠던 문제를 상당 부분 보완하며, 인공지능 편집의 “존재 여부”뿐 아니라 “변화의 크기”까지 탐지할 수 있음을 보여 줍니다. 더 나아가 이 연구는 이러한 정량화가 저자성(attribution) 판별, 교육 현장의 과제 평가, 생성형 인공지능 사용 정책 수립에 직접적인 근거를 제공할 수 있다고 제안합니다.

사례 연구에서는 널리 사용되는 글쓰기 보조 도구인 Grammarly에 EditLens를 적용하여, 실제 서비스가 문장에 가하는 수정이 어느 정도의 편집 강도를 갖는지 분석합니다. 이를 통해 논문은 실험실 수준의 분류 문제를 넘어, 상용 편집 도구가 인간 글의 스타일과 의미 구조를 어떻게 변화시키는지 해석할 수 있는 분석 틀을 제시합니다. 또한 저자들은 공개 가능한 모델과 데이터셋의 배포를 약속함으로써, 향후 연구자들이 인공지능 편집의 감지와 감사(audit)를 더욱 정교하게 발전시킬 수 있는 기반을 마련합니다. 결국 EditLens는 생성형 인공지능 시대에 필요한 질문을 “누가 썼는가”에서 “얼마나 그리고 어떤 방식으로 바뀌었는가”로 확장하며, 텍스트 편집을 연속적이고 계량 가능한 현상으로 다룬다는 점에서 중요한 방법론적 전환을 보여 줍니다.

초록(Abstract)

대규모 언어 모델에 대한 질의 중 상당수는 새로운 텍스트를 처음부터 생성하는 대신, 사용자가 제공한 텍스트를 편집해 달라고 요청합니다. 이전 연구는 완전히 AI가 생성한 텍스트를 탐지하는 데 초점을 맞췄지만, 우리는 AI가 편집한 텍스트가 인간이 작성한 텍스트 및 AI가 생성한 텍스트와 구별 가능하다는 점을 보여줍니다. 먼저, 원래의 인간 작성 텍스트가 주어졌을 때 텍스트에 포함된 AI 편집의 정도를 정량화하기 위해 경량 유사도 지표를 사용하는 방법을 제안하고, 인간 주석자들을 통해 이러한 지표를 검증합니다. 이어서, 이러한 유사도 지표를 중간 수준의 감독 신호로 사용하여 텍스트 내 AI 편집의 양을 예측하는 회귀 모델인 EditLens를 학습합니다. 우리 모델은 인간, AI, 그리고 혼합 작성물을 구분하는 이진 분류(F1=94.7%)와 삼진 분류(F1=90.4%) 과제 모두에서 최신 성능을 달성합니다. 우리는 AI가 편집한 텍스트를 탐지할 수 있을 뿐 아니라, AI가 인간의 글에 가한 변화의 정도까지도 탐지할 수 있음을 보이며, 이는 저자성 귀속, 교육, 정책에 시사점을 제공합니다. 마지막으로, 사례 연구로서 널리 사용되는 글쓰기 보조 도구인 Grammarly가 적용한 AI 편집의 효과를 분석하기 위해 우리 모델을 사용합니다. 추가 연구를 장려하기 위해, 우리는 모델과 데이터셋을 공개적으로 배포할 것을 약속합니다.

A significant proportion of queries to large language models ask them to edit user-provided text, rather than generate new text from scratch. While previous work focuses on detecting fully AI-generated text, we demonstrate that AI-edited text is distinguishable from human-written and AI-generated text. First, we propose using lightweight similarity metrics to quantify the magnitude of AI editing present in a text given the original human-written text and validate these metrics with human annotators. Using these similarity metrics as intermediate supervision, we then train EditLens, a regression model that predicts the amount of AI editing present within a text. Our model achieves state-of-the-art performance on both binary (F1=94.7%) and ternary (F1=90.4%) classification tasks in distinguishing human, AI, and mixed writing. Not only do we show that AI-edited text can be detected, but also that the degree of change made by AI to human writing can be detected, which has implications for authorship attribution, education, and policy. Finally, as a case study, we use our model to analyze the effects of AI-edits applied by Grammarly, a popular writing assistance tool. To encourage further research, we commit to publicly releasing our models and dataset.

논문 링크

더 읽어보기


STRIDE: 시계열 예측을 위한 추론 인식 학습 / Reasoning-Aware Training for Time Series Forecasting


논문 소개

시계열 예측 분야에서는 높은 수치 정확도를 제공하는 시계열 파운데이션 모델(Time Series Foundation Models, TSFMs)이 빠르게 발전해 왔지만, 예측 결과가 왜 그렇게 나왔는지에 대한 질적 추론과 설명 가능성은 여전히 충분히 확보되지 못했습니다. 반면 대규모 언어 모델(Large Language Models, LLMs)은 풍부한 추론 능력을 갖추고 있으나, 연속적인 시계열 값을 그대로 다루면 토크나이저가 수치를 잘게 분절하면서 수학적 관계가 훼손되고 시퀀스 길이가 과도하게 늘어나는 문제가 발생합니다. 이러한 한계를 해결하기 위해 STRIDE(Strategic Time-series Reasoning Injected via Distilled Embeddings)는 LLM의 추론 능력을 이산 토큰이 아니라 연속 임베딩 공간으로 주입하는 새로운 학습 프레임워크를 제안합니다. 핵심 아이디어는 추론 흔적(reasoning traces)을 경량 LLM으로 증류한 뒤, 평균 풀링된 은닉 상태(mean-pooled hidden states)를 목표 시계열 인코더에 대한 교차모달 사전(cross-modal prior)으로 동적으로 투영하는 것입니다. 이를 통해 언어적 추론을 단순한 설명 텍스트로 소비하는 대신, 실제 예측 모델이 활용할 수 있는 표현적 신호로 변환합니다.

이 접근의 중요한 장점은 시계열과 언어 사이의 모달리티 간 간극(modality gap)을 줄이면서도, 기존 TSFM의 연속 표현 체계를 해치지 않는다는 점입니다. 특히 STRIDE는 Chronos-2.0이나 Timer-S1과 같은 다양한 시계열 파운데이션 모델에 플러그앤플레이 방식으로 결합될 수 있어, 모델 구조를 크게 변경하지 않고도 추론 정보를 주입할 수 있습니다. 학습 과정에서는 교차 엔트로피 손실(cross-entropy loss)과 분위수 손실(quantile loss)을 공동으로 최적화하여, 추론 표현의 안정성과 수치 예측의 분포적 정확성을 동시에 확보합니다. 이러한 설계는 단순히 언어모델을 보조적으로 사용하는 수준을 넘어, 예측 인코더 내부의 잠재표현 자체를 개선하는 방향으로 기능합니다. 다시 말해, STRIDE는 언어적 reasoning을 시계열 예측의 외부 설명으로 두는 것이 아니라, 예측 성능을 직접 끌어올리는 구조적 사전으로 통합합니다.

실험 결과는 이러한 설계의 타당성을 분명하게 뒷받침합니다. GIFT-Eval에서 STRIDE는 0.674 MASE와 0.454 CRPS를 기록하며 기존 TSFM 계열보다 우수한 정량 성능을 보였고, TFRBench에서도 in-domain과 out-of-domain 모두에서 강한 예측력을 입증했습니다. 특히 in-domain 평가에서는 다섯 데이터셋 전체에서 평균 MASE 0.615를 달성해 Chronos-2.0의 0.708보다 개선되었으며, out-of-domain에서도 평균 MASE 0.724로 0.778보다 낮은 값을 기록해 분포 이동 상황에서도 견고한 일반화 가능성을 보여주었습니다. 개별 데이터셋 수준에서는 일부 반례가 존재하지만, 전반적으로는 다양한 도메인에서 일관된 향상을 제공한다는 점이 중요합니다. 이러한 결과는 단순히 더 큰 LLM을 사용하는 것이 아니라, 추론 정보를 연속 임베딩으로 정교하게 증류해 주입하는 방식이 성능 향상의 핵심임을 시사합니다.

무엇보다도 이 연구는 해석 가능성과 예측 정확도를 상충하는 목표로 보지 않고, 하나의 통합된 프레임워크 안에서 함께 다루었다는 점에서 의미가 큽니다. STRIDE는 인간이 이해할 수 있는 추론 구조를 유지하면서도, 시계열 모델이 실제로 활용할 수 있는 표현적 prior로 변환함으로써, 설명 가능한 예측과 고정밀 예측 사이의 간극을 좁힙니다. 따라서 이 방법은 시계열 예측에서 reasoning-aware training이 실제로 유효한 개선 축이 될 수 있음을 보여주는 실용적인 제안으로 평가할 수 있습니다.

초록(Abstract)

시계열 파운데이션 모델(Time Series Foundation Models, TSFMs)은 수치 예측에는 뛰어나지만, 정성적 추론이 부족한 블랙박스로 작동합니다. 반대로, LLM을 시계열 데이터에 직접 적용하면 모달리티 간 격차가 생깁니다. 텍스트 토크나이저가 연속적인 수치 값을 분절하면서 수학적 관계가 약화되고 시퀀스 길이가 급증해 계산 오버헤드가 커집니다. 이러한 문제를 해결하기 위해, 우리는 STRIDE(증류된 임베딩을 통해 주입된 전략적 시계열 추론, Strategic Time-series Reasoning Injected via Distilled Embeddings)를 제안합니다. 이는 LLM의 추론을 TSFM의 연속 임베딩 공간에 네이티브하게 통합하는 새로운 프레임워크입니다. STRIDE는 이산 토큰 대신 추론 흔적을 경량 LLM으로 증류하고, 그 평균 풀링된 은닉 상태를 동적으로 대상 수치 인코더에 대한 교차모달 사전지식으로 투영합니다. 이 아키텍처는 교차 엔트로피 손실과 분위수 손실을 함께 사용해 공동 최적화됩니다. 평가 결과, STRIDE는 TSFM들과 비교했을 때 GIFT-Eval에서 최고 수준의 수치 예측 성능(0.674 MASE, 0.454 CRPS)을 달성했으며, TFRBench에서는 도메인 내 및 도메인 외 수치 성능과 추론 성능 모두에서 더 뛰어난 성능을 보였습니다. 특히 STRIDE는 플러그 앤 플레이 방식의 향상 기법으로 작동하여, 다양한 LLM 구성 전반에서 Chronos-2, Timer-S1과 같은 여러 TSFM의 성능을 일관되게 개선합니다. 따라서 의미론적 추론을 연속적인 사전지식으로 주입하면 TSFM에 사람이 해석할 수 있는 추론 능력을 부여하는 동시에 예측 정확도를 근본적으로 향상시킬 수 있습니다.

Time Series Foundation Models (TSFMs) excel at numerical forecasting but operate as black boxes lacking qualitative reasoning. Conversely, applying LLMs directly to temporal data introduces a modality gap: text tokenizers fragment continuous numerical values, degrading mathematical relationships and exploding sequence lengths, leading to computational overhead. To resolve this, we introduce STRIDE (Strategic Time-series Reasoning Injected via Distilled Embeddings), a novel framework natively integrating LLM reasoning into the continuous embedding space of TSFMs. Instead of discrete tokens, STRIDE distills reasoning traces into a lightweight LLM, dynamically projecting its mean-pooled hidden states as a cross-modal prior into the target numerical encoder. The architecture is jointly optimized using cross-entropy and quantile losses. Evaluations demonstrate STRIDE establishes state-of-the-art numerical forecasting on GIFT-Eval (0.674 MASE, 0.454 CRPS) compared to TSFMs and exhibits superior in-domain and out-of-domain numerical as well as reasoning performance on TFRBench. Specifically, STRIDE acts as a plug-and-play enhancement, consistently improving diverse TSFMs (e.g., Chronos-2, Timer-S1) across various LLM configurations. Thus, injecting semantic reasoning as a continuous prior equips TSFMs with human-interpretable reasoning while fundamentally improving predictive accuracy.

논문 링크


수학: 대규모 언어 모델(LLM)의 연구 수준 수학 능력 평가를 위한 수학자 주도 벤치마크 / Soohak: A Mathematician-Curated Benchmark for Evaluating Research-level Math Capabilities of LLMs

논문 소개

최근 최전선 대규모 언어 모델(LLM)이 국제수학올림피아드(IMO)에서 금메달급 성과를 보이면서, 단순한 정답률을 넘어 진정한 추론 역량을 어떻게 측정할 것인가에 대한 문제의식이 한층 더 중요해졌습니다. Soohak은 이러한 흐름 속에서 등장한 연구 수준 수학(research-level math) 벤치마크(benchmark)로, 단계별 풀이 능력만을 평가하는 기존 올림피아드형 문제집과 달리 수학 지식의 경계를 실제로 확장할 수 있는 추론 능력을 겨냥합니다. 특히 연구 수학에서는 문제를 푸는 것만큼이나 문제의 정합성을 판단하고, 성립하지 않거나 정의가 불완전한 경우에는 무리하게 답을 생성하지 않는 태도가 중요하다는 점을 이 벤치마크의 설계가 분명히 드러냅니다. 이러한 관점에서 Soohak은 정답 생성 능력과 신중한 거절(refusal) 능력을 함께 평가하려는 점에서 기존 평가체계와 뚜렷이 구분됩니다.

이 벤치마크는 64명의 수학자가 새로 작성한 439개 문제로 구성되어 있으며, 데이터의 출처나 재사용에 의존하지 않고 처음부터 설계되었다는 점에서 신뢰성과 독창성을 확보하고 있습니다. 구성 역시 두 축으로 나뉘는데, 하나는 모델의 실제 문제 해결 능력을 측정하는 Challenge subset이고, 다른 하나는 잘못 정의된 문제를 식별하고 적절히 멈추는 능력을 시험하는 refusal subset입니다. 이는 수학 연구에서 요구되는 판단의 질을 보다 입체적으로 포착하려는 시도로 볼 수 있으며, 단순히 “맞히는 모델”을 넘어 “언제 답하지 말아야 하는지 아는 모델”을 평가 대상으로 끌어올립니다. 다시 말해 Soohak은 수학적 추론을 계산적 출력의 문제가 아니라, 탐구의 맥락에서 책임 있게 행동하는 능력으로 재정의하고 있습니다.

보고된 성능은 이 과제가 얼마나 어려운지를 분명히 보여줍니다. Challenge subset에서 Gemini-3-Pro, GPT-5, Claude-Opus-4.5가 각각 30.4%, 26.4%, 10.4%를 기록했으며, 선도적인 오픈 가중치(open-weight) 모델인 Qwen3-235B, GPT-OSS-120B, Kimi-2.5도 모두 15% 미만에 머물렀습니다. 이러한 결과는 최고 수준의 모델조차 연구 수준 수학에서는 아직 상당한 성능 여지(headroom)를 남기고 있음을 시사하며, 현재의 일반적인 추론 능력 향상이 곧바로 수학 연구 역량의 향상으로 이어지지는 않는다는 사실을 보여줍니다. 특히 복잡한 증명과 개념적 구조를 다루는 영역에서는, 표면적인 언어 유창성보다 엄밀한 논리 전개와 문제 구조 이해가 훨씬 더 중요한 병목으로 작용합니다.

더 주목할 점은 refusal subset에서 어떤 모델도 50%를 넘지 못했다는 결과입니다. 이는 현재의 대규모 언어 모델이 잘못된 문제를 감지하고 보수적으로 반응하는 능력을 독립적인 최적화 목표로 충분히 다루지 못하고 있음을 의미합니다. 결국 Soohak은 수학적 정확성뿐 아니라 신뢰성, 자기제어, 불확실성 인식까지 포함하는 새로운 평가 기준을 제안하며, 차세대 모델 개발의 방향을 넓혀 줍니다. 또한 데이터셋을 2026년 말에 공개하고 그 전까지는 요청을 통해서만 평가 결과를 제공하겠다는 정책은, 벤치마크 오염(contamination)을 최소화해 평가의 공정성을 지키려는 실용적 장치로 읽힙니다. 종합하면 Soohak은 연구 수준 수학을 위한 정교한 평가틀을 제시함으로써, 앞으로의 인공지능(AI) 연구가 단순한 정답률 경쟁을 넘어 진정한 수학적 탐구 능력과 신뢰 가능한 거절 능력까지 아우르도록 방향을 제시하는 중요한 시도로 평가할 수 있습니다.

초록(Abstract)

최근 최전선 대규모 언어 모델(LLM)이 국제수학올림피아드(IMO)에서 금메달 수준의 성과를 달성한 이후, 커뮤니티는 LLM 추론을 측정할 다음의 의미 있고 도전적인 목표를 찾고 있다. 올림피아드 스타일 문제는 단계별 추론만을 측정하는 반면, 연구 수준 문제는 그러한 추론을 활용해 수학 지식의 최전선을 직접 확장하며, 유력한 대안으로 부상하고 있다. 그러나 연구 수준 수학 벤치마크는 이러한 문제를 확보하기 어렵기 때문에 여전히 매우 부족하다(예: Riemann Bench와 FrontierMath-Tier 4는 각각 25개와 50개의 문제를 포함한다). 차세대 최전선 모델에 대한 신뢰할 수 있는 평가를 지원하기 위해, 우리는 64명의 수학자가 처음부터 새로 작성한 439개 문제의 벤치마크인 Soohak을 소개한다. Soohak은 두 개의 하위 집합으로 구성된다. Challenge 하위 집합에서 Gemini-3-Pro, GPT-5, Claude-Opus-4.5를 포함한 최전선 모델은 각각 30.4%, 26.4%, 10.4%를 달성해 상당한 여지를 남겼으며, Qwen3-235B, GPT-OSS-120B, Kimi-2.5와 같은 선도적인 오픈 가중치 모델은 모두 15%를 밑돌았다. 특히 Soohak은 일반적인 문제 해결을 넘어, 연구 수학에 본질적인 능력인 부적절하게 정의된 문제를 인식하고, 그럴듯하지만 정당화되지 않은 답을 내놓기보다 멈추는 능력을 검증하는 거부 서브셋을 도입한다. 이 하위 집합에서는 어떤 모델도 50%를 넘지 못했으며, 이는 거부가 현재 모델이 직접적으로 다루지 못하는 새로운 최적화 목표임을 보여준다. 데이터 오염을 방지하기 위해, 이 데이터셋은 2026년 말에 공개될 예정이며, 그 전까지는 요청이 있을 경우 모델 평가 결과를 제공한다.

Following the recent achievement of gold-medal performance on the IMO by frontier LLMs, the community is searching for the next meaningful and challenging target for measuring LLM reasoning. Whereas olympiad-style problems measure step-by-step reasoning alone, research-level problems use such reasoning to advance the frontier of mathematical knowledge itself, emerging as a compelling alternative. Yet research-level math benchmarks remain scarce because such problems are difficult to source (e.g., Riemann Bench and FrontierMath-Tier 4 contain 25 and 50 problems, respectively). To support reliable evaluation of next-generation frontier models, we introduce Soohak, a 439-problem benchmark newly authored from scratch by 64 mathematicians. Soohak comprises two subsets. On the Challenge subset, frontier models including Gemini-3-Pro, GPT-5, and Claude-Opus-4.5 reach 30.4%, 26.4%, and 10.4% respectively, leaving substantial headroom, while leading open-weight models such as Qwen3-235B, GPT-OSS-120B, and Kimi-2.5 remain below 15%. Notably, beyond standard problem solving, Soohak introduces a refusal subset that probes a capability intrinsic to research mathematics: recognizing ill-posed problems and pausing rather than producing confident but unjustified answers. On this subset, no model exceeds 50%, identifying refusal as a new optimization target that current models do not directly address. To prevent contamination, the dataset will be publicly released in late 2026, with model evaluations available upon request in the interim.

논문 링크


RubricEM: 검증 가능한 보상을 넘어 루브릭 가이드 정책 분해를 활용한 메타 강화학습 / RubricEM: Meta-RL with Rubric-guided Policy Decomposition beyond Verifiable Rewards

논문 소개

검증 가능한 정답이 없는 장문 연구 과제를 수행하는 딥 리서치 에이전트는 기존 강화학습( Reinforcement Learning, RL )의 보상 설계만으로는 충분히 다루기 어렵다. 이러한 에이전트는 계획을 세우고, 근거를 탐색하며, 수집한 증거를 평가한 뒤, 이를 바탕으로 긴 보고서를 종합해야 하므로 한 번의 최종 응답보다 여러 단계에 걸친 의사결정의 질이 더욱 중요하다. RubricEM은 바로 이 문제에 주목하여, 평가 기준표인 rubric을 단순한 최종 채점 도구가 아니라 정책 실행, 평가 피드백, 그리고 에이전트 기억을 연결하는 공통 인터페이스로 재해석한다. 이러한 관점은 장기적 추론 과정 전체를 구조화된 학습 대상으로 다룰 수 있게 해 주며, 검증 가능한 보상이 약한 환경에서도 보다 안정적인 최적화를 가능하게 만든다.

핵심 방법은 rubric-guided policy decomposition, 즉 rubric에 기반한 정책 분해에 있다. RubricEM은 연구 궤적을 계획, 근거 수집, 검토, 종합의 여러 단계로 나누고, 각 단계를 에이전트가 스스로 생성한 rubric에 조건부로 수행하도록 설계한다. 이를 통해 하나의 긴 생성 과정을 일괄적으로 평가하는 대신, 단계별로 무엇이 충분했고 무엇이 부족했는지를 더 명확하게 추적할 수 있다. 특히 각 단계에 대한 판단을 세분화하면 희소한 최종 보상만으로는 잡아내기 어려운 의미론적 차이를 포착할 수 있어, 장기 과제에서 중요한 credit assignment 문제를 완화할 수 있다. 다시 말해, 이 접근은 결과만 맞추는 정책이 아니라 과정 자체를 잘 수행하는 정책을 학습하도록 유도한다.

이 과정에서 사용되는 Stage-Structured GRPO(Group Relative Policy Optimization)는 단계별 rubric 판정을 활용해 더 촘촘한 학습 신호를 제공한다. 일반적인 장기 강화학습에서는 마지막 결과에 보상이 집중되기 쉬우나, RubricEM은 각 단계의 품질을 따로 반영함으로써 연구 행동의 의미적 타당성을 직접 최적화한다. 예를 들어 계획 단계에서는 문제 정의의 적절성을, 근거 수집 단계에서는 증거의 충분성과 관련성을, 종합 단계에서는 논리적 일관성과 서술의 균형을 별도로 평가할 수 있다. 이런 방식은 장문 보고서처럼 정답보다 구조와 논증이 중요한 과제에서 특히 효과적이며, 모델이 더 일관된 연구 절차를 학습하도록 돕는다. 따라서 Stage-Structured GRPO는 단순한 보상 재배치가 아니라, 장기 추론을 단계적 판단 구조에 맞게 재설계한 방법이라고 볼 수 있다.

또한 RubricEM은 reflection 기반 메타-정책 진화(meta-policy evolution)를 함께 학습하여, 과거의 성공과 실패를 다음 시도에 재사용 가능한 지침으로 압축한다. 이 공유 백본(shared-backbone) 메타-정책은 평가된 궤적으로부터 rubric에 근거한 반성적 피드백을 추출하고, 이를 향후 추론에 활용할 수 있는 일반화된 안내로 변환한다. 이는 메타강화학습(Meta-Reinforcement Learning, Meta-RL)의 관점에서 경험을 단순 저장하는 수준을 넘어, 학습된 교훈을 정책 수준의 지식으로 축적한다는 점에서 의미가 크다. 결국 RubricEM은 현재의 응답을 개선하는 동시에, 미래의 시도까지 더 나은 방향으로 이끄는 자기개선 구조를 갖춘다.

실험적으로 RubricEM-8B는 네 개의 장문 연구 벤치마크에서 강한 성능을 보이며, 비교 가능한 공개 모델들을 앞서고 일부 상용 딥 리서치 시스템에 근접하는 결과를 달성했다. 이러한 성과는 단순한 최종 점수 향상에 그치지 않고, rubric을 중심으로 한 단계 분해, 세밀한 보상 할당, 그리고 반성적 메타-학습이 함께 작동할 때 장기 연구 작업의 품질이 실제로 개선될 수 있음을 보여준다. 더 나아가 이 연구는 검증 가능한 보상에만 의존하던 기존 패러다임을 넘어, 인간의 평가 기준과 유사한 구조를 학습 신호로 활용하는 새로운 방향을 제시한다. 따라서 RubricEM은 장문 추론, 도구 활용, 보고서 합성과 같은 복합적 연구 에이전트 과제를 위한 유망한 학습 틀로 이해할 수 있다.

초록(Abstract)

심층 리서치 에이전트, 즉 계획하고, 검색하고, 증거를 평가하며, 장문 보고서를 종합하는 시스템을 학습하는 것은 강화학습을 검증 가능한 보상의 영역을 넘어 확장시킨다. 이들 출력에는 ground-truth 정답이 없고, 그 궤적은 여러 도구가 보강된 의사결정을 가로지르며, 표준 사후학습은 과거 시도를 재사용 가능한 경험으로 전환하는 메커니즘을 거의 제공하지 못한다. 본 연구에서는 루브릭이 단순한 최종 답변 평가자가 아니라, 정책 실행, 판별기 피드백, 그리고 에이전트 메모리를 구조화하는 공유 인터페이스로서 작동해야 한다고 주장한다. 이러한 관점에 기반하여, 우리는 단계별 정책 분해와 반성 기반 메타-정책 진화를 결합한 루브릭 유도 강화학습 프레임워크인 RubricEM을 제안한다. RubricEM은 먼저 자체 생성한 루브릭에 따라 계획, 증거 수집, 검토, 종합을 조건화함으로써 리서치 궤적을 단계 인식적으로 만든다. 그다음 Stage-Structured GRPO를 사용해 보상을 할당하는데, 이는 단계별 루브릭 판정을 활용하여 장기 최적화를 위한 더 밀집된 의미론적 피드백을 제공한다. 동시에 RubricEM은 공유 백본 반성 메타-정책을 학습하여, 판정된 궤적을 미래 시도를 위한 재사용 가능한 루브릭 기반 지침으로 증류한다. 그 결과 RubricEM-8B는 4개의 장문 리서치 벤치마크 전반에서 강력한 성능을 달성했으며, 동급의 오픈 모델들을 능가하고 독점적인 심층 리서치 시스템에 근접하는 성능을 보였다. 최종 성능을 넘어, 우리는 RubricEM의 핵심 요소를 이해하기 위해 철저한 분석도 수행한다.

Training deep research agents, namely systems that plan, search, evaluate evidence, and synthesize long-form reports, pushes reinforcement learning beyond the regime of verifiable rewards. Their outputs lack ground-truth answers, their trajectories span many tool-augmented decisions, and standard post-training offers little mechanism for turning past attempts into reusable experience. In this work, we argue that rubrics should serve not merely as final-answer evaluators, but as the shared interface that structures policy execution, judge feedback, and agent memory. Based on this view, we introduce RubricEM, a rubric-guided reinforcement learning framework that combines stagewise policy decomposition with reflection-based meta-policy evolution. RubricEM first makes research trajectories stage-aware by conditioning planning, evidence gathering, review, and synthesis on self-generated rubrics. It then assigns credit with Stage-Structured GRPO, which uses stagewise rubric judgments to provide denser semantic feedback for long-horizon optimization. In parallel, RubricEM trains a shared-backbone reflection meta-policy that distills judged trajectories into reusable rubric-grounded guidance for future attempts. The resulting RubricEM-8B achieves strong performance across four long-form research benchmarks, outperforming comparable open models and approaching proprietary deep-research systems. Beyond final performance, we perform thorough analyses to understand the key ingredients of RubricEM.

논문 링크


로봇이 인간보다 더 유능할 때: 제약된 시연자로부터 학습 / When a Robot is More Capable than a Human: Learning from Constrained Demonstrators

논문 소개

제약된 시연자에게서 로봇이 학습하는 문제는 단순한 행동 복제를 넘어, 시연에 담긴 상태 전이의 의미를 얼마나 정확하게 해석하느냐에 달려 있습니다. 이 연구는 이를 마르코프 결정 과정(Markov decision process, MDP)으로 정식화하고, 전문가가 조이스틱이나 키네스틱 티칭처럼 제한된 인터페이스를 사용할 때 발생하는 비최적 시연의 한계를 출발점으로 삼습니다. 핵심 아이디어는 시연 행동을 그대로 모사하는 대신, 시연이 보여주는 상태 변화로부터 과제 진전(progress)을 나타내는 보상 신호를 추론하는 데 있습니다. 특히 목표 도달(goal-reaching) 문제에서는 행동의 모양보다 목표 상태에 얼마나 가까워졌는지가 더 본질적이므로, 상태 궤적만으로도 학습에 필요한 구조적 정보를 복원할 수 있다는 점을 강조합니다. 이를 위해 논문은 시연으로부터 상태만 기반으로 한 보상 신호(state-only reward)를 추정하고, 알 수 없는 상태에 대해서는 시간적 보간(temporal interpolation)을 이용해 보상을 self-labeling하는 방식을 제안합니다. 이러한 설계는 제약된 전문가가 직접적으로 보여주지 못한 더 짧고 효율적인 경로를 정책이 스스로 탐색할 수 있게 해 주며, 로봇이 인간 시연보다 더 나은 해를 찾을 수 있다는 가능성을 뒷받침합니다. 다시 말해, 이 방법은 모방학습(imitation learning)의 중심을 행동 복제에서 상태 기반 목표 추론으로 이동시켜, 시연을 정답 행동이 아니라 학습을 위한 진전의 단서로 재해석합니다.

이 접근의 장점은 제한된 시연이 가진 구조적 편향을 그대로 물려받지 않는다는 데 있습니다. 행동 복제(behavioral cloning)는 관측된 행동을 그대로 따르기 때문에 시연 자체가 비효율적이면 결과 정책도 그 비효율을 반복하게 되지만, 제안된 방법은 시연의 궤적에서 목적 달성에 필요한 순서와 방향성만 추출해 더 나은 정책을 학습합니다. 따라서 로봇은 전문가가 사용할 수 없었던 자유도를 활용해, 더 빠르고 짧은 궤적으로 목표에 도달할 수 있습니다. 초록에 따르면 이러한 방식은 일반적인 모방학습보다 샘플 효율(sample efficiency)과 과제 완료 시간 모두에서 우수한 성능을 보였습니다. 실제 WidowX 로봇 팔 실험에서도 작업을 12초 만에 완료하여 행동 복제보다 10배 빠른 결과를 보였다는 점은, 제약된 시연으로부터도 실질적으로 더 능숙한 정책을 얻을 수 있음을 보여 줍니다. 결국 이 논문의 기여는 인간의 제한된 조작을 그대로 복제하는 데서 멈추지 않고, 시연으로부터 과제의 본질적 진전 신호를 학습해 로봇이 더 효율적인 행동 전략을 발견하도록 만든 데 있습니다. 이러한 관점은 원격 조작, 안전 제약, 저차원 인터페이스가 존재하는 실제 로봇 학습 환경에서 특히 큰 의미를 가지며, 모방 기반 학습의 적용 범위를 한 단계 넓히는 방법론적 진전을 제시합니다.

초록(Abstract)

시연으로부터 학습하면 전문가가 키네스틱 티칭(kinesthetic teaching), 조이스틱 제어(joystick control), 시뮬레이션-투-리얼(sim-to-real) 전이와 같은 인터페이스를 사용해 로봇에게 복잡한 작업을 가르칠 수 있습니다. 그러나 이러한 인터페이스는 간접 제어, 설정 제약, 하드웨어 안전성 때문에 전문가가 최적의 행동을 시연하는 능력을 종종 제한합니다. 예를 들어, 조이스틱은 로봇 팔을 2차원 평면에서만 움직일 수 있지만, 로봇은 더 높은 차원의 공간에서 동작합니다. 그 결과, 제약을 받은 전문가가 수집한 시연은 학습된 정책의 성능을 최적 이하로 만듭니다. 이는 중요한 질문을 제기합니다. 제약받은 전문가가 시연한 것보다 더 나은 정책을 로봇이 학습할 수 있을까요? 우리는 에이전트가 전문가 행동을 직접 모방하는 수준을 넘어 더 짧고 효율적인 궤적을 탐색하도록 허용함으로써 이 문제를 다룹니다. 우리는 시연을 이용해 작업 진행 정도를 측정하는 상태만의 보상 신호(state-only reward signal)를 추론하고, 시간적 보간(temporal interpolation)을 사용해 알 수 없는 상태에 대해 보상을 스스로 라벨링합니다. 우리의 방법은 샘플 효율성과 작업 완료 시간 모두에서 일반적인 모방 학습을 능가합니다. 실제 WidowX 로봇 팔에서는 12초 만에 작업을 완료하며, Constrained Expert 에서 제공되는 실제 로봇 비디오에서 보이듯 행동 복제(behavioral cloning)보다 10배 빠릅니다.

Learning from demonstrations enables experts to teach robots complex tasks using interfaces such as kinesthetic teaching, joystick control, and sim-to-real transfer. However, these interfaces often constrain the expert's ability to demonstrate optimal behavior due to indirect control, setup restrictions, and hardware safety. For example, a joystick can move a robotic arm only in a 2D plane, even though the robot operates in a higher-dimensional space. As a result, the demonstrations collected by constrained experts lead to suboptimal performance of the learned policies. This raises a key question: Can a robot learn a better policy than the one demonstrated by a constrained expert? We address this by allowing the agent to go beyond direct imitation of expert actions and explore shorter and more efficient trajectories. We use the demonstrations to infer a state-only reward signal that measures task progress, and self-label reward for unknown states using temporal interpolation. Our approach outperforms common imitation learning in both sample efficiency and task completion time. On a real WidowX robotic arm, it completes the task in 12 seconds, 10x faster than behavioral cloning, as shown in real-robot videos on Constrained Expert .

논문 링크

더 읽어보기


:fire:파이토치 한국 사용자 모임:south_korea:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:wrapped_gift: 아래:down_right_arrow:쪽에 좋아요:heart:를 눌러주시면 뉴스 발행에 힘이 됩니다~ :hugs:

1개의 좋아요