[2025/02/10 ~ 02/16] 이번 주의 주요 ML 논문 (Top ML Papers of the Week)
PyTorchKR


-
이번 주에 선정된 논문들을 살펴보면, 전반적으로 ‘대규모 언어 모델(LLM)의 추론 능력을 고도화하고 다양한 영역에 적용하는 전략’이 두드러진다는 점이 돋보입니다. 특히 잠재 공간에서의 반복 계산(Latent Reasoning), 백트래킹(Backtracking), 자기 놀이를 통한 RL(Self-Play), 계층적 템플릿 기반 추론(ReasonFlux) 등, 모델이 스스로 더 깊이 있고 유연한 추론을 하도록 만드는 여러 기법들이 대거 소개되었습니다. 또한 모델이 외부 메모리(또는 추가 구조)를 활용해 장기 문맥을 처리하거나, 문제 난이도에 따라 계산 시간을 동적으로 조절(Training LLMs to Reason Efficiently)하는 등, 효율적이고 견고한 추론을 지향하는 시도도 눈에 띕니다.
-
반면, ‘프롬프트 캐싱 보안 이슈’나 ‘뇌 활동 기반 텍스트 해독(Non-invasive BCI)’과 같이, 순수 NLP/언어 모델의 고도화 외에도 AI 활용 분야가 점점 광범위해지고 있음을 보여주는 연구도 포함되어 있습니다. 예컨대, Brain2Qwerty는 EEG/MEG 뇌파 신호에서 텍스트를 디코딩하는 혁신적인 방안을 제시함으로써, 인터페이스·헬스케어 분야와의 접목 가능성을 보여주고 있습니다. 또한 Prompt Caching 감사 연구는 LLM API 제공에서 발생할 수 있는 보안상의 취약점을 경고함으로써, AI 시스템의 안전성·투명성에 대한 중요성을 다시 한번 상기시킵니다.
-
이처럼, 이번 주 논문들은 한편으로는 LLM이 더욱 복잡한 추론·계산을 다룰 수 있는 토대를 마련하고(예: latent reasoning, self-play, backtracking, ReasonFlux), 다른 한편으로는 효율성, 안정성, 응용성을 강화하는 데 초점을 맞추고 있다고 볼 수 있습니다. 모델 규모를 무작정 키우기보다, 메모리 모듈(LM2)이나 동적 계산 기법 등을 도입해 자원 소모 대비 성능을 최적화하는 접근 역시 주목할 만합니다.
-
이러한 경향은 실제 산업·연구 현장에서 LLM이 점차 더 복잡한 문제를 해결해야 하며, 동시에 상용화에 적합한 효율성과 안전성을 갖춰야 한다는 인식을 반영합니다. 즉, 단순히 파라미터 수나 데이터셋 크기에 의존하는 시대를 넘어, 모델이 자체적으로 사고 과정을 조직하고 점검할 수 있는 능력—그리고 이를 다양한 영역(코딩, 헬스케어, 엔지니어링, 보안 등)에 적용할 수 있는 체계적인 기법—이 점점 더 중요해지고 있음을 이번 주 논문들이 잘 보여준다고 할 수 있습니다.
잠재 추론으로 테스트 시간 계산 확장하기 / Scaling up Test-Time Compute with Latent Reasoning
논문 소개
이 연구에서는 추가 토큰 생성 없이도 테스트 시간에 모델이 더 깊은 추론을 수행할 수 있는 잠재적 반복 심층 변환기(latent recurrent-depth transformer)를 소개합니다. 생각의 사슬(CoT) 토큰을 늘리지 않고도 잠재 공간에서의 반복 추론을 통해 35억 개 파라미터 모델로도 50억 개 파라미터 모델 수준의 성능을 달성합니다.
- 모델은 추론 시 재귀적으로 블록을 반복하여, 입력 시퀀스를 수정하지 않고도 원하는 만큼 계산 단계를 늘릴 수 있습니다.
- CoT 전용 학습이 필요 없어, 일반적인 사전 훈련 데이터로도 폭넓은 추론 작업에 적용 가능합니다.
- 긴 컨텍스트를 요구하지 않아 메모리 효율이 높으며, 토큰별 적응형 컴퓨팅과 KV 캐시 공유 등을 통해 계산 효율도 강화됩니다.
- 충분한 반복을 활용할 경우 ARC, GSM8K, OpenBookQA 등 복잡한 과제에서 훨씬 큰 모델과 맞먹는 성능을 보입니다.
This work introduces a latent recurrent-depth transformer, a model that scales test-time reasoning without relying on additional token generation. Instead of increasing the context window or fine-tuning for Chain-of-Thought (CoT), this approach enables iterative latent space reasoning at inference, achieving improvements comparable to a 50B parameter model despite having only 3.5B parameters. Key insights include:
- Recurrent test-time computation
- No need for CoT-specific training
- Improved memory & compute efficiency
- Scales like a 50B parameter model
- Emergent behaviors in latent space
논문 초록(Abstract)
우리는 잠재 공간에서 암시적으로 추론하여 테스트 시간 계산을 확장할 수 있는 새로운 언어 모델 아키텍처를 연구합니다. 우리의 모델은 반복 블록을 반복하여 테스트 시간에 임의의 깊이까지 풀어나가는 방식으로 작동합니다. 이는 더 많은 토큰을 생성하여 컴퓨팅을 확장하는 주류 추론 모델과는 대조적입니다. 연쇄 사고에 기반한 접근 방식과 달리, 저희의 접근 방식은 특별한 훈련 데이터가 필요하지 않고, 작은 컨텍스트 창에서 작동할 수 있으며, 말로 쉽게 표현할 수 없는 추론 유형을 포착할 수 있습니다. 개념 증명 모델을 35억 개의 매개변수와 8,000억 개의 토큰으로 확장했습니다. 결과 모델은 추론 벤치마크에서 때로는 500억 개의 매개변수에 해당하는 계산 부하까지 극적으로 성능을 향상시킬 수 있음을 보여줍니다.
We study a novel language model architecture that is capable of scaling test-time computation by implicitly reasoning in latent space. Our model works by iterating a recurrent block, thereby unrolling to arbitrary depth at test-time. This stands in contrast to mainstream reasoning models that scale up compute by producing more tokens. Unlike approaches based on chain-of-thought, our approach does not require any specialized training data, can work with small context windows, and can capture types of reasoning that are not easily represented in words. We scale a proof-of-concept model to 3.5 billion parameters and 800 billion tokens. We show that the resulting model can improve its performance on reasoning benchmarks, sometimes dramatically, up to a computation load equivalent to 50 billion parameters.
논문 링크
더 읽어보기
뇌 활동으로부터 텍스트 디코딩: 비침습적 접근을 통한 타이핑 / Brain-to-Text Decoding: A Non-Invasive Approach via Typing
논문 소개
Meta AI에서 EEG·MEG 뇌파 신호를 통해 사용자가 입력하는 텍스트를 해독하는 Brain2Qwerty 모델을 개발했습니다.
- 기존 침습적 BCI와 달리, 수술 없이 외부 장치만으로 문자를 예측해 낼 수 있다는 점에서 큰 의의를 갖습니다.
- 심층 학습을 통해 뇌 신호에서 중요한 특징을 추출하고, 이를 문자 단위의 언어 모델과 결합해 해독 정확도를 높였습니다.
- MEG 기반 방식은 32%의 문자 오류율(CER)을 달성했고, 일부 참가자에서는 19% CER까지 낮춰 비침습적인 뇌-컴퓨터 인터페이스의 가능성을 시사합니다.
Meta AI’s Brain2Qwerty model translates brain activity into text by decoding signals from non-invasive recordings (EEG/MEG) while users type. Key results include:
- Non-invasive BCI breakthrough
- Deep learning pipeline
- Rapid progress in accuracy
- Towards practical communication aids
논문 초록(Abstract)
최신 신경 보철물은 이제 말하거나 움직일 수 있는 능력을 상실한 환자의 의사소통을 회복시킬 수 있습니다. 하지만 이러한 침습적 장치에는 신경외과 수술에 내재된 위험이 수반됩니다. 여기에서는 뇌 활동에서 문장의 생성을 해독하고 35명의 건강한 지원자 코호트에서 그 효능을 입증하는 비침습적 방법을 소개합니다. 이를 위해 참가자들이 간단히 외운 문장을 쿼티(QWERTY) 키보드로 입력하는 동안 뇌파(EEG) 또는 자기뇌파(MEG)로부터 문장을 해독하도록 훈련된 새로운 딥러닝 아키텍처인 Brain2Qwerty를 소개합니다. MEG를 사용하면 Brain2Qwerty의 문자 오류율(CER)은 평균 32%에 달했으며, EEG(CER: 67%)를 크게 능가했습니다. 최고의 참가자의 경우, 이 모델은 19%의 CER을 달성하고 훈련 세트 이외의 다양한 문장을 완벽하게 해독할 수 있습니다. 오류 분석 결과 해독은 운동 과정에 의존하는 것으로 나타났지만, 오타 분석 결과에는 더 높은 수준의 인지적 요인도 포함되어 있는 것으로 나타났습니다. 전반적으로 이러한 결과는 침습적 방법과 비침습적 방법 사이의 간극을 좁히고 의사소통이 불가능한 환자를 위한 안전한 뇌-컴퓨터 인터페이스 개발의 길을 열어줍니다.
Modern neuroprostheses can now restore communication in patients who have lost the ability to speak or move. However, these invasive devices entail risks inherent to neurosurgery. Here, we introduce a non-invasive method to decode the production of sentences from brain activity and demonstrate its efficacy in a cohort of 35 healthy volunteers. For this, we present Brain2Qwerty, a new deep learning architecture trained to decode sentences from either electro- (EEG) or magneto-encephalography (MEG), while participants typed briefly memorized sentences on a QWERTY keyboard. With MEG, Brain2Qwerty reaches, on average, a character-error-rate (CER) of 32% and substantially outperforms EEG (CER: 67%). For the best participants, the model achieves a CER of 19%, and can perfectly decode a variety of sentences outside of the training set. While error analyses suggest that decoding depends on motor processes, the analysis of typographical errors suggests that it also involves higher- level cognitive factors. Overall, these results narrow the gap between invasive and non-invasive methods and thus open the path for developing safe brain-computer interfaces for non-communicating patients.
논문 링크
더 읽어보기
자기 놀이를 통한 강화학습 / Reinforcement Learning via Self-Play
논문 소개
LLM에게 복잡한 문제 풀이를 가르치기 위해, 모델이 자체적으로 문제를 설정하고 풀며 보상을 주고받는 RLSP(Reinforcement Learning via Self-Play) 기법이 제안되었습니다.
- 모델은 스스로 다양한 해법을 시도하고(탐험 보상), 결과를 검증해가며 자기 학습을 진행합니다.
- 세 단계 학습(지도 학습 → 보상 기반 탐험 → 결과 검증을 통한 RL)을 거치면서, 모델은 완성도 높은 해법을 찾기 위한 ‘알고리즘적 사고’를 점차 터득하게 됩니다.
- 8B와 32B 등 상대적으로 작은 규모 모델에서도 수학 문제(MATH, 올림피아드 문제)에 대해 큰 폭의 성능 향상이 보고되었습니다.
Researchers propose Reinforcement Learning via Self-Play (RLSP) as a framework to train LLMs to “think” through complex problems. Key ideas include:
- Emergent reasoning via self-play
- Three-phase training
- Notable performance gains
- Uncovering new behaviors
논문 초록(Abstract)
OpenAI의 새로운 모델과 같은 최근의 AI 발전은 LLM을 추론 중에 추론을 수행하는 LRM(대규모 추론 모델)으로 전환하여 더 높은 품질의 결과물을 위해 더 많은 시간과 컴퓨팅을 필요로 합니다. 저희는 LRM을 훈련하기 위한 알고리즘 프레임워크를 밝히는 것을 목표로 합니다. 자체 일관성, PRM, AlphaZero와 같은 방법은 추론을 가이드 검색으로 제안합니다. 우리는 LLM에서 검색을 활성화하는 가장 간단하고 확장 가능한 방법은 무엇일까요?
저희는 셀프 플레이를 통한 강화 학습(RLSP)이라는 사후 학습 프레임워크를 제안합니다. RLSP에는 세 단계가 포함됩니다: (1) 추론 과정의 사람 또는 합성 데모를 통한 감독된 미세 조정, (2) 다양하고 효율적인 추론 행동을 장려하기 위한 탐색 보상 신호 사용, (3) 보상 해킹을 방지하면서 정확성을 보장하기 위한 결과 검증기를 사용한 RL 훈련입니다. 핵심 혁신은 PPO 훈련 중 탐색 신호와 정답 신호를 분리하여 성능과 효율성을 개선하기 위해 신중하게 균형을 맞추는 것입니다.
수학 영역의 경험적 연구에 따르면 RLSP는 추론 능력을 향상시키는 것으로 나타났습니다. Llama-3.1-8B-Instruct 모델에서 RLSP는 MATH-500 테스트 세트에서 성능을 23% 향상시킬 수 있으며, AIME 2024 수학 문제에서 Qwen2.5-32B-Instruct는 RLSP로 인해 10% 향상되었습니다. 그러나 이 연구에서 더 중요한 발견은 모델이 더 많은 중간 단계를 수행하도록 장려하는 가장 단순한 탐색 보상에도 불구하고 RLSP를 사용하여 훈련된 모델이 역추적, 아이디어 탐색, 검증과 같은 몇 가지 새로운 행동을 보였다는 것입니다. 이러한 결과는 RLSP 프레임워크가 확장 시 LLM에서 복잡한 추론 능력의 출현을 가능하게 하는 데 충분할 수 있음을 보여줍니다. 마지막으로, CoT의 단계 수가 증가할수록 LLM의 계산 능력이 증가한다는 놀라운 결과에서 영감을 받아 RLSP 검색 전략이 LLM에 더 적합한 이유에 대한 이론을 제안합니다 \cite{li2024chain,merrill2023expressive}.
Recent AI advancements, such as OpenAI's new models, are transforming LLMs into LRMs (Large Reasoning Models) that perform reasoning during inference, taking extra time and compute for higher-quality outputs. We aim to uncover the algorithmic framework for training LRMs. Methods like self-consistency, PRM, and AlphaZero suggest reasoning as guided search. We ask: what is the simplest, most scalable way to enable search in LLMs?
We propose a post-training framework called Reinforcement Learning via Self-Play (RLSP). RLSP involves three steps: (1) supervised fine-tuning with human or synthetic demonstrations of the reasoning process, (2) using an exploration reward signal to encourage diverse and efficient reasoning behaviors, and (3) RL training with an outcome verifier to ensure correctness while preventing reward hacking. Our key innovation is to decouple exploration and correctness signals during PPO training, carefully balancing them to improve performance and efficiency.
Empirical studies in the math domain show that RLSP improves reasoning. On the Llama-3.1-8B-Instruct model, RLSP can boost performance by 23% in MATH-500 test set; On AIME 2024 math problems, Qwen2.5-32B-Instruct improved by 10% due to RLSP. However, a more important finding of this work is that the models trained using RLSP, even with the simplest exploration reward that encourages the model to take more intermediate steps, showed several emergent behaviors such as backtracking, exploration of ideas, and verification. These findings demonstrate that RLSP framework might be enough to enable emergence of complex reasoning abilities in LLMs when scaled. Lastly, we propose a theory as to why RLSP search strategy is more suitable for LLMs inspired by a remarkable result that says CoT provably increases computational power of LLMs, which grows as the number of steps in CoT \cite{li2024chain,merrill2023expresssive}.
논문 링크
더 읽어보기
https://x.com/omarsar0/status/1889697727703134544
대규모 추론 모델을 활용한 알고리즘 대회 코딩 / Competitive Programming with Large Reasoning Models
논문 소개
OpenAI의 연구에서, 알고리즘 대회에 특화된 모델(o1-ioi)과 범용 대규모 모델(o3)의 성능을 비교한 결과가 제시되었습니다.
- 컴퓨팅 경량화를 위해 특수 전략이 적용된 ‘전문 모델’도 어느 정도 성능을 보였으나, 충분히 규모를 키운 범용 모델이 오히려 IOI급 대회 문제를 더 높은 수준에서 풀어냈습니다.
- RL 미세 조정을 추가하면 두 모델 모두 성능 향상을 보이지만, 대형 범용 모델이 결과적으로 더 높은 정답률을 달성했습니다.
- 코딩과 같이 복잡한 추론이 필요한 과제에서도, ‘특화 설계’보다는 스케일링이 궁극적인 해법이 될 수 있음을 시사합니다.
OpenAI’s latest study puts a specialized coding AI against a scaled-up general model on competitive programming challenges to explore efficiency vs. specialization. Key findings:
- Generalist vs. specialist
- Reinforcement learning payoff
- Efficiency through scale
- Implication
논문 초록(Abstract)
대규모 언어 모델(LLM)에 강화 학습을 적용하면 복잡한 코딩 및 추론 작업에서 성능이 크게 향상된다는 것을 보여줍니다. 또한 2024년 국제 정보학 올림피아드(IOI)에서 경쟁하기 위해 수작업으로 설계된 추론 전략을 사용하는 도메인 전용 시스템인 o1-ioi와 범용 추론 모델인 OpenAI o1 및 초기 체크포인트인 o3를 비교합니다. 저희는 2024 IOI에서 o1-ioi로 실시간 경쟁을 펼쳤으며, 수작업으로 만든 시험 시간 전략을 사용하여 49번째 백분위수 안에 들었습니다. 완화된 경쟁 제약 조건에서 o1-ioi는 금메달을 획득했습니다. 그러나 o3와 같은 후기 모델을 평가할 때, 수작업으로 만든 도메인별 전략이나 완화된 제약 조건 없이도 o3가 금메달을 획득한 것으로 나타났습니다. 연구 결과에 따르면 o1-ioi와 같은 전문화된 파이프라인이 확실한 개선 효과를 제공하지만, 확장된 범용 o3 모델은 수작업으로 만든 추론 휴리스틱에 의존하지 않고도 이러한 결과를 능가하는 것으로 나타났습니다. 특히, o3는 2024 IOI에서 금메달을 획득하고 엘리트 인간 경쟁자들과 동등한 수준의 코드포스 등급을 획득했습니다. 전반적으로 이러한 결과는 도메인별 기술에 의존하지 않고 범용 강화 학습을 확장하는 것이 경쟁 프로그래밍과 같은 추론 영역에서 최첨단 AI를 향한 강력한 경로를 제공한다는 것을 보여줍니다.
We show that reinforcement learning applied to large language models (LLMs) significantly boosts performance on complex coding and reasoning tasks. Additionally, we compare two general-purpose reasoning models - OpenAI o1 and an early checkpoint of o3 - with a domain-specific system, o1-ioi, which uses hand-engineered inference strategies designed for competing in the 2024 International Olympiad in Informatics (IOI). We competed live at IOI 2024 with o1-ioi and, using hand-crafted test-time strategies, placed in the 49th percentile. Under relaxed competition constraints, o1-ioi achieved a gold medal. However, when evaluating later models such as o3, we find that o3 achieves gold without hand-crafted domain-specific strategies or relaxed constraints. Our findings show that although specialized pipelines such as o1-ioi yield solid improvements, the scaled-up, general-purpose o3 model surpasses those results without relying on hand-crafted inference heuristics. Notably, o3 achieves a gold medal at the 2024 IOI and obtains a Codeforces rating on par with elite human competitors. Overall, these results indicate that scaling general-purpose reinforcement learning, rather than relying on domain-specific techniques, offers a robust path toward state-of-the-art AI in reasoning domains, such as competitive programming.
논문 링크
더 읽어보기
https://x.com/arankomatsuzaki/status/1889522974467957033
효율적으로 추론하도록 언어 모델 학습시키기 / Training Language Models to Reason Efficiently
논문 소개
이 논문에서는 동적 계산 할당 기법을 통해, 모델이 문제 난이도에 따라 추론 단계(Chain-of-Thought)를 가변적으로 선택하도록 유도하는 방법을 제안합니다.
- 쉽게 해결할 수 있는 문제는 빠르게 결론을 내리고, 어려운 문제에는 더 많은 추론 단계를 할당해 효율성을 높입니다.
- RL을 사용하여 모델을 학습함으로써, 정답을 맞히는 동시에 계산 비용을 최소화하는 방향으로 스스로 학습합니다.
- 적은 단계로도 해결이 가능한 문제에 대해 불필요한 ‘오버씽킹’을 방지해 인퍼런스 비용이 크게 절감되면서 성능 손실은 거의 없는 결과가 나타났습니다.
A new RL approach teaches large reasoning models to allocate their reasoning effort efficiently, reducing wasted computation on easy problems. Key points include:
- Dynamic compute allocation
- RL-driven efficiency
- Big cost savings
- Efficient reasoning at scale
논문 초록(Abstract)
모델 크기와 학습 데이터의 확장은 대규모 언어 모델(LLM)의 성능에 큰 발전을 가져왔습니다. 그러나 이 접근법의 수익률이 감소함에 따라 특히 고급 추론이 필요한 작업에서 모델 기능을 개선할 수 있는 대안이 필요해졌습니다. 긴 생각의 사슬을 활용하는 대규모 추론 모델은 문제 해결 능력에서 전례 없는 혁신을 가져다주지만, 세대를 거듭할수록 상당한 구축 비용이 발생합니다. 추론 비용을 줄이는 것은 이러한 모델의 경제성, 사용자 경험, 환경적 지속 가능성을 위해 매우 중요합니다.
이 연구에서는 대규모 추론 모델을 효율적으로 추론할 수 있도록 훈련하는 방법을 제안합니다. 보다 정확하게는 강화 학습(RL)을 사용하여 추론 모델을 훈련시켜 작업 복잡도에 따라 추론 시간 계산을 동적으로 할당하는 것입니다. 이 방법은 정확성을 유지하면서 불필요한 계산 오버헤드를 최소화하도록 모델을 장려하여 상당한 효율성 향상을 달성합니다. 이를 통해 단일 하이퍼파라미터를 통해 제어되는 다양한 효율성 수준의 추론 모델 제품군을 도출할 수 있습니다. 두 개의 개방형 대규모 추론 모델에 대한 실험을 통해 정확도는 대부분 유지하면서 추론 비용을 크게 절감할 수 있음을 입증했습니다.
Scaling model size and training data has led to great advances in the performance of Large Language Models (LLMs). However, the diminishing returns of this approach necessitate alternative methods to improve model capabilities, particularly in tasks requiring advanced reasoning. Large reasoning models, which leverage long chain-of-thoughts, bring unprecedented breakthroughs in problem-solving capabilities but at a substantial deployment cost associated to longer generations. Reducing inference costs is crucial for the economic feasibility, user experience, and environmental sustainability of these models.
In this work, we propose to train large reasoning models to reason efficiently. More precisely, we use reinforcement learning (RL) to train reasoning models to dynamically allocate inference-time compute based on task complexity. Our method incentivizes models to minimize unnecessary computational overhead while maintaining accuracy, thereby achieving substantial efficiency gains. It enables the derivation of a family of reasoning models with varying efficiency levels, controlled via a single hyperparameter. Experiments on two open-weight large reasoning models demonstrate significant reductions in inference cost while preserving most of the accuracy.
논문 링크
더 읽어보기
https://x.com/omarsar0/status/1889328796224127428
LM2: 대규모 메모리 모델 / LM2: Large Memory Models
논문 소개
**LM2(Large Memory Models)**는 트랜스포머에 외부 메모리 모듈을 추가하여 장기 문맥 처리와 복잡한 추론 능력을 강화한 모델 아키텍처입니다.
- 모델이 전용 메모리 저장소에 정보를 읽고 쓰며, 이를 교차 어텐션을 통해 효과적으로 활용할 수 있습니다.
- BABILong과 같은 긴 맥락이 필요한 벤치마크에서 기존 대비 최대 86% 성능 향상을 보였으며, 일반 지식 테스트(MMLU)에서도 향상된 결과를 달성했습니다.
- 장시간 대화나 여러 단계를 거치는 추론 과제에서 모델이 목표를 오래 유지하고 일관성 있게 추론하도록 돕는 중요한 역할을 합니다.
Large Memory Models (LM2) is a transformer architecture augmented with an external memory module to tackle tasks requiring extensive reasoning and long context. Key highlights include:
- Memory-augmented transformer
- Superior long-term reasoning
- No trade-off in generality
- Alignment via memory
논문 초록(Abstract)
이 논문에서는 다단계 추론, 관계형 논증, 긴 컨텍스트에 분산된 정보 합성에서 표준 트랜스포머의 한계를 해결하기 위해 보조 메모리 모듈로 강화된 디코더 전용 트랜스포머 아키텍처인 대용량 메모리 모델(LM2)을 소개합니다. 제안된 LM2는 문맥 표현 저장소 역할을 하는 메모리 모듈을 통합하여 교차 주의를 통해 입력 토큰과 상호 작용하고 게이팅 메커니즘을 통해 업데이트합니다. 트랜스포머의 범용 기능을 유지하기 위해 LM2는 원래의 정보 흐름을 유지하면서 보완적인 메모리 경로를 통합합니다. BABILong 벤치마크의 실험 결과에 따르면 LM2 모델은 모든 작업에서 평균적으로 메모리 증강 RMT 모델보다 37.1%, 기본 모델인 Llama-3.2 모델보다 86.3% 더 뛰어난 성능을 보였습니다. LM2는 멀티 홉 추론, 수치 추론, 대규모 문맥 질문 답변에서 탁월한 성능을 발휘합니다. MMLU 데이터 세트에서는 사전 학습된 바닐라 모델에 비해 5.0%의 성능 향상을 달성하여 메모리 모듈이 일반적인 작업에서 성능을 저하시키지 않음을 입증했습니다. 또한, 분석에서는 메모리 해석 가능성, 메모리 모듈의 효율성, 테스트 시간 동작에 대해 살펴봅니다. 이러한 연구 결과는 Transformer 아키텍처를 개선하는 데 있어 명시적 메모리의 중요성을 강조합니다.
This paper introduces the Large Memory Model (LM2), a decoder-only Transformer architecture enhanced with an auxiliary memory module that aims to address the limitations of standard Transformers in multi-step reasoning, relational argumentation, and synthesizing information distributed over long contexts. The proposed LM2 incorporates a memory module that acts as a contextual representation repository, interacting with input tokens via cross attention and updating through gating mechanisms. To preserve the Transformers general-purpose capabilities, LM2 maintains the original information flow while integrating a complementary memory pathway. Experimental results on the BABILong benchmark demonstrate that the LM2model outperforms both the memory-augmented RMT model by 37.1% and the baseline Llama-3.2 model by 86.3% on average across tasks. LM2 exhibits exceptional capabilities in multi-hop inference, numerical reasoning, and large-context question-answering. On the MMLU dataset, it achieves a 5.0% improvement over a pre-trained vanilla model, demonstrating that its memory module does not degrade performance on general tasks. Further, in our analysis, we explore the memory interpretability, effectiveness of memory modules, and test-time behavior. Our findings emphasize the importance of explicit memory in enhancing Transformer architectures.
논문 링크
더 읽어보기
https://x.com/omarsar0/status/1889681118913577345
프롬프트 캐싱 감사하기 / Auditing Prompt Caching
논문 소개
스탠퍼드 연구진은 LLM API에서의 프롬프트 캐싱이 사용자 프롬프트를 타이밍 차이를 통해 노출시키는 보안 취약점을 지적했습니다.
- 글로벌 캐싱 정책을 적용할 경우, 이전에 입력된 프롬프트와 일치하거나 유사한 요청은 응답이 빨라지는 현상이 생길 수 있습니다. 공격자는 이를 이용해 다른 사용자 요청을 추정할 수 있습니다.
- 저자들은 통계적 감사 기법을 통해 캐싱이 발생하는지 검증하는 방법론을 제시했으며, 주요 API 공급자들이 이에 대응해 캐싱 정책을 변경했다고 보고합니다.
Researchers from Stanford investigate how timing differences in LLM APIs can leak private user information through global prompt caching. They propose statistical audits to detect caching and reveal potentially significant security risks. Key insights include:
- Side-channel timing attacks
- Statistical audit for detection
- Architecture leakage
- Responsible disclosure & mitigations
논문 초록(Abstract)
대규모 언어 모델(LLM)의 프롬프트 캐싱은 데이터에 따라 타이밍 차이가 발생하는데, 캐시된 프롬프트는 캐시되지 않은 프롬프트보다 더 빠르게 처리됩니다. 이러한 타이밍 차이는 사이드 채널 타이밍 공격의 위험을 초래합니다. 예를 들어, 캐시가 사용자 간에 공유되는 경우 공격자는 빠른 API 응답 시간에서 캐시된 프롬프트를 식별하여 다른 사용자의 프롬프트에 대한 정보를 알아낼 수 있습니다. 프롬프트 캐싱은 개인정보 유출의 원인이 될 수 있으므로 API 제공업체의 캐싱 정책에 대한 투명성이 중요합니다. 이를 위해 저희는 실제 LLM API 제공업체의 프롬프트 캐싱을 감지하기 위한 통계적 감사를 개발하고 수행합니다. OpenAI를 포함한 7개 API 제공업체에서 사용자 간 글로벌 캐시 공유를 감지하여 사용자의 프롬프트에 대한 잠재적인 개인정보 유출을 감지했습니다. 프롬프트 캐싱으로 인한 타이밍 변화도 모델 아키텍처에 대한 정보 유출을 초래할 수 있습니다. 즉, 이전에는 공개적으로 알려지지 않았던 OpenAI의 임베딩 모델이 디코더 전용 트랜스포머라는 증거를 발견했습니다.
Prompt caching in large language models (LLMs) results in data-dependent timing variations: cached prompts are processed faster than non-cached prompts. These timing differences introduce the risk of side-channel timing attacks. For example, if the cache is shared across users, an attacker could identify cached prompts from fast API response times to learn information about other users' prompts. Because prompt caching may cause privacy leakage, transparency around the caching policies of API providers is important. To this end, we develop and conduct statistical audits to detect prompt caching in real-world LLM API providers. We detect global cache sharing across users in seven API providers, including OpenAI, resulting in potential privacy leakage about users' prompts. Timing variations due to prompt caching can also result in leakage of information about model architecture. Namely, we find evidence that OpenAI's embedding model is a decoder-only Transformer, which was previously not publicly known.
논문 링크
더 읽어보기
https://x.com/omarsar0/status/1889685386856673463
뒤로 물러서서 앞으로 도약하기 / Step Back to Leap Forward
논문 소개
LLM의 추론 견고성을 높이기 위해, 모델이 자기 추론 과정 도중 **백트래킹(backtracking)**을 수행할 수 있도록 한 기법이 제안되었습니다.
- 전통적 탐색 알고리즘처럼, 모델이 어느 단계에서 “이전 단계가 틀렸다”고 판단하면 되돌아가 다른 경로를 시도할 수 있게 합니다.
- 이 과정에서 모델이 스스로 오류를 인식하고 수정하는 학습 프로세스를 거쳐 복잡한 문제에서도 높은 성공률을 기록합니다.
- 오답률이 높은 스텝에서 즉시 교정이 이뤄지므로, 연쇄적 오류를 줄이고 더욱 신뢰도 높은 해답을 도출합니다.
To boost the reasoning robustness of LLMs, researchers propose a “self-backtracking” mechanism that lets models revisit and revise their own intermediate reasoning steps. Key details:
- Inspiration from search algorithms
- Implementation
- Huge reasoning gains
- Towards resilient reasoners
논문 초록(Abstract)
느린 사고 메커니즘을 대규모 언어 모델(LLM)에 통합하면 OpenAI의 o1과 같은 시스템에서 볼 수 있듯이 레벨 2 AGI 리서처를 달성할 수 있는 유망한 방법이 될 수 있습니다. 그러나 비효율적인 과다 사고와 보조 보상 모델에 대한 과도한 의존 등 몇 가지 중요한 과제가 남아 있습니다. 이러한 한계는 효과적인 추론의 핵심 요소인 검색 프로세스를 내재화하지 못하는 LLM의 무능력에서 비롯된다는 점을 지적합니다. 이 문제를 해결하기 위한 중요한 단계는 LLM이 기존 검색 알고리즘의 기본 연산인 백트래킹 시점과 위치를 자율적으로 결정할 수 있도록 하는 것입니다. 이를 위해 학습과 추론 과정에서 LLM에 백트래킹 기능을 제공하는 셀프 백트래킹 메커니즘을 제안합니다. 이 메커니즘은 자기 개선을 통해 느린 사고 프로세스를 빠른 사고로 전환함으로써 추론 능력뿐만 아니라 효율성까지 향상시킵니다. 경험적 평가에 따르면 우리의 제안은 LLM의 추론 능력을 크게 향상시켜 최적 경로 감독 미세 조정 방식에 비해 40% 이상의 성능 향상을 달성했습니다. 이 연구는 더욱 발전되고 강력한 추론자를 개발할 수 있는 새롭고 유망한 경로를 제시했다고 생각합니다.
The integration of slow-thinking mechanisms into large language models (LLMs) offers a promising way toward achieving Level 2 AGI Reasoners, as exemplified by systems like OpenAI's o1. However, several significant challenges remain, including inefficient overthinking and an overreliance on auxiliary reward models. We point out that these limitations stem from LLMs' inability to internalize the search process, a key component of effective reasoning. A critical step toward addressing this issue is enabling LLMs to autonomously determine when and where to backtrack, a fundamental operation in traditional search algorithms. To this end, we propose a self-backtracking mechanism that equips LLMs with the ability to backtrack during both training and inference. This mechanism not only enhances reasoning ability but also efficiency by transforming slow-thinking processes into fast-thinking through self-improvement. Empirical evaluations demonstrate that our proposal significantly enhances the reasoning capabilities of LLMs, achieving a performance gain of over 40 percent compared to the optimal-path supervised fine-tuning method. We believe this study introduces a novel and promising pathway for developing more advanced and robust Reasoners.
논문 링크
더 읽어보기
https://x.com/omarsar0/status/1888967415444414802
LLM을 적응시키기 위한 추론 강화: SOLOMON 아키텍처 / Enhancing Reasoning to Adapt LLMs (SOLOMON)
논문 소개
IBM 연구진은 반도체 레이아웃 설계 등의 까다로운 공간 추론 문제에 대응하기 위해 SOLOMON이라는 신경영감형 LLM 구조를 개발했습니다.
- 여러 개의 “Thought Generators”(서로 다른 LLM)와 “Thought Assessor”를 결합한 다중 에이전트 방식으로, 단일 모델의 맹점이나 계산 실수를 상호 보완합니다.
- 특히 2D·3D 설계에서 단위 변환 오류, geometry 처리 오류 등 기존 LLM이 자주 범하는 실수를 크게 줄였습니다.
- 향후 여러 단계를 거치는 엔지니어링 및 디자인 업무에 적용 가능성을 시사합니다.
Researchers from IBM present SOLOMON, a neuro-inspired LLM reasoning network architecture that boosts domain adaptability—demonstrated on semiconductor layout design. Key insights include:
- SOLOMON architecture
- Spatial reasoning challenges
- Boost over strong baselines
- Future directions
논문 초록(Abstract)
이 논문에서는 도메인별 애플리케이션을 위한 기초 모델의 적응성을 향상시키는 새로운 신경 기반 대규모 언어 모델(LLM) 추론 네트워크 아키텍처인 SOLOMON을 소개합니다. 반도체 레이아웃 설계의 사례 연구를 통해 SOLOMON이 어떻게 프롬프트 엔지니어링과 인컨텍스트 학습 기술을 활용하여 범용 LLM을 특수 작업에 신속하게 적용할 수 있는지를 보여드립니다. 실험을 통해 공간 추론과 실제 문제에 도메인 지식을 적용하는 데 있어 LLM이 직면하는 어려움을 살펴봅니다. 실험 결과, 솔로몬 인스턴스는 기본 LLM 인스턴스보다 훨씬 뛰어난 성능을 보였으며 최첨단 추론 모델인 o1-preview와 비슷한 성능을 달성한 것으로 나타났습니다. 새로운 정보와 변화하는 요구사항에 대응하여 지속적으로 학습하고 적응하며 진화할 수 있는 적응형 AI 시스템 개발을 위한 향후 연구 방향에 대해 논의합니다.
This paper presents SOLOMON, a novel Neuro-inspired Large Language Model (LLM) Reasoning Network architecture that enhances the adaptability of foundation models for domain-specific applications. Through a case study in semiconductor layout design, we demonstrate how SOLOMON enables swift adaptation of general-purpose LLMs to specialized tasks by leveraging Prompt Engineering and In-Context Learning techniques. Our experiments reveal the challenges LLMs face in spatial reasoning and applying domain knowledge to practical problems. Results show that SOLOMON instances significantly outperform their baseline LLM counterparts and achieve performance comparable to state-of-the-art reasoning model, o1-preview. We discuss future research directions for developing more adaptive AI systems that can continually learn, adapt, and evolve in response to new information and changing requirements.
논문 링크
더 읽어보기
https://x.com/omarsar0/status/1888985789880758426
ReasonFlux: 사고 템플릿 확장을 통한 계층적 LLM 추론 / ReasonFlux: Hierarchical LLM Reasoning via Scaling Thought Templates
논문 소개
ReasonFlux 프레임워크는 체계화된 사고 단계를 미리 정의해둔 템플릿 라이브러리를 활용해 LLM을 효율적으로 미세 조정하는 방법을 제시합니다.
- 약 500개의 “사고 템플릿”을 구성해, 모델이 문제 해결 시 해당 템플릿들을 조합하여 추론 과정을 구성합니다.
- 체계적인 강화학습을 통해, 모델은 어떤 템플릿을 어떤 순서로 사용할지 학습하여 복잡한 문제를 보다 신속하고 정확하게 해결합니다.
- 실제 MATH, AIME 등 수학 문제 벤치마크에서 최고 수준의 성능을 기록했으며, 상대적으로 적은 GPU 자원으로도 높은 정확도를 달성했습니다.
The ReasonFlux framework is introduced as an efficient way to fine-tune LLMs for complex reasoning, using hierarchical thought processes. Highlights include:
- Thought template library
- Hierarchical planning via RL
- Inference-time adaptation
- State-of-the-art results
논문 초록(Abstract)
우리는 사고 템플릿 확장을 통한 계층적 LLM 추론이 추론 검색 공간을 효과적으로 최적화하고 OpenAI o1-preview 및 DeepSeek V3와 같은 강력한 LLM의 수학적 추론 기능을 능가할 수 있음을 제시합니다. 단 8개의 GPU로 ReasonFlux-32B 모델을 훈련하고 (i) 유사하거나 관련성이 높은 추론 문제로 일반화할 수 있는 약 500개의 높은 수준의 사고 템플릿을 포함하는 구조화되고 일반적인 사고 템플릿 라이브러리, (ii) 긴 CoT 대신 일련의 사고 템플릿에 계층적 강화 학습을 수행하여 복잡한 문제를 점차적으로 처리하기 위한 최적의 템플릿 궤적을 계획하도록 기본 LLM을 최적화, (iii) 추론 시 사고 템플릿을 적응적으로 확장하여 계층적 LLM 추론을 가능하게 하는 새로운 추론 확장 시스템 등 3가지 혁신을 도입하고 있습니다. 순차적 사고 템플릿을 포함하는 템플릿 궤적을 통해 ReasonFlux-32B는 수학 추론 기능을 최첨단 수준으로 크게 발전시켰습니다. 특히 수학 벤치마크에서 91.2%의 정확도를 달성하고 o1-preview를 6.7% 능가하는 결과를 얻었습니다. 미국 수학 올림피아드(AIME) 벤치마크에서 ReasonFlux-32B는 평균 56.7%의 문제를 해결하여 o1-preview와 DeepSeek-V3를 각각 27%, 45% 능가합니다. 코드는 이 https URL에 있습니다.
We present that hierarchical LLM reasoning via scaling thought templates can effectively optimize the reasoning search space and outperform the mathematical reasoning capabilities of powerful LLMs like OpenAI o1-preview and DeepSeek V3. We train our ReasonFlux-32B model with only 8 GPUs and introduces three innovations: (i) a structured and generic thought template library, containing around 500 high-level thought templates capable of generalizing to similar or relevant reasoning problems; (ii) performing hierarchical reinforcement learning on a sequence of thought templates instead of long CoTs, optimizing a base LLM to plan out an optimal template trajectory for gradually handling complex problems; (iii) a brand new inference scaling system that enables hierarchical LLM reasoning by adaptively scaling thought templates at inference time. With a template trajectory containing sequential thought templates, our ReasonFlux-32B significantly advances math reasoning capabilities to state-of-the-art levels. Notably, on the MATH benchmark, it achieves an accuracy of 91.2% and surpasses o1-preview by 6.7%. On the USA Math Olympiad (AIME) benchmark, ReasonFlux-32B solves an average of 56.7% of problems, surpassing o1-preview and DeepSeek-V3 by 27% and 45%, respectively. Code: this https URL
논문 링크
더 읽어보기
https://x.com/omarsar0/status/1889343676272525600
원문
- 이 글은 GPT 모델로 정리한 것으로, 잘못된 부분이 있을 수 있으니 글 아래쪽의 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.*
파이토치 한국 사용자 모임
이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일
로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)
아래
쪽에 좋아요
를 눌러주시면 뉴스 발행에 힘이 됩니다~