[2026/04/27 ~ 05/03] 이번 주에 살펴볼 만한 AI/ML 논문 모음
PyTorchKR


이번 주 선정된 주요 논문들에서는 다음과 같은 주요 트렌드를 살펴볼 수 있습니다:
-
멀티에이전트와 에이전트 시스템의 “구조화된 협업” 고도화: 단순히 여러 에이전트를 붙이는 수준을 넘어, 협업 과정을 재귀 계산, 관측 가능성, 자기진화형 지식 축적로 설계하려는 흐름이 뚜렷합니다. Recursive Multi-Agent Systems, Agentic Harness Engineering, AgenticRecTune은 각각 추론, 코딩, 추천 최적화에서 에이전트 간 상호작용 자체를 학습 가능한 시스템으로 다룹니다. -
모델 성능 향상 방식이 “아키텍처 전이”와 “내부 신호 활용”으로 이동: 새로운 모델을 처음부터 키우기보다, 기존 트랜스포머 지식을 Mamba로 옮기거나, 모델 내부의 자신감 신호를 활용해 오류 탐지와 수정을 유도하는 연구가 두드러집니다. Attention to Mamba와 How LLMs Detect and Correct Their Own Errors는 지식 증류와 내부 신호 해석을 통해 더 효율적이고 설명 가능한 성능 향상을 추구합니다. -
안전성, 공정성, 프라이버시가 에이전트 시대의 핵심 설계 제약으로 부상: 생성 품질만이 아니라, 누가 이 모델을 쓰고 누가 평가하는지, 어떤 데이터에 접근하는지까지 포함한 상호작용 안전성이 중요해지고 있습니다. AI Self-preferencing in Algorithmic Hiring은 AI-AI 상호작용 편향을, Reinforcement Learning with Backtracking Feedback은 안전 위반 복구 능력을, An AI Agent Execution Environment to Safeguard User Data는 결정적 프라이버시 보장을 각각 다루며, 에이전트형 시스템의 신뢰성 요구가 한층 높아졌음을 보여 줍니다.
선정된 10편의 논문의 핵심 요약은 다음과 같습니다:
- Recursive Multi-Agent Systems: 여러 에이전트의 협업을 잠재공간의 재귀 계산으로 재구성한 RecursiveMAS를 제안해, 정확도와 추론 효율을 동시에 개선했습니다.
- Attention to Mamba: A Recipe for Cross-Architecture Distillation: 트랜스포머의 지식을 Mamba 계열 상태 공간 모델(SSM)로 옮기기 위한 2단계 증류 레시피를 제시해, 성능 보존과 확장성을 입증했습니다.
- AI Self-preferencing in Algorithmic Hiring: 채용 맥락에서 LLM이 자신 또는 유사한 스타일로 생성된 이력서를 선호하는 자기 선호 편향을 실증적으로 보여 주었습니다.
- Agentic Harness Engineering: 코딩 에이전트 하니스(harness) 자체를 관측 가능성 중심으로 자동 진화시키는 프레임워크를 제안해, 벤치마크 성능을 지속적으로 끌어올렸습니다.
- Reinforcement Learning with Backtracking Feedback: 생성 중 안전 위반을 감지하면 이전 토큰으로 되돌아가 재생성하는 RLBF를 통해, 거부 중심이 아닌 복구 중심 안전 정렬을 제시했습니다.
- How LLMs Detect and Correct Their Own Errors: 답변 직후의 내부 신호인 PANL이 오류 탐지와 자기 수정을 설명하는 2차 신뢰도 신호임을 보였습니다.
- Image Generators are Generalist Vision Learners: 이미지 생성 사전학습이 시각 이해까지 일반화된 표현을 학습한다는 점을 보이며, 생성 모델을 통합 비전 모델로 확장했습니다.
- AgenticRecTune: 추천 시스템의 시스템 레벨 설정을 다중 에이전트와 자기진화형 Skillhub로 자동 최적화하는 엔드투엔드 접근을 제안했습니다.
- Improving Large-Scale Recommender Systems with Auxiliary Learning: 분포가 다른 사용자 코호트를 찾아 보조 학습으로 공유 표현을 정규화해, 소수 집단 성능을 개선했습니다.
- An AI Agent Execution Environment to Safeguard User Data: 에이전트 실행 환경에서 정보 흐름 제어와 권한 명세를 결합해, 프롬프트 인젝션과 데이터 유출을 결정적으로 차단하는 GAAP를 제안했습니다.
재귀적 멀티에이전트 시스템 / Recursive Multi-Agent Systems
논문 소개
복잡한 추론 과제에서 대규모 언어 모델(Large Language Model, LLM)은 여전히 용량 한계와 비효율적인 탐색 문제를 드러내기 쉬운데, 이를 보완하기 위해 최근에는 여러 전문 에이전트를 조합하는 멀티에이전트 시스템(Multi-Agent System, MAS)이 활발히 연구되고 있습니다. 그러나 기존의 MAS는 주로 텍스트 기반 상호작용과 순차적 프롬프트 전달에 의존해 왔기 때문에, 협업 과정 자체를 하나의 통합된 계산 구조로 최적화하는 데에는 한계가 있었습니다. Recursive Multi-Agent Systems는 이러한 문제를 재귀적 언어 모델(Recursive Language Model, RLM)의 관점에서 다시 해석하며, 에이전트 협업 역시 반복적으로 정교화될 수 있는 스케일링 축이라는 점을 제안합니다. 이를 위해 제안된 RecursiveMAS는 전체 시스템을 잠재공간(latent space)에서 수행되는 재귀 계산으로 정의하고, 서로 다른 역할과 구조를 가진 에이전트들을 경량 모듈인 RecursiveLink로 연결합니다. 이 모듈은 중간 단계의 협업을 텍스트가 아니라 잠재 상태 수준에서 전달하게 하여, 분포 내(in-distribution) 잠재 사고를 생성하고 에이전트 간 의미 정보를 보다 안정적으로 교환하도록 설계되었습니다.
핵심 방법론의 또 다른 축은 inner-outer loop 학습입니다. 내부 루프(inner loop)에서는 각 에이전트가 잠재 사고를 생성하는 표현 공간에 적응하도록 정렬하고, 외부 루프(outer loop)에서는 재귀 라운드 전체를 하나의 공동 최적화 대상으로 삼아 시스템 수준의 성능을 끌어올립니다. 특히 공유 그래디언트 기반 신용 할당(credit assignment)을 통해 각 재귀 단계의 기여가 역전파 과정에 반영되도록 하여, 단순한 반복 실행이 아니라 학습 가능한 재귀 협업 구조를 구현한 점이 인상적입니다. 저자들은 이러한 설계가 텍스트를 매개로 하는 기존 MAS보다 런타임 복잡도와 학습 동역학 측면에서 더 안정적이라고 분석하며, 재귀 학습에서도 그래디언트가 소실되지 않고 효율적으로 전달될 수 있음을 이론적으로 보입니다. 더 나아가 이 프레임워크는 Sequential, Mixture, Distillation, Deliberation과 같은 네 가지 대표 협업 패턴에 모두 적용 가능해, 특정한 파이프라인에 국한되지 않는 일반성을 확보했습니다.
실험적으로 RecursiveMAS는 수학, 과학, 의학, 검색 질의응답, 코드 생성 등 9개 벤치마크에서 평가되었으며, 강력한 단일 모델과 기존 멀티에이전트 및 재귀 계산 기반 방법들보다 평균 8.3%의 정확도 향상을 달성했습니다. 또한 종단 간 추론 속도는 1.2배에서 2.4배까지 빨라졌고, 토큰 사용량은 34.6%에서 75.6%까지 줄어들어, 정확도와 효율을 동시에 개선하는 드문 결과를 보여 주었습니다. 이러한 결과는 재귀가 단일 모델 내부의 추론 깊이를 늘리는 데서 그치지 않고, 여러 에이전트가 협력하는 시스템 전체의 사고 과정을 정련하는 데도 강력한 스케일링 원리로 작동할 수 있음을 시사합니다. 결국 RecursiveMAS는 멀티에이전트 협업을 잠재공간 재귀 계산으로 재구성함으로써, 더 적은 텍스트로 더 깊이 사고하고 더 안정적으로 수렴하는 새로운 협업 패러다임을 제시했다고 볼 수 있습니다.
초록(Abstract)
반복적 또는 루프형 언어 모델은 최근 잠재 상태에 걸쳐 동일한 모델 계산을 반복적으로 정제함으로써 추론을 심화하는 새로운 스케일링 축으로 부상했다. 우리는 이러한 스케일링 원리를 단일 모델에서 멀티에이전트 시스템으로 확장하며, 에이전트 협업 자체도 재귀를 통해 스케일링될 수 있는지 묻는다. 이를 위해 우리는 전체 시스템을 통합된 잠재 공간 재귀 계산으로 간주하는 재귀적 멀티에이전트 프레임워크인 RecursiveMAS를 제안한다. RecursiveMAS는 경량 RecursiveLink 모듈을 통해 이질적인 에이전트들을 협업 루프로 연결하여, 분포 내 잠재적 사고(latent thoughts) 생성과 에이전트 간 잠재 상태 전이를 가능하게 한다. 우리의 프레임워크를 최적화하기 위해, 우리는 재귀 라운드 전반에 걸쳐 공유되는 그래디언트 기반 크레딧 할당을 통해 반복적인 전체 시스템 공동 최적화를 수행하는 내부-외부 루프 학습 알고리즘을 개발한다. 런타임 복잡도와 학습 동역학에 대한 이론적 분석은 RecursiveMAS가 표준 텍스트 기반 멀티에이전트 시스템(MAS)보다 더 효율적이며, 재귀적 학습 동안 안정적인 그래디언트를 유지함을 보인다. 실증적으로는 RecursiveMAS를 4가지 대표적인 에이전트 협업 패턴 아래에서 구현하고, 수학, 과학, 의학, 검색, 코드 생성에 걸친 9개 벤치마크에서 평가한다. 고도화된 단일/멀티에이전트 및 재귀 계산 기준선과 비교했을 때, RecursiveMAS는 평균 8.3%의 정확도 향상을 일관되게 제공하며, 1.2$\times$-2.4$\times$ 의 엔드투엔드 추론 속도 향상과 34.6%-75.6%의 토큰 사용량 감소도 달성한다. 코드와 데이터는 https://recursivemas.github.io 에 제공된다.
Recursive or looped language models have recently emerged as a new scaling axis by iteratively refining the same model computation over latent states to deepen reasoning. We extend such scaling principle from a single model to multi-agent systems, and ask: Can agent collaboration itself be scaled through recursion? To this end, we introduce RecursiveMAS, a recursive multi-agent framework that casts the entire system as a unified latent-space recursive computation. RecursiveMAS connects heterogeneous agents as a collaboration loop through the lightweight RecursiveLink module, enabling in-distribution latent thoughts generation and cross-agent latent state transfer. To optimize our framework, we develop an inner-outer loop learning algorithm for iterative whole-system co-optimization through shared gradient-based credit assignment across recursion rounds. Theoretical analyses of runtime complexity and learning dynamics establish that RecursiveMAS is more efficient than standard text-based MAS and maintains stable gradients during recursive training. Empirically, we instantiate RecursiveMAS under 4 representative agent collaboration patterns and evaluate across 9 benchmarks spanning mathematics, science, medicine, search, and code generation. In comparison with advanced single/multi-agent and recursive computation baselines, RecursiveMAS consistently delivers an average accuracy improvement of 8.3%, together with 1.2$\times$-2.4$\times$ end-to-end inference speedup, and 34.6%-75.6% token usage reduction. Code and Data are provided in https://recursivemas.github.io.
논문 링크
더 읽어보기
어텐션에서 Mamba로: 크로스 아키텍처 증류를 위한 레시피 / Attention to Mamba: A Recipe for Cross-Architecture Distillation
논문 소개
Mamba와 같은 상태 공간 모델(SSM)은 어텐션 기반 트랜스포머(Transformer)보다 메모리 사용량이 적고 생성 시 처리량이 높아, 최근 트랜스포머의 대안으로 주목받고 있습니다. 하지만 기존 트랜스포머는 학습 방법과 사전학습 모델이 매우 잘 축적되어 있어, 이를 SSM으로 효과적으로 옮기는 방법이 중요합니다.
연구자들은 어텐션 기반 모델을 Mamba 계열 아키텍처로 증류(distillation)하는 효과적인 절차를 찾고자 했습니다. 기존의 단순한 교차-아키텍처 증류는 교사 모델의 성능을 충분히 보존하지 못하는 경우가 많았으며, 이를 보완하기 위해 어텐션과 SSM 블록을 섞는 하이브리드 방식이 사용되어 왔습니다.
이 연구의 핵심은 Mamba에 원리적인 초기화(principled initialization)를 적용하면, 더 나은 교차-아키텍처 증류 레시피를 얻을 수 있다는 점입니다. 이를 위해 먼저 트랜스포머의 지식을 커널 트릭을 응용한 선형화된 어텐션으로 옮기고, 이어서 그 선형화된 표현을 어텐션 블록 없이 수정된 Mamba 모델로 다시 증류하는 2단계 방법을 제안합니다.
그 결과, 증류된 Mamba 모델은 다운스트림 태스크에서 Pythia-1B 트랜스포머의 성능을 잘 보존했으며, 퍼플렉서티도 교사 모델의 13.86에 가까운 14.11을 달성했습니다.
또한 10B 토큰, 1B 규모 실험을 통해 시퀀스 믹서 구조, 모델 크기, 증류 토큰 수, 단계별 토큰 배분에 대한 민감도와 확장성까지 체계적으로 검증했습니다.
초록(Abstract)
Mamba와 같은 상태 공간 모델(State Space Models, SSMs)은 어텐션 기반 모델에 비해 메모리 사용량이 적고 생성 시 처리량이 높기 때문에, 트랜스포머 모델의 대안으로 큰 주목을 받아 왔습니다. 반면, 커뮤니티는 트랜스포머를 학습하는 방법에 대해 상당한 지식을 축적해 왔으며, 많은 사전학습된 트랜스포머 모델을 쉽게 이용할 수 있습니다. SSM의 도입을 촉진하는 동시에 기존 사전학습 트랜스포머를 활용하기 위해, 우리는 어텐션 기반 모델을 Mamba 유사 아키텍처로 지식 증류하는 효과적인 레시피를 찾고자 합니다. 그러나 교차 아키텍처 지식 증류에 대한 선행 연구에서는 트랜스포머에서 Mamba로의 단순한 지식 증류 절차가 원래의 교사 모델 성능을 보존하지 못한다는 점이 밝혀졌으며, 이러한 한계는 어텐션과 SSM 블록을 결합한 하이브리드 해법으로 종종 극복되어 왔습니다. 본 연구의 핵심 주장은, Mamba에 원리 있는 초기화(principled initialization)를 적용하면 교차 아키텍처 지식 증류를 위한 전반적으로 더 나은 레시피를 얻을 수 있다는 점입니다. 이를 위해 우리는 두 단계로 이루어진 원칙적인 접근법을 제안합니다. 먼저 커널 트릭(kernel trick)의 변형을 활용해 전통적인 트랜스포머의 지식을 어텐션의 선형화된 버전으로 증류합니다. 그런 다음 이 선형화된 버전을 어텐션 블록을 전혀 사용하지 않는 적응된 Mamba 모델로 다시 증류합니다. 전체적으로, 이렇게 증류된 Mamba 모델은 다운스트림 태스크에서 원래의 Pythia-1B 트랜스포머 성능을 보존할 수 있으며, 퍼플렉서티 14.11을 달성해 교사 모델의 13.86에 근접한 성능을 유지합니다. 이 레시피의 효과를 보이기 위해, 우리는 1B 규모에서 100억 토큰을 사용해 시퀀스 믹서 아키텍처를 변화시키는 철저한 어블레이션, 모델 크기와 총 지식 증류 토큰에 대한 스케일링 분석, 그리고 단계 간 토큰 할당에 대한 민감도 분석을 수행합니다.
State Space Models (SSMs) such as Mamba have become a popular alternative to Transformer models, due to their reduced memory consumption and higher throughput at generation compared to their Attention-based counterparts. On the other hand, the community has built up a considerable body of knowledge on how to train Transformers, and many pretrained Transformer models are readily available. To facilitate the adoption of SSMs while leveraging existing pretrained Transformers, we aim to identify an effective recipe to distill an Attention-based model into a Mamba-like architecture. In prior work on cross-architecture distillation, however, it has been shown that a naïve distillation procedure from Transformers to Mamba fails to preserve the original teacher performance, a limitation often overcome with hybrid solutions combining Attention and SSM blocks. The key argument from our work is that, by equipping Mamba with a principled initialization, we can recover an overall better recipe for cross-architectural distillation. To this end, we propose a principled two-stage approach: first, we distill knowledge from a traditional Transformer into a linearized version of Attention, using an adaptation of the kernel trick. Then, we distill the linearized version into an adapted Mamba model that does not use any Attention block. Overall, the distilled Mamba model is able to preserve the original Pythia-1B Transformer performance in downstream tasks, maintaining a perplexity of 14.11 close to the teacher's 13.86. To show the efficacy of our recipe, we conduct thorough ablations at 1B scale with 10B tokens varying sequence mixer architecture, scaling analysis on model sizes and total distillation tokens, and a sensitivity analysis on tokens allocation between stages.
논문 링크
알고리즘 채용에서의 AI 자기 선호 현상: 실증적 근거와 시사점 / AI Self-preferencing in Algorithmic Hiring: Empirical Evidence and Insights
논문 소개
대규모 언어 모델(LLM)이 콘텐츠를 생성하는 도구를 넘어 그 콘텐츠를 평가하는 도구로까지 확장되면서, 인공지능(AI) 시스템 간 상호작용에서 새로운 형태의 편향이 나타날 수 있다는 문제가 제기됩니다. 이 연구는 특히 채용이라는 고위험 의사결정 맥락에서, LLM이 자신이 생성했거나 자신과 유사한 스타일의 이력서를 체계적으로 더 높게 평가하는지에 주목합니다. 저자들은 이를 self-preference bias 또는 self-preferencing으로 정의하며, 기존의 공정성 논의가 주로 성별이나 인종과 같은 인구통계학적 차별에 머물러 있었다는 점에서 한 걸음 더 나아가, AI가 생성자이자 평가자로 동시에 작동할 때 발생하는 상호작용적 편향을 실증적으로 규명합니다. 이러한 문제의식을 검증하기 위해, 2,245개의 인간 작성 이력서를 기반으로 여러 최첨단 LLM이 생성한 대응 이력서를 만들고, 내용의 질을 최대한 통제한 상태에서 평가 결과가 어떻게 달라지는지 관찰하는 대규모 통제 실험을 설계했습니다. 이때 GPT-4o, GPT-4o-mini, GPT-4-turbo, LLaMA 3.3-70B, Mistral-7B, Qwen 2.5-72B, DeepSeek-V3 등 상용 및 오픈소스 모델을 폭넓게 포함하여, 특정 모델에 한정되지 않는 구조적 경향인지 확인했습니다.
방법론의 핵심은 동일한 정보가 담긴 이력서라도 생성 주체만 인간인지, 혹은 특정 LLM인지에 따라 평가가 달라지는지를 분리해 측정한 데 있습니다. 이를 위해 저자들은 LLM-vs-Human 비교와 LLM-vs-LLM 비교를 구분하여, 인간 작성본에 대한 불이익과 모델 간 자기 선호가 각각 어떻게 나타나는지 세밀하게 분석했습니다. 그 결과 대부분의 주요 모델에서 자기 생성 이력서에 대한 선호가 강하게 나타났으며, 특히 인간이 작성한 이력서에 대한 편향은 상당히 컸습니다. 초록에서 제시된 바와 같이 self-preference bias는 주요 모델 전반에서 약 67%에서 82%에 이르는 수준으로 관찰되었고, 이는 내용의 우수성만으로 설명되기 어려운 체계적 차이임을 보여줍니다. 더 나아가 저자들은 이 편향이 실제 노동시장에 미칠 파급력을 평가하기 위해 24개 직업군을 대상으로 채용 파이프라인 시뮬레이션을 수행했으며, 그 결과 평가자와 동일한 LLM을 사용해 이력서를 다듬은 지원자는 동등한 자격을 갖추고도 인간 작성 이력서를 제출한 지원자보다 23%에서 60% 더 높은 shortlist 확률을 보였습니다.
이러한 결과는 특히 sales, accounting과 같은 비즈니스 관련 직무에서 더 두드러졌으며, AI 도구의 선택 자체가 채용 기회를 좌우하는 새로운 불평등 구조로 이어질 수 있음을 시사합니다. 동시에 저자들은 간단한 개입만으로도 이 편향을 절반 이상 줄일 수 있음을 보여 주어, self-preference가 구조적이지만 완전히 불가피한 현상은 아님을 입증했습니다. 결국 이 연구는 LLM 기반 채용이 효율성을 높일 수 있다는 기대 이면에, 평가자와 지원자가 같은 AI를 사용할 때 발생하는 보이지 않는 편향이 존재한다는 점을 분명히 드러냅니다. 나아가 AI 공정성의 범위를 사람 집단 간 차별에서 AI-AI 상호작용의 공정성까지 확장해야 한다는 중요한 문제 제기를 통해, 향후 자동화된 의사결정 시스템 설계와 감사 기준에 새로운 기준점을 제시합니다.
초록(Abstract)
인공지능(AI) 도구가 널리 채택되면서, 대규모 언어 모델(LLM)은 채용부터 콘텐츠 중재에 이르기까지 의사결정 과정의 양측 모두에 점점 더 많이 관여하고 있다. 이러한 양방향 채택은 중요한 질문을 제기한다. LLM은 자신이 생성한 출력과 유사한 콘텐츠를 체계적으로 선호하는가? 컴퓨터 과학 분야의 기존 연구는 LLM이 자신이 생성한 콘텐츠를 선호하는 경향인 자기 선호 편향(self-preference bias)을 확인했지만, 그 실제적 함의는 아직 실증적으로 평가되지 않았다. 우리는 구직자가 이력서를 다듬는 데 LLM을 활용하고, 고용주도 동일한 이력서를 선별하는 데 LLM을 사용하는 채용 맥락에 주목한다. 대규모 통제 이력서 대응 실험을 통해, 우리는 콘텐츠 품질을 통제하더라도 LLM이 인간이 작성한 이력서나 다른 모델이 생성한 이력서보다 자신이 생성한 이력서를 일관되게 더 선호한다는 사실을 확인했다. 인간이 작성한 이력서에 대한 편향은 특히 두드러졌으며, 주요 상용 및 오픈소스 모델 전반에서 자기 선호 편향은 67%에서 82%에 이르렀다. 노동시장에 미치는 영향을 평가하기 위해, 우리는 24개 직종에 걸쳐 현실적인 채용 파이프라인을 시뮬레이션했다. 이 시뮬레이션 결과, 평가자와 동일한 LLM을 사용한 지원자는 인간이 작성한 이력서를 제출한 동등한 자격의 지원자보다 최종 후보로 선정될 가능성이 23%에서 60% 더 높았으며, 특히 영업과 회계 같은 비즈니스 관련 분야에서 가장 큰 불이익이 관찰되었다. 또한 우리는 LLM의 자기 인식 능력을 겨냥한 간단한 개입만으로 이러한 편향을 50% 이상 줄일 수 있음을 보였다. 이러한 결과는 AI가 지원하는 의사결정에서 새롭게 부상했지만 이전에는 간과되었던 위험을 부각하며, 인구통계학적 격차뿐 아니라 AI-AI 상호작용에서의 편향까지 다루는 AI 공정성의 확장된 프레임워크가 필요함을 시사한다.
As artificial intelligence (AI) tools become widely adopted, large language models (LLMs) are increasingly involved on both sides of decision-making processes, ranging from hiring to content moderation. This dual adoption raises a critical question: do LLMs systematically favor content that resembles their own outputs? Prior research in computer science has identified self-preference bias -- the tendency of LLMs to favor their own generated content -- but its real-world implications have not been empirically evaluated. We focus on the hiring context, where job applicants often rely on LLMs to refine resumes, while employers deploy them to screen those same resumes. Using a large-scale controlled resume correspondence experiment, we find that LLMs consistently prefer resumes generated by themselves over those written by humans or produced by alternative models, even when content quality is controlled. The bias against human-written resumes is particularly substantial, with self-preference bias ranging from 67% to 82% across major commercial and open-source models. To assess labor market impact, we simulate realistic hiring pipelines across 24 occupations. These simulations show that candidates using the same LLM as the evaluator are 23% to 60% more likely to be shortlisted than equally qualified applicants submitting human-written resumes, with the largest disadvantages observed in business-related fields such as sales and accounting. We further demonstrate that this bias can be reduced by more than 50% through simple interventions targeting LLMs' self-recognition capabilities. These findings highlight an emerging but previously overlooked risk in AI-assisted decision making and call for expanded frameworks of AI fairness that address not only demographic-based disparities, but also biases in AI-AI interactions.
논문 링크
에이전틱 하니스 엔지니어링(AHE): 관찰성 기반 코딩 에이전트 하니스의 자동 진화 / Agentic Harness Engineering: Observability-Driven Automatic Evolution of Coding-Agent Harnesses
논문 소개
코딩 에이전트의 성능은 기반 모델의 능력만으로 결정되지 않으며, 저장소와 도구, 실행 환경을 어떻게 엮어 주는 하니스(harness) 설계에 따라 크게 달라진다는 점에서 출발하는 논문입니다. 저자들은 하니스 엔지니어링을 자동화하려 할 때, 편집 가능한 구성요소가 이질적으로 흩어져 있고, 평가 신호는 희소하며 잡음이 크고, 롤아웃 궤적은 수백만 토큰 규모로 방대해져서 어떤 수정이 성능 변화를 만들었는지 추적하기 어렵다는 문제를 지적합니다. 이를 해결하기 위해 제안한 Agentic Harness Engineering(AHE)은 하니스 진화를 단순한 시행착오가 아니라, 관측 가능성(observability)을 중심으로 한 검증 가능한 엔지니어링 루프로 재구성합니다. 구체적으로는 첫째, component observability를 통해 편집 가능한 하니스 구성요소를 파일 단위로 드러내어 액션 공간을 명시적이고 되돌릴 수 있게 만들고, 둘째, experience observability를 통해 방대한 원시 trajectory를 계층화된 증거 코퍼스로 압축하여 진화 에이전트가 실제로 활용할 수 있는 형태로 바꿉니다. 셋째, decision observability는 각 편집에 자기 선언적 예측을 부여한 뒤 다음 라운드의 태스크 결과로 이를 검증하게 하여, 모든 수정이 반증 가능한 계약(falsifiable contract)이 되도록 설계합니다.
이러한 구조의 핵심은 하니스 개선을 단순히 “수정 후 결과 확인”하는 과정이 아니라, 편집 의도와 근거, 그리고 그 결과를 하나의 추적 가능한 체계로 묶는 데 있습니다. 다시 말해, AHE는 모델이 직접 학습해야 할 대상이 프롬프트나 파라미터 내부에만 있는 것이 아니라, 도구 선택, 미들웨어, 메모리, 실행 절차 같은 주변 인프라에도 존재한다고 보고, 이를 지속적으로 진화 가능한 적응 표면으로 전환합니다. 실험적으로는 Terminal-Bench 2에서 10회 반복 후 pass@1을 69.7%에서 77.0%로 끌어올려 인간이 설계한 Codex-CLI의 71.9%를 넘었고, 자기 진화 계열 기준선인 ACE와 TF-GRPO보다도 우수한 성과를 보였습니다. 특히 한 번 진화한 하니스는 재진화 없이도 다른 벤치마크와 다른 모델 계열로 전이되었으며, SWE-bench-verified에서는 더 적은 토큰으로 더 높은 성공률을 기록했고, Terminal-Bench 2에서는 세 개의 대체 모델 패밀리에서 일관된 교차 향상을 보여 주었습니다. 이는 AHE가 특정 벤치마크에 맞춘 국소 최적화라기보다, 여러 모델과 과업에 공통으로 작동하는 하니스 수준의 일반적 엔지니어링 경험을 축적하고 있음을 시사합니다. 또한 절제 실험에서는 도구, 미들웨어, 장기 메모리 같은 구성요소가 각각 독립적으로 성능에 기여했으며, 시스템 프롬프트만 조정하는 방식은 오히려 성능 저하를 낳을 수 있음을 보여 주었습니다. 결과적으로 이 연구는 코딩 에이전트의 다음 단계가 더 큰 모델이나 더 긴 프롬프트만이 아니라, 관측 가능하고 검증 가능한 하니스 자체를 자율적으로 진화시키는 데 있다는 점을 설득력 있게 제시합니다.
초록(Abstract)
하네스는 코딩 에이전트 성능의 핵심 결정 요인이 되어, 모델이 저장소, 도구, 실행 환경과 상호작용하는 방식을 좌우한다. 그러나 하네스 엔지니어링을 자동화하는 일은 어렵다. 이질적인 행동 공간, 희소하고 잡음이 많은 평가 신호, 수백만 토큰에 이르는 궤적, 그리고 그 효과를 다음 라운드의 결과에 귀속시키기 어려운 편집 때문입니다. 우리는 에이전틱 하네스 엔지니어링(Agentic Harness Engineering, AHE)을 소개한다. 이는 어떤 엔지니어링 루프든 세 단계, 즉 컴포넌트 편집, 궤적 점검, 의사결정을 관측 가능성의 세 축과 정합된 방식으로 계측하여 하네스 수준의 진화를 자동화하는 프레임워크다. (1) 컴포넌트 관측 가능성은 편집 가능한 모든 하네스 컴포넌트에 파일 수준 표현을 부여해 행동 공간을 명시적이고 되돌릴 수 있게 한다. (2) 경험 관측 가능성은 수백만 개의 원시 궤적 토큰을 계층화된 드릴다운 증거 코퍼스로 정제해, 진화 중인 에이전트가 실제로 소비할 수 있게 한다. (3) 의사결정 관측 가능성은 모든 편집에 자기 선언적 예측을 짝지어 두고, 이후 이를 다음 라운드의 태스크 수준 결과와 대조해 검증한다. 이 세 축은 각 편집을 반증 가능한 계약으로 바꾸며, 그 결과 하네스 진화는 시행착오로 붕괴하지 않고 자율적으로 진행된다. 실증적으로, AHE를 10회 반복하면 Terminal-Bench 2의 pass@1이 69.7%에서 77.0%로 상승하여, 인간이 설계한 하네스인 Codex-CLI(71.9%)와 자기 진화 기준선인 ACE 및 TF-GRPO를 능가한다. 고정된 하네스는 재진화 없이도 이전된다. SWE-bench-verified에서는 초기(seed) 하네스보다 12% 적은 토큰으로 전체 성공률 최고치를 기록했고, Terminal-Bench 2에서는 세 개의 대체 모델 계열 전반에서 +5.1에서 +10.1퍼센트포인트(pp)의 교차 계열 향상을 보였는데, 이는 진화된 컴포넌트가 벤치마크 특화 튜닝이 아니라 일반적인 엔지니어링 경험을 인코딩하고 있음을 시사한다. 이러한 결과는 관측 가능성 기반 진화가 코딩 에이전트 하네스를 지속적으로 개선하기 위한 실용적인 경로임을 보여준다.
Harnesses have become a central determinant of coding-agent performance, shaping how models interact with repositories, tools, and execution environments. Yet automating harness engineering is hard: a heterogeneous action space, sparse and noisy evaluation signal, multi-million-token trajectories, and edits whose effect is hard to attribute to the next round's outcomes. We introduce Agentic Harness Engineering (AHE), a framework that automates harness-level evolution by instrumenting the three stages of any engineering loop (component editing, trajectory inspection, and decision making) with matched observability pillars: (1) component observability gives every editable harness component a file-level representation so the action space is explicit and revertible; (2) experience observability distills millions of raw trajectory tokens into a layered, drill-down evidence corpus that an evolving agent can actually consume; and (3) decision observability pairs every edit with a self-declared prediction, later verified against the next round's task-level outcomes. Together, these pillars turn every edit into a falsifiable contract, so harness evolution proceeds autonomously without collapsing into trial-and-error. Empirically, ten AHE iterations lift pass@1 on Terminal-Bench 2 from 69.7% to 77.0%, surpassing the human-designed harness Codex-CLI (71.9%) and the self-evolving baselines ACE and TF-GRPO. The frozen harness transfers without re-evolution: on SWE-bench-verified it tops aggregate success at 12% fewer tokens than the seed, and on Terminal-Bench 2 it yields +5.1 to +10.1pp cross-family gains across three alternate model families, indicating the evolved components encode general engineering experience rather than benchmark-specific tuning. These results position observability-driven evolution as a practical pathway to keep coding-agent harnesses continually improving.
논문 링크
더 읽어보기
RLBF: 백트래킹 피드백을 활용한 강화학습 / Reinforcement Learning with Backtracking Feedback
논문 소개
대규모 언어 모델(Large Language Models, LLMs)이 다양한 생성 과제를 수행하는 능력을 빠르게 확장해 왔지만, 실제 활용 환경에서는 안전성 문제를 안정적으로 다루는 일이 여전히 중요한 과제로 남아 있습니다. 특히 적대적 공격이나 분포 내 오류(in-distribution error)처럼 겉보기에는 정상적이지만 위험한 상황에 대해서는 단순한 거부 응답만으로 충분하지 않으며, 생성 과정 자체를 복구할 수 있는 정교한 대응이 요구됩니다. 이러한 배경에서 제안된 Reinforcement Learning with Backtracking Feedback(RLBF)는 모델이 잘못된 출력을 사전에 막는 수준을 넘어, 생성 도중 스스로 안전 위반을 감지하고 이전 토큰으로 되돌아간 뒤 다시 이어서 생성하도록 학습시키는 방법입니다. 핵심은 안전 크리틱(critic)의 피드백을 통해 실제로 생성된 출력에서 발생한 위반 지점을 포착하고, 모델이 “backtrack by x tokens”라는 간결한 신호를 내보내며 해당 구간만 국소적으로 수정하도록 만드는 데 있습니다.
이 접근은 전체 응답을 통째로 폐기하는 방식보다 훨씬 효율적이며, 장문 생성이나 구조화된 응답처럼 앞부분의 유효한 내용이 중요한 상황에서도 유용성을 크게 해치지 않습니다. 또한 middle filling, Greedy Coordinate Gradient(GCG) 공격, 디코딩 파라미터 조작과 같은 고도화된 공격에 대해서도 모델이 실제 오류를 복구하는 능력을 학습하게 되므로, 기존의 표면적인 안전 정렬보다 더 강인한 방어를 기대할 수 있습니다. 저자들은 이 강화 학습(Reinforcement Learning, RL) 단계가 RLBF의 중심축이라고 보면서, 단순한 감독 학습만으로는 얻기 어려운 동적 수정 능력을 실제 출력 수준에서 길러낸다는 점을 강조합니다.
여기에 더해, 백트래킹 능력을 안정적으로 익히도록 돕는 보조 전략으로 개선된 Supervised Fine-Tuning(SFT) 데이터 생성 방식인 BSAFE+도 함께 제안됩니다. BSAFE+는 원래 안전한 텍스트의 자연스러운 문맥을 먼저 만든 뒤, 그 내부에 의도적으로 위반 구간을 삽입하여 모델이 어떤 지점에서 되돌아가야 하는지와 그 이후를 어떻게 안전하게 이어가야 하는지를 함께 학습하게 합니다. 이 방식은 기존의 데이터 생성이 종종 품질이 낮거나 분포 밖(out-of-distribution)의 예시를 만들 수 있다는 한계를 보완하며, 백트래킹 신호와 안전한 후속 문맥을 더 현실적인 형태로 제공합니다.
결과적으로 RLBF는 안전성과 유틸리티 사이의 균형을 보다 정교하게 다루는 프레임워크로 볼 수 있습니다. 안전 위반을 단순히 억제하는 것이 아니라, 발생한 오류를 국소적으로 되돌리고 복구하는 능력을 학습한다는 점에서 방법론적 의미가 크며, 이는 대규모 언어 모델의 안전 정렬을 “거부” 중심에서 “회복” 중심으로 확장한다는 점에서 주목할 만합니다. 실험적으로도 이 방법은 다양한 벤치마크와 모델 규모에서 공격 성공률을 낮추면서 기본적인 응답 품질을 크게 훼손하지 않아, 실제 배포 환경에서 요구되는 강한 안전성과 실용성을 함께 보여 줍니다.
초록(Abstract)
대규모 언어 모델(LLM)의 강건한 안전성에 대한 중요한 필요성, 특히 적대적 공격과 분포 내 오류에 대응하기 위해, 우리는 백트래킹 피드백을 활용한 강화학습(RLBF)을 제안합니다. 이 프레임워크는 모델이 자신의 생성 오류를 동적으로 수정하는 법을 학습하는 강화학습(RL) 단계를 주로 활용함으로써 BSAFE와 같은 기존 방법을 발전시킵니다. 모델의 실시간 출력에 대한 비평가 피드백을 포함한 강화학습을 통해, LLM은 효율적인 “x 토큰만큼 되돌아가기(backtrack by x tokens)” 신호를 출력한 뒤 자기회귀적으로 생성을 계속함으로써, 실제로 발생한 창발적 안전성 위반을 식별하고 복구하도록 훈련됩니다. 이 RL 과정은 middle filling, Greedy Coordinate Gradient(GCG) 공격, 디코딩 파라미터 조작을 포함한 정교한 적대적 전략에 대한 회복탄력성을 부여하는 데 핵심적입니다. 이러한 백트래킹 능력의 습득을 추가로 지원하기 위해, 우리는 향상된 지도 미세조정(SFT) 데이터 생성 전략(BSAFE+)도 제안합니다. 이 방법은 원래는 안전한 일관된 텍스트에 위반을 주입함으로써 기존 데이터 생성 기법을 개선하고, 백트래킹 메커니즘을 위한 보다 효과적인 초기 학습을 제공합니다. 포괄적인 실증 평가는 RLBF가 다양한 벤치마크와 모델 규모 전반에서 공격 성공률을 크게 낮추며, 파운데이션 모델의 유용성을 중대하게 보존하면서도 우수한 안전성 결과를 달성함을 보여줍니다.
Addressing the critical need for robust safety in Large Language Models (LLMs), particularly against adversarial attacks and in-distribution errors, we introduce Reinforcement Learning with Backtracking Feedback (RLBF). This framework advances upon prior methods, such as BSAFE, by primarily leveraging a Reinforcement Learning (RL) stage where models learn to dynamically correct their own generation errors. Through RL with critic feedback on the model's live outputs, LLMs are trained to identify and recover from their actual, emergent safety violations by emitting an efficient "backtrack by x tokens" signal, then continuing generation autoregressively. This RL process is crucial for instilling resilience against sophisticated adversarial strategies, including middle filling, Greedy Coordinate Gradient (GCG) attacks, and decoding parameter manipulations. To further support the acquisition of this backtracking capability, we also propose an enhanced Supervised Fine-Tuning (SFT) data generation strategy (BSAFE+). This method improves upon previous data creation techniques by injecting violations into coherent, originally safe text, providing more effective initial training for the backtracking mechanism. Comprehensive empirical evaluations demonstrate that RLBF significantly reduces attack success rates across diverse benchmarks and model scales, achieving superior safety outcomes while critically preserving foundational model utility.
논문 링크
대규모 언어 모델(LLM)은 어떻게 자신의 오류를 탐지하고 교정하는가: 내부 신뢰도 신호의 역할 / How LLMs Detect and Correct Their Own Errors: The Role of Internal Confidence Signals
논문 소개
대규모 언어 모델(large language model, LLM)이 외부 피드백 없이도 자신의 답변을 검토하고 때로는 스스로 고쳐 쓴다는 현상은 널리 알려져 있지만, 그 배후에 어떤 내부 신호가 작동하는지는 여전히 충분히 설명되지 않았습니다. 이 연구는 이러한 자기 점검 능력을 의사결정 신경과학의 1차(first-order)와 2차(second-order) 신뢰도 모형으로 해석하면서, 답변을 만들어 내는 생성 신호와 그 답변을 평가하는 신호가 실제로 분리되어 있는지를 검증합니다. 특히 답변 직후 개행 토큰(post-answer newline token, PANL)에 저장되는 내부 상태가 단순한 자신감 표현을 넘어 오류 탐지와 자기 수정까지 가능하게 하는지에 주목합니다. 1차 모형이라면 선택된 응답의 확률이 곧 신뢰도가 되므로 모델이 자기 오류를 알아차리기 어렵지만, 2차 모형에서는 생성과 부분적으로 독립적인 평가 신호가 존재해 자신의 답과 충돌할 수 있습니다. 저자들은 검증 후 수정(verify-then-correct) 절차를 통해 이 두 관점을 비교하고, 내부 자신감 신호가 실제로 오류를 가려내는 데 어떤 역할을 하는지를 정밀하게 분석합니다.
실험은 Gemma 3 27B와 Qwen 2.5 7B 같은 서로 다른 LLM, 그리고 TriviaQA와 자연어 추론(Multi-Genre Natural Language Inference, MNLI) 과제에서 반복적으로 수행되었으며, 답변 생성, 정오답 검증, 재응답의 세 단계로 구성되었습니다. 그 결과 언어적 자신감은 단순한 토큰 로그확률보다 훨씬 강하게 오류 탐지를 예측했고, PANL 활성값은 그 언어적 자신감보다도 더 높은 수준에서 검증 행동과 수정 가능성을 설명했습니다. 특히 오답 사례에서 행동 지표가 사실상 한계를 드러낸 반면, PANL은 모델이 실제로 정답으로 고쳐 쓸 수 있는지까지 예측하여 “틀렸는가”와 “고칠 수 있는가”를 구분해 냈습니다. 또한 PANL에 대한 인과적 개입은 답변 정보가 손상된 상황에서도 오류 탐지 행동을 회복시켜, 이 신호가 단순한 관찰 결과가 아니라 실제로 자기 점검을 지지하는 내부 표현임을 보여주었습니다. 이런 결과는 언어적 자신감이 생성 확률의 단순한 반영이 아니라, 모델 내부의 별도 평가 축을 바깥으로 읽어낸 축약된 표현일 가능성을 뒷받침합니다. 더 나아가 PANL은 기존의 지식 보유 추정 지표인 P(IK)(probability of knowing)와도 거의 독립적인 방향을 형성해, 단순한 정보량이 아니라 답변의 적합성과 수정 가능성을 함께 담고 있음을 시사합니다. 결국 이 연구는 LLM이 단지 높은 확률의 답을 내놓는 시스템이 아니라, 답변 생성과 평가가 분리된 2차 신뢰도 구조를 자연스럽게 구현할 수 있으며, 그 내부 평가 신호가 오류 탐지와 자기 수정의 핵심 동력이라는 점을 설득력 있게 제시합니다.
초록(Abstract)
대규모 언어 모델(LLM)은 외부 피드백 없이도 자신의 오류를 감지하고 때로는 이를 수정할 수 있지만, 그 근본 메커니즘은 아직 알려져 있지 않습니다. 우리는 의사결정 신경과학의 확신에 대한 2차 모델(second-order model) 관점에서 이를 조사합니다. 1차(first-order) 시스템에서는 확신이 생성 신호 자체에서 비롯되므로 선택된 응답에 대해 최대가 되며, 따라서 오류 감지는 불가능합니다. 2차 모델은 확정된 응답과 불일치할 수 있는, 부분적으로 독립적인 평가 신호를 가정하며, 이는 오류 감지의 근거를 제공합니다. Kumaran et al.(2026)은 LLM이 답변 직후의 토큰, 즉 정답 뒤 줄바꿈(post-answer newline: PANL)에 확신 표현을 캐시하며, 이 표현이 언어적 확신을 인과적으로 유도하고 로그확률과는 분리된다는 점을 보였습니다. 본 연구에서는 이 PANL 신호가 확신을 넘어 오류 감지와 자기 수정을 지원하는지, 그리고 2차 프레임워크에서 도출한 예측을 만족하는지 검증합니다. 검증 후 수정(verify-then-correct) 패러다임을 사용하여, (i) 언어적 확신은 토큰 로그확률을 훨씬 넘어서는 수준으로 오류 감지를 예측하며, 이는 1차 설명을 배제하고, (ii) PANL 활성화는 언어적 확신 자체를 넘어 오류 감지를 예측하며, (iii) PANL은 어떤 오류를 모델이 수정할 수 있는지를 예측하는 반면 모든 행동적 신호는 실패함을 보였습니다. 인과적 개입은 답변 정보가 손상되었을 때 PANL 신호가 오류 감지 행동을 복원함을 확인합니다. 이러한 결과는 Gemma 3 27B와 Qwen 2.5 7B, TriviaQA와 MNLI 전반에서 모두 재현됩니다. 이 결과는 LLM이 자연스럽게 2차 확신 아키텍처를 구현하며, 그 내부 평가 신호가 답변이 틀렸을 가능성뿐 아니라 모델이 이를 수정할 지식을 가지고 있는지도 인코딩함을 보여줍니다.
Large language models can detect their own errors and sometimes correct them without external feedback, but the underlying mechanisms remain unknown. We investigate this through the lens of second-order models of confidence from decision neuroscience. In a first-order system, confidence derives from the generation signal itself and is therefore maximal for the chosen response, precluding error detection. Second-order models posit a partially independent evaluative signal that can disagree with the committed response, providing the basis for error detection. Kumaran et al. (2026) showed that LLMs cache a confidence representation at a token immediately following the answer (i.e. post-answer newline: PANL) -- that causally drives verbal confidence and dissociates from log-probabilities. Here we test whether this PANL signal extends beyond confidence to support error detection and self-correction. Here we test whether this signal supports error detection and self-correction, deriving predictions from the second-order framework. Using a verify-then-correct paradigm, we show that: (i) verbal confidence predicts error detection far beyond token log-probabilities, ruling out a first-order account; (ii) PANL activations predict error detection beyond verbal confidence itself; and (iii) PANL predicts which errors the model can correct -- where all behavioural signals fail. Causal interventions confirm that PANL signals rescue error detection behavior when answer information is corrupted. All findings replicate across models (Gemma 3 27B and Qwen 2.5 7B) and tasks (TriviaQA and MNLI). These results reveal that LLMs naturally implement a second-order confidence architecture whose internal evaluative signal encodes not only whether an answer is likely wrong but whether the model has the knowledge to fix it.
논문 링크
Vision Banana: 이미지 생성 모델은 범용 시각 학습자이다 / Image Generators are Generalist Vision Learners
논문 소개
최근 이미지 생성 모델들이 놀라운 시각 생성 능력을 갖추고 있다는 것은 널리 알려진 사실이지만, 이들이 시각 이해 측면에서도 강력한 내부 표현을 개발했는지는 명확하지 않았습니다. 본 논문은 이미지 생성 모델이 단순한 생성 도구를 넘어 일반화된 비전 학습자임을 체계적으로 입증하는 연구입니다. 자연어 처리에서 대규모 언어 모델의 생성형 사전학습이 창발적인 언어 이해 능력을 만들어낸 것처럼, 이미지 생성 모델의 사전학습도 강력한 시각 표현을 내재적으로 학습하고 있다는 핵심 가설에서 출발합니다.
연구팀은 이러한 가설을 검증하기 위해 인스트럭션 튜닝 기반의 접근 방식을 제안합니다. 기본 모델인 Nano Banana Pro에 경량의 인스트럭션 튜닝을 수행하여 Vision Banana라는 통합 비전 모델을 구축했는데, 핵심적인 방법론은 다양한 비전 작업의 출력 공간을 RGB 이미지로 재파라미터화하는 것입니다. 분할 마스크, 깊이 맵, 표면 법선 예측 등 서로 다른 시각 이해 작업들을 모두 시각화 가능한 RGB 이미지로 표현함으로써, 본질적으로 시각 인식 문제를 이미지 생성 문제로 재프레이밍합니다. 예를 들어 특정 물체 분할을 요청할 때는 해당 카테고리의 색상값으로 대상 영역을 생성하도록 지시하는 방식입니다.
이러한 접근 방식은 세 가지 중요한 이점을 제공합니다. 첫째, 단일 통합 모델이 원래의 생성 능력을 유지하면서도 여러 시각 이해 작업을 동시에 처리할 수 있습니다. 둘째, 컴퓨터 비전 출력을 RGB 형식으로 변환하는 방법만을 학습하면 되므로 상대적으로 소량의 추가 데이터만 필요합니다. 셋째, 원래 모델의 기존 능력을 파괴하지 않으면서도 새로운 시각 이해 능력을 효과적으로 활성화할 수 있습니다.
실험 결과는 Vision Banana의 우수성을 명확히 보여줍니다. 2D 이해 작업에서 참조 분할(Referring segmentation)과 의미론적 분할(Semantic segmentation)에서 Segment Anything Model 3를 능가하며, 3D 이해 작업인 메트릭 깊이 추정과 표면 법선 추정에서도 각각 Depth Anything 3와 Lotus-2 같은 전문 모델들을 뛰어넘습니다. 특히 주목할 점은 이러한 우수한 이해 성능을 달성하면서도 생성 벤치마크에서 기본 모델과 경쟁력 있는 수준의 성능을 유지한다는 것입니다. 경량 인스트럭션 튜닝이 원래의 생성 능력을 거의 손상시키지 않으면서도 시각 이해의 숨겨진 능력을 효과적으로 끌어낼 수 있음을 증명합니다.
본 연구의 의의는 컴퓨터 비전 분야의 근본적인 관점 변화를 시사합니다. 판별적 학습과 대조 학습이 주를 이루어온 시각 표현 학습 분야에서 생성형 사전학습이 더욱 강력한 표현을 학습할 수 있음을 보여주며, 이미지 생성이 텍스트 생성이 자연어 처리에서 하는 역할과 같이 컴퓨터 비전에서 다양한 작업의 통합 인터페이스로 기능할 수 있음을 입증합니다. 이는 생성과 이해를 모두 아우르는 파운데이션 비전 모델 구축의 중심에 생성형 비전 사전학습을 두는 새로운 패러다임으로의 전환을 의미하며, 대규모 언어 모델이 자연어 처리를 혁신한 것처럼 생성형 비전 모델이 컴퓨터 비전 분야를 혁신할 수 있는 가능성을 열어줍니다.
초록(Abstract)
최근 연구들은 이미지 및 비디오 생성기가 제로샷 시각 이해 능력을 보여주며, 이는 대규모 언어 모델(LLM)이 생성 사전학습으로부터 언어 이해 및 추론의 창발 능력을 개발하는 방식과 유사합니다. 시각 콘텐츠를 생성하는 능력이 그것을 이해하는 능력을 함축한다는 추측은 오랫동안 있어 왔지만, 생성 비전 모델이 강력한 이해 능력을 개발했다는 제한된 증거만 존재했습니다. 본 연구에서는 이미지 생성 학습이 LLM 사전학습과 유사한 역할을 하며, 모델이 다양한 비전 작업에서 최첨단(SOTA) 성능을 달성하도록 하는 강력하고 일반적인 시각 표현을 학습하게 함을 보여줍니다. 우리는 나노 바나나 프로(NBP)를 원래 학습 데이터와 소량의 비전 작업 데이터의 혼합에 대해 인스트럭션 튜닝하여 구축한 일반화 모델인 비전 바나나(Vision Banana)를 소개합니다. 비전 작업의 출력 공간을 RGB 이미지로 매개변수화함으로써, 우리는 인식을 이미지 생성으로 원활하게 재구성합니다. 우리의 일반화 모델인 비전 바나나는 2D 및 3D 이해를 포함하는 다양한 비전 작업에서 최첨단 결과를 달성하며, 세그먼테이션 작업에서의 세그먼트 애니싱 모델 3(Segment Anything Model 3), 메트릭 깊이 추정에서의 뎁스 애니싱 시리즈(Depth Anything series)를 포함한 제로샷 도메인 특화 모델을 능가하거나 동등합니다. 우리는 이러한 결과들이 기본 모델의 이미지 생성 능력을 희생하지 않으면서 경량 인스트럭션 튜닝으로 달성될 수 있음을 보여줍니다. 우수한 결과들은 이미지 생성 사전학습이 일반화된 비전 학습자임을 시사합니다. 또한 텍스트 생성이 언어 이해 및 추론에서 하는 역할과 유사하게, 이미지 생성이 비전 작업을 위한 통합되고 보편적인 인터페이스로 작용함을 보여줍니다. 우리는 생성 및 이해 모두를 위한 파운데이션 비전 모델 구축에서 생성 비전 사전학습이 중심적인 역할을 하는 컴퓨터 비전의 주요 패러다임 전환을 목격하고 있을 수 있습니다.
Recent works show that image and video generators exhibit zero-shot visual understanding behaviors, in a way reminiscent of how LLMs develop emergent capabilities of language understanding and reasoning from generative pretraining. While it has long been conjectured that the ability to create visual content implies an ability to understand it, there has been limited evidence that generative vision models have developed strong understanding capabilities. In this work, we demonstrate that image generation training serves a role similar to LLM pretraining, and lets models learn powerful and general visual representations that enable SOTA performance on various vision tasks. We introduce Vision Banana, a generalist model built by instruction-tuning Nano Banana Pro (NBP) on a mixture of its original training data alongside a small amount of vision task data. By parameterizing the output space of vision tasks as RGB images, we seamlessly reframe perception as image generation. Our generalist model, Vision Banana, achieves SOTA results on a variety of vision tasks involving both 2D and 3D understanding, beating or rivaling zero-shot domain-specialists, including Segment Anything Model 3 on segmentation tasks, and the Depth Anything series on metric depth estimation. We show that these results can be achieved with lightweight instruction-tuning without sacrificing the base model's image generation capabilities. The superior results suggest that image generation pretraining is a generalist vision learner. It also shows that image generation serves as a unified and universal interface for vision tasks, similar to text generation's role in language understanding and reasoning. We could be witnessing a major paradigm shift for computer vision, where generative vision pretraining takes a central role in building Foundational Vision Models for both generation and understanding.
논문 링크
더 읽어보기
AgenticRecTune: 추천 시스템 최적화를 위한 자기 진화형 스킬 허브를 갖춘 멀티 에이전트 / AgenticRecTune: Multi-Agent with Self-Evolving Skillhub for Recommendation System Optimization
논문 소개
대규모 추천 시스템은 일반적으로 pre-ranking, ranking, re-ranking으로 이어지는 다단계 파이프라인으로 구성되며, 각 단계의 모델 성능뿐 아니라 단계 간 출력 결합 방식과 시스템 수준 설정이 최종 품질을 좌우한다. 이러한 환경에서는 개별 모델을 개선하는 것만으로는 충분하지 않고, 모델이 변경될 때마다 새로 최적화해야 하는 시스템 구성값을 빠르게 찾는 능력이 중요해진다. AgenticRecTune은 바로 이 지점을 겨냥해, 추천 시스템 최적화를 단일 모델 튜닝이 아닌 엔드투엔드 구성 최적화 문제로 재정의한다. 저자들은 Actor, Critic, Insight, Skill, Online의 다섯 에이전트로 이루어진 다중 에이전트 프레임워크를 제안하며, 각 에이전트가 후보 생성, 비효율적 제안 필터링, 온라인 실험 준비, 결과 수집, 지식 축적이라는 서로 다른 역할을 맡도록 설계했다. 이 과정에서 Google Gemini와 같은 대규모 언어 모델(LLMs)의 추론 능력을 활용해 넓은 구성 공간을 탐색하고, 인간이 반복적으로 수행하던 수동 튜닝의 부담을 줄인다.
핵심적인 방법론적 특징은 생성과 검증, 실험과 피드백이 하나의 닫힌 고리로 연결된다는 점이다. Actor 에이전트는 다양한 구성 후보를 제안하고, Critic 에이전트는 그중 실현 가능성이 낮거나 성능이 불안정한 후보를 걸러낸다. 이후 Online 에이전트가 선별된 구성을 바탕으로 A/B 테스트를 자동으로 준비하고 실제 실험 결과를 수집함으로써, 제안된 설정이 운영 환경에서 어떤 효과를 내는지 빠르게 확인한다. 여기에 더해 Insight 에이전트와 Skill 에이전트는 과거 실험의 결과와 성공 패턴을 요약하고, 추천 시스템 과제별로 작동하는 메커니즘을 추출해 재사용 가능한 기술(skill)로 갱신한다. 이렇게 축적된 자기진화형 Skillhub는 단순한 로그 저장소가 아니라, 다음 최적화 라운드의 의사결정을 더 정교하게 만드는 지식 레이어로 기능한다.
논문은 추천 시스템의 최적화 문제를 수학적으로도 다층 합성 최적화(multi-level compositional optimization)로 정식화하여, pre-ranking, ranking, re-ranking 각각의 구성 변수가 서로 다른 문맥과 목적을 가진다는 점을 명확히 드러낸다. 특히 실제 운영 환경에서는 단일 지표가 아니라 여러 온라인 메트릭의 균형이 중요하며, 주된 성능 지표를 높이면서도 보조 지표가 일정 기준 아래로 떨어지지 않도록 관리해야 한다는 현실적 제약을 반영한다. 이러한 관점은 추천 시스템 최적화가 단순한 하이퍼파라미터 탐색을 넘어, 변화하는 제품 목표와 상충하는 지표들 사이의 균형을 찾는 복합적인 문제임을 보여준다. 결과적으로 AgenticRecTune은 시스템 레벨 설정을 자동화하고, 실험 결과를 지속적으로 학습 가능한 지식으로 바꾸며, 추천 시스템 운영 전반의 확장성과 적응성을 높이는 실용적 접근으로 제시된다. 이러한 점에서 이 연구는 대규모 추천 시스템의 성능 개선을 넘어, 복잡한 프로덕션 환경에서 스스로 진화하는 최적화 체계를 구축하려는 중요한 시도로 볼 수 있다.
초록(Abstract)
현대의 대규모 추천 시스템은 일반적으로 프리랭킹(pre-ranking), 랭킹(ranking), 리랭킹(re-ranking) 단계를 포함하는 다단계 파이프라인으로 구성된다. 전통적인 추천 연구는 보통 프리랭킹 모델 구조 개선이나 랭킹 모델 학습 알고리즘 개선과 같은 특정 모델 최적화에 초점을 맞추지만, 시스템 수준 구성 최적화도 각 단계에서 최종 점수를 얻기 위해 각 모델 헤드의 출력을 통합한다는 점에서 중요한 역할을 한다. 시스템의 복잡성 때문에 구성 최적화는 매우 중요하면서도 어려운 과제이다. 모델을 조금만 수정해도 새로운 최적의 시스템 수준 구성이 필요하다. 그러나 각 실험 반복마다 상당한 튜닝 노력이 요구된다. 또한 서로 다른 단계의 모델은 각기 다른 문맥에서 동작하며 서로 다른 목표를 최적화하므로, 전문적인 도메인 지식이 필요하다. 더 나아가 최적화의 성공은 상충하는 여러 온라인 메트릭 간의 균형과 변화하는 프로덕션 개발 목표와의 정렬에 달려 있다. 이러한 과제를 해결하기 위해, 우리는 엔드투엔드 구성 최적화 워크플로를 관리하도록 설계된 Actor, Critic, Insight, Skill, Online의 다섯 개 전문 에이전트로 구성된 에이전틱 프레임워크 AgenticRecTune을 제안한다. 특히 Gemini를 포함한 대규모 언어 모델(LLM)의 고급 추론 능력을 활용해, AgenticRecTune은 최적의 구성 공간을 탐색한다. Actor 에이전트는 여러 후보를 제안하고, Critic 에이전트는 최적이 아닌 제안을 걸러낸다. 이후 Online 에이전트는 Critic 에이전트가 제안한 구성 집합을 바탕으로 A/B 테스트를 자율적으로 준비하고, 이후의 실험 결과를 수집한다. 또한 우리는 Insight 에이전트와 Skill 에이전트의 협업을 활용해 과거 결과를 요약하고, 추천 시스템의 각 작업에 내재된 메커니즘을 추출하며, 스킬을 업데이트하는 자기 진화형 Skillhub도 도입한다.
Modern large-scale recommendation systems are typically constructed as multi-stage pipelines, encompassing pre-ranking, ranking, and re-ranking phases. While traditional recommendation research typically focuses on optimizing a specific model, such as improving the pre-ranking model structure or ranking models training algorithm, system-level configurations optimization play a crucial role, which integrates the output from each model head to get the final score in each stage. Due to the complexity of the system, the configuration optimization is highly important and challenging. Any model modification requires new optimal system-level configurations. But each experimental iteration requires significant tuning effort. Furthermore, models in different stage operates within a distinct context and optimizes for different targets, requiring specialized domain expertise. In addition, optimization success depends on balancing competing multiple online metrics and alignment with shifting production development objectives. To address these challenges, we propose AgenticRecTune, an agentic framework comprising five specialized agents, Actor, Critic, Insight, Skill, and Online, designed to manage the end-to-end configuration optimization workflow. By leveraging the advanced reasoning of Large Language Models (LLMs), specifically Gemini, AgenticRecTune explore the optimal configuration spaces. The Actor Agent proposes multiple candidates and Critic Agent filters out suboptimal proposals.Then Online Agent autonomously prepares A/B tests based on the proposed configurations set from the Critic Agent and captures the subsequencet experimental results. We also introduce a self-evolving Skillhub, which utilizes a collaboration between the Insight Agent and Skill Agent to summarize the history results, extract underlying mechanics of each task in recommendation system and update skills.
논문 링크
보조 학습을 이용한 대규모 추천 시스템 개선 / Improving Large-Scale Recommender Systems with Auxiliary Learning

논문 소개
대규모 추천 시스템의 성능 최적화는 전 세계 수억 명의 사용자에게 영향을 미치는 중요한 과제입니다. 현재의 심층 신경망 기반 추천 모델들은 단일 전역 목적함수를 통해 훈련되는데, 이는 모든 사용자 집단이 동질적이라는 암묵적 가정에 기초하고 있습니다. 하지만 실제 프로덕션 환경의 데이터는 서로 다른 조건부 분포를 갖는 이질적 코호트들로 구성되어 있으며, 모델의 규모와 훈련 데이터가 증가할수록 중앙 분포 패턴이 지배적이 되어 소수 집단의 특성이 과소 적합되는 심각한 문제가 발생합니다. 이러한 표현 편향은 특히 인수분해 머신 기반의 어텐션 메커니즘에서 두드러지는데, 어텐션 가중치가 다수 사용자 집단에 의해 주도되는 상호작용에만 집중하면서 많은 잠재적 특성 경로가 미활용 상태로 남게 됩니다.
본 논문은 이러한 도전 과제를 직접 다루기 위해 코호트-대조적 보조 학습(C2AL) 방법론을 제시합니다. 제안된 접근 방식은 데이터 기반 코호트 발견을 통해 분포 불일치가 큰 사용자 집단을 식별한 후, 부분적으로 상충하는 보조 라벨을 활용하여 공유 표현을 정규화함으로써 작동합니다. 이는 기존 연구처럼 휴리스틱한 가중 라벨이나 멀티태스크 헤드를 단순히 추가하는 방식과는 다르며, 어텐션 계층의 학습 과정을 체계적으로 커스터마이즈하여 소수 코호트와의 상호 정보를 보존합니다. 그래디언트 분석을 통해 보조 손실이 어떻게 어텐션 행렬을 더욱 밀집되고 다양한 분포로 변환하는지 설명함으로써, 제안 방법은 훈련 중 이론적 기반을 갖춘 기계적 작동 원리를 제공합니다. 본 연구는 수십억 개의 데이터 포인트를 보유한 대규모 프로덕션 데이터셋에서 6개의 최신 추천 모델을 대상으로 광범위한 실증 평가를 수행했습니다.
실험 결과는 제안된 방법이 전체적으로 정규화된 엔트로피에서 최대 0.16% 감소를 달성하며, 특히 소수 사용자 집단에서는 0.30%를 초과하는 의미 있는 성능 향상을 제공함을 보여줍니다. 특히 주목할 점은 보조 학습이 훈련 단계에만 적용되고 추론 시간에는 폐기되므로 서빙 환경에서 추가적인 계산 비용이나 아키텍처 수정 없이 이러한 이득을 얻을 수 있다는 것입니다. 이 연구는 보조 학습의 기계적 해석 가능성을 체계적으로 분석한 최초의 시도로, 이질적 사용자 분포를 갖는 대규모 추천 시스템에서 모든 사용자 집단에 대한 공평하고 효과적인 예측을 실현하기 위한 중요한 진전을 나타냅니다.
초록(Abstract)
단일 전역 목표 하에서 대규모 추천 모델을 학습하는 것은 암묵적으로 사용자 집단 전체의 동질성을 가정합니다. 그러나 실제 데이터는 서로 다른 조건부 분포를 가진 이질적 코호트들로 구성되어 있습니다. 모델의 규모와 복잡성이 증가하고 더 많은 데이터가 학습에 사용됨에 따라, 중심 분포 패턴에 지배당하게 되어 헤드 및 테일 영역이 무시됩니다. 이러한 불균형은 모델의 학습 능력을 제한하며 비활성 어텐션 가중치나 죽은 뉴런을 초래할 수 있습니다. 본 논문에서는 공유 임베딩 선택을 위한 인수분해 기계(Factorization Machine)에서 어텐션 메커니즘(Attention Mechanism)이 핵심 역할을 할 수 있음을 규명하고, 데이터셋의 부분 구조를 분석하여 강한 분포 대비를 가진 것들을 보조 학습(Auxiliary Learning)을 통해 노출시킴으로써 이 문제를 해결할 것을 제안합니다. 이전 연구들이 이러한 편향을 완화하기 위해 휴리스틱하게 가중 레이블이나 다중 작업 헤드를 적용한 것과 달리, 우리는 부분적으로 충돌하는 보조 레이블을 활용하여 공유 표현(Shared Representation)을 정규화합니다. 이 접근 방식은 어텐션 계층의 학습 과정을 커스터마이즈하여 소수 코호트(Minority Cohort)와의 상호 정보(Mutual Information)를 보존하면서 전역 성능을 향상시킵니다. 우리는 각각 수십억 개의 데이터 포인트를 가진 대규모 프로덕션 데이셋에서 6개의 SOTA 모델에 대해 제안된 방법을 평가했습니다. 실험 결과, 인수분해 기계가 제안된 방법을 사용하여 세밀한 사용자-광고 상호작용을 포착할 수 있으며, 전체적으로 정규화 엔트로피(Normalized Entropy)에서 최대 0.16% 감소를 달성하고 대상 소수 코호트에서 0.30%를 초과하는 성능 향상을 제공함을 보여줍니다.
Training large-scale recommendation models under a single global objective implicitly assumes homogeneity across user populations. However, real-world data are composites of heterogeneous cohorts with distinct conditional distributions. As models increase in scale and complexity and as more data is used for training, they become dominated by central distribution patterns, neglecting head and tail regions. This imbalance limits the model's learning ability and can result in inactive attention weights or dead neurons. In this paper, we reveal how the attention mechanism can play a key role in factorization machines for shared embedding selection, and propose to address this challenge by analyzing the substructures in the dataset and exposing those with strong distributional contrast through auxiliary learning. Unlike previous research, which heuristically applies weighted labels or multi-task heads to mitigate such biases, we leverage partially conflicting auxiliary labels to regularize the shared representation. This approach customizes the learning process of attention layers to preserve mutual information with minority cohorts while improving global performance. We evaluated proposed method on massive production datasets with billions of data points each for six SOTA models. Experiments show that the factorization machine is able to capture fine-grained user-ad interactions using the proposed method, achieving up to a 0.16% reduction in normalized entropy overall and delivering gains exceeding 0.30% on targeted minority cohorts.
논문 링크
사용자 데이터 보호를 위한 AI 에이전트 실행 환경 / An AI Agent Execution Environment to Safeguard User Data
논문 소개
대규모 언어 모델 기반 에이전트가 개인 비서처럼 동작하려면 이메일, 결제 정보, 신원 정보처럼 민감한 사용자 데이터에 접근해야 하지만, 바로 그 지점에서 프롬프트 인젝션(prompt injection)과 모델 제공자에 대한 신뢰 문제라는 심각한 보안·프라이버시 위험이 발생합니다. 이러한 문제를 해결하기 위해 제안된 GAAP(Guaranteed Accounting for Agent Privacy)는 AI 에이전트를 위한 실행 환경으로서, 사용자가 동적으로 제시하는 권한 명세(permission specifications)를 수집한 뒤 에이전트의 모든 개인 데이터 공개가 그 명세를 충족하는지 결정적으로 보장합니다.
이 접근의 핵심은 에이전트나 사용자 프롬프트, 심지어 AI 모델 제공자까지도 신뢰하지 않는다는 점이며, 그럼에도 불구하고 민감 정보의 외부 유출을 막을 수 있도록 설계되었다는 데 있습니다. GAAP는 이를 위해 정보 흐름 제어(Information Flow Control, IFC)를 확장하고, 개인 데이터 저장소와 권한 저장소를 분리하여 에이전트가 직접 민감 정보를 임의로 취급하지 못하도록 통제합니다. 또한, disclosure log와 지속적 데이터 저장소, 그리고 주석(annotation) 기반의 메타데이터를 도입해 한 번의 실행 안에서 발생한 데이터 흐름뿐 아니라 시간적으로 떨어진 여러 작업 사이의 간접적인 정보 이동까지 추적합니다. 특히 Model Context Protocol(MCP)과 같은 외부 도구 생태계가 다양하게 연결되는 현실을 고려하여, 각 서비스 메서드가 어떤 당사자와 어떤 데이터 흐름을 갖는지를 주석으로 기술하는 프레임워크를 마련한 점이 인상적입니다. 이러한 설계는 단순한 공격 탐지나 사후 필터링이 아니라, 데이터가 어디에서 왔고 어디로 흘렀는지를 구조적으로 추적하여 유출 자체를 사전에 차단한다는 점에서 기존 접근과 뚜렷이 구별됩니다.
관련 연구가 대체로 신뢰된 모델, 정적 정책, 단일 작업 수준의 보호에 의존한 것과 달리, GAAP는 반복적이고 장기적인 에이전트 실행 환경에서도 사용자의 프라이버시 정책이 누적적으로 유지되도록 만든다는 점에서 방법론적 새로움을 보여줍니다. 평가 결과 또한 이러한 설계의 실용성을 뒷받침하며, 다른 최신 시스템들이 허용해 버리는 데이터 유출 공격들을 모두 차단하면서도 에이전트의 작업 수행 유용성은 크게 저하되지 않았습니다. 결국 이 논문은 에이전트형 인공지능의 활용을 확장하는 동시에, 민감한 사용자 데이터를 안전하게 다룰 수 있는 결정적 프라이버시 보장 체계를 제시함으로써, 향후 개인화된 AI 비서와 도구 기반 에이전트의 보안 설계에 중요한 기준점을 제공합니다.
초록(Abstract)
AI 에이전트는 사용자에게 범용 개인 비서로서 기능할 것으로 기대되며, 이를 위해서는 개인 및 금융 정보와 같은 비공개 사용자 데이터에 접근할 수 있어야 합니다. 이는 보안과 프라이버시에 심각한 위험을 초래합니다. 공격자는 AI 모델을 공격할 수 있으며(예: 프롬프트 인젝션을 통해), 이를 통해 사용자 데이터를 유출할 수 있습니다. 또한 AI 에이전트와 비공개 데이터를 공유하려면 사용자는 부도덕하거나 침해되었을 가능성이 있는 AI 모델 제공자에게 자신의 비공개 데이터를 신뢰하고 맡겨야 합니다. 본 논문은 비공개 사용자 데이터의 기밀성을 보장하는 AI 에이전트용 실행 환경인 GAAP(Guaranteed Accounting for Agent Privacy)를 제시합니다. GAAP는 동적이고 지시된 사용자 프롬프트를 통해 사용자의 비공개 데이터가 어떻게 공유될 수 있는지를 설명하는 권한 명세를 수집하며, AI 모델과 그 제공자에게 이루어지는 공개를 포함하여 에이전트의 비공개 사용자 데이터 공개가 이러한 명세를 준수하도록 강제합니다. 중요한 점은, GAAP가 비공개 사용자 데이터를 에이전트에게 신뢰하여 맡기지 않으면서도, 어떤 AI 모델이나 사용자 프롬프트도 공격으로부터 자유롭다고 가정하지 않고 이러한 보장을 결정적으로 제공한다는 것입니다. GAAP는 AI 에이전트가 비공개 사용자 데이터에 접근하고 이를 사용하는 방식을 추적함으로써 사용자의 권한 명세를 강제합니다. 또한 정보 흐름 제어(Information Flow Control)에 새로운 영속적 데이터 저장소와 주석을 결합하여, 단일 작업 내의 실행 단계 전반뿐 아니라 시간적으로 분리된 여러 작업에 걸쳐서도 비공개 정보의 흐름을 추적할 수 있게 합니다. 우리의 평가는 GAAP가 다른 최신 시스템들로 하여금 신뢰할 수 없는 제3자에게 비공개 사용자 데이터를 공개하게 만드는 공격을 포함한 모든 데이터 공개 공격을, 에이전트 유용성에 큰 영향을 주지 않으면서 차단함을 확인합니다.
AI agents promise to serve as general-purpose personal assistants for their users, which requires them to have access to private user data (e.g., personal and financial information). This poses a serious risk to security and privacy. Adversaries may attack the AI model (e.g., via prompt injection) to exfiltrate user data. Furthermore, sharing private data with an AI agent requires users to trust a potentially unscrupulous or compromised AI model provider with their private data. This paper presents GAAP (Guaranteed Accounting for Agent Privacy), an execution environment for AI agents that guarantees confidentiality for private user data. Through dynamic and directed user prompts, GAAP collects permission specifications from users describing how their private data may be shared, and GAAP enforces that the agent's disclosures of private user data, including disclosures to the AI model and its provider, comply with these specifications. Crucially, GAAP provides this guarantee deterministically, without trusting the agent with private user data, and without requiring any AI model or the user prompt to be free of attacks. GAAP enforces the user's permission specification by tracking how the AI agent accesses and uses private user data. It augments Information Flow Control with novel persistent data stores and annotations that enable it to track the flow of private information both across execution steps within a single task, and also over multiple tasks separated in time. Our evaluation confirms that GAAP blocks all data disclosure attacks, including those that make other state-of-the-art systems disclose private user data to untrusted parties, without a significant impact on agent utility.
논문 링크
파이토치 한국 사용자 모임
이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일
로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)
아래
쪽에 좋아요
를 눌러주시면 뉴스 발행에 힘이 됩니다~ ![]()








