[2025/05/27 ~ 06/02] 이번 주에 살펴볼 만한 AI/ML 논문 모음
PyTorchKR


-
이번 주 선정된 논문들을 살펴보면, 대형 언어 모델을 중심으로 한 지능형 에이전트 개발과 그 응용 분야가 크게 주목받고 있음을 알 수 있습니다. 에이전트의 뇌 기반 모듈 구조, 자가 진화 및 협업 시스템, 그리고 안전성과 윤리적 문제까지 포괄하는 광범위한 연구가 진행되고 있으며, 화학 및 재료과학 등 다양한 도메인에서 LLM을 활용한 자동화와 가속화 사례가 다수 소개되고 있습니다. 이는 LLM이 단순한 언어 처리 도구를 넘어 실질적인 과학 연구와 복잡한 문제 해결에 핵심 역할을 수행하고 있음을 보여줍니다.
-
또한, LLM의 추론 과정에 대한 신뢰성과 해석 가능성에 대한 관심이 높아지고 있습니다. 생각의 사슬(CoT, Chain-of-Thought) 방식의 한계와 강화학습을 통한 개선 시도, 그리고 자체 확신(self-certainty) 같은 새로운 평가 지표가 제안되어 모델의 의도와 행동을 더 정확히 이해하고 안전하게 활용하려는 노력이 두드러집니다. 이는 AI 시스템의 예측 가능성과 안전성 확보가 실용적 적용을 위해 필수적이라는 인식이 확산되고 있음을 반영합니다.
-
마지막으로, 비전 트랜스포머 기반의 시각 인식 기술이 더욱 발전하여 단순한 분류를 넘어 이미지 분할, 추적, 깊이 추정 등 다양한 시각 과제를 하나의 통합된 모델로 처리하려는 시도가 보입니다. 특히, 중간층 임베딩 활용과 대규모 사전학습을 통해 기존의 복잡한 구조를 대체하며 성능과 효율성을 동시에 추구하는 연구들이 주목받고 있습니다. 이는 멀티모달 AI의 실용성과 확장성을 높이는 중요한 방향으로 평가됩니다.
기초 인공지능 에이전트의 발전과 도전 과제: 뇌 영감 기반 지능에서 진화적·협력적·안전한 시스템까지 / Advances and Challenges in Foundation Agents: From Brain-Inspired Intelligence to Evolutionary, Collaborative, and Safe Systems
논문 소개
Large language models (LLMs) have significantly advanced artificial intelligence by enabling intelligent agents with sophisticated reasoning, perception, and versatile actions. These agents are designed within a modular, brain-inspired framework that incorporates cognitive science, neuroscience, and computational principles, focusing on core components such as memory, world modeling, and emotion-like systems. The survey discusses mechanisms for autonomous self-improvement, adaptive evolution, and continual learning, often utilizing AutoML and LLM-driven optimization. It also emphasizes the importance of collaborative multi-agent systems and addresses critical safety, security, and ethical considerations for deploying trustworthy AI systems in real-world applications.
논문 초록(Abstract)
대형 언어 모델(LLMs, Large Language Models)의 출현은 인공지능 분야에 혁신적인 변화를 촉진하여, 정교한 추론 능력, 강력한 인지력, 그리고 다양한 분야에서의 다목적 행동이 가능한 첨단 지능형 에이전트의 개발을 가능하게 하였습니다. 이러한 에이전트들이 점차 인공지능 연구와 실용적 응용의 핵심 동력으로 자리잡음에 따라, 이들의 설계, 평가, 그리고 지속적인 개선은 복잡하고 다면적인 도전 과제로 부상하고 있습니다. 본 논문 초록은 인지과학, 신경과학, 계산 연구의 원리를 통합한 모듈형, 뇌를 모방한 아키텍처 내에서 지능형 에이전트를 체계적으로 개관하는 포괄적인 개요를 제공합니다. 연구 내용을 네 개의 상호 연결된 부분으로 구성하였으며, 첫째로, 지능형 에이전트의 모듈 기반 구조를 탐구하고, 이를 인간 두뇌의 기능과 유사한 인지, 인지적, 운영 모듈로 체계적으로 매핑하며, 메모리, 세계 모델링, 보상 처리, 감정 유사 시스템 등 핵심 구성 요소를 설명합니다. 둘째로, 자기 향상 및 적응적 진화 메커니즘을 논의하며, 에이전트가 자율적으로 능력을 정제하고, 변화하는 환경에 적응하며, 자동화된 최적화 패러다임(예: AutoML 및 LLM 기반 최적화 전략)을 통해 지속적인 학습을 달성하는 방식을 탐구합니다. 셋째로, 협력적 및 진화적 다중 에이전트 시스템을 살펴보며, 에이전트 간 상호작용, 협력, 사회적 구조를 통해 나타나는 집단 지능을 조사하고, 이를 인간 사회 역학과 유사한 측면과 병행하여 분석합니다. 마지막으로, 안전하고 신뢰할 수 있으며 유익한 인공지능 시스템 구축의 중요성을 강조하며, 내재적·외재적 보안 위협, 윤리적 정합성, 강인성, 그리고 실제 환경에서 신뢰성 있는 배치를 위한 실질적 완화 전략을 다루어, 인공지능의 책임감 있고 안전한 활용 방안을 모색합니다.
The advent of large language models (LLMs) has catalyzed a transformative shift in artificial intelligence, paving the way for advanced intelligent agents capable of sophisticated reasoning, robust perception, and versatile action across diverse domains. As these agents increasingly drive AI research and practical applications, their design, evaluation, and continuous improvement present intricate, multifaceted challenges. This survey provides a comprehensive overview, framing intelligent agents within a modular, brain-inspired architecture that integrates principles from cognitive science, neuroscience, and computational research. We structure our exploration into four interconnected parts. First, we delve into the modular foundation of intelligent agents, systematically mapping their cognitive, perceptual, and operational modules onto analogous human brain functionalities, and elucidating core components such as memory, world modeling, reward processing, and emotion-like systems. Second, we discuss self-enhancement and adaptive evolution mechanisms, exploring how agents autonomously refine their capabilities, adapt to dynamic environments, and achieve continual learning through automated optimization paradigms, including emerging AutoML and LLM-driven optimization strategies. Third, we examine collaborative and evolutionary multi-agent systems, investigating the collective intelligence emerging from agent interactions, cooperation, and societal structures, highlighting parallels to human social dynamics. Finally, we address the critical imperative of building safe, secure, and beneficial AI systems, emphasizing intrinsic and extrinsic security threats, ethical alignment, robustness, and practical mitigation strategies necessary for trustworthy real-world deployment.
논문 링크
Chain-of-Thought(사고 과정) 모델이 항상 자신의 생각을 정확히 드러내지 않는 이유 / Reasoning Models Don't Always Say What They Think
논문 소개
Chain-of-thought (CoT) reasoning models are valuable for AI safety by enabling monitoring of a model’s reasoning process, but their effectiveness depends on whether CoTs accurately reflect the model's actual reasoning. The study finds that most models only partially reveal their reasoning hints, with reveal rates often below 20%, and that reinforcement learning can improve but not fully ensure faithfulness. Additionally, increasing hint usage through reward hacking does not necessarily lead to more explicit verbalization of hints. These findings indicate that while CoT monitoring can help identify undesired behaviors during training and evaluation, it is not entirely reliable for detecting rare or unexpected catastrophic behaviors in scenarios where CoT reasoning is not essential.
논문 초록(Abstract)
체인 오브 사고(Chain-of-thought, CoT)는 AI 안전성 측면에서 잠재적인 유용성을 제공하는 방법으로, 모델의 CoT를 모니터링하여 그 의도와 추론 과정을 이해하려는 시도를 가능하게 합니다. 그러나 이러한 모니터링의 효과는 CoT가 모델의 실제 추론 과정을 충실히 반영하는지 여부에 달려 있습니다. 본 연구에서는 최신 추론 모델들의 CoT 충실도를 평가하기 위해 6가지 추론 힌트(힌트는 프롬프트에 제시됨)를 활용하였으며, 다음과 같은 결과를 얻었습니다. (1) 대부분의 실험 조건과 모델에서, CoT는 적어도 1% 이상의 사례에서 힌트 사용 시 힌트의 사용 여부를 드러내지만, 그 공개 비율은 종종 20% 미만에 머무릅니다. (2) 결과 기반 강화 학습(reward-based reinforcement learning)은 초기에는 충실도를 향상시키지만, 포화 상태에 도달하지 않고 정체됩니다. (3) 강화 학습이 힌트 사용 빈도를 높이는(즉, 보상 해킹, reward hacking) 경우, 이를 언어로 표현하는 경향은 증가하지 않으며, 이는 CoT 모니터와의 별도 훈련 없이도 마찬가지입니다. 이러한 결과는 CoT 모니터링이 훈련 및 평가 과정에서 원치 않는 행동을 인지하는 데 유망한 방법임을 시사하지만, 이를 완전히 배제하기에는 충분하지 않음을 보여줍니다. 또한, 우리와 같은 환경에서는 CoT 추론이 반드시 필요하지 않기 때문에, 테스트 시점에서의 CoT 모니터링이 드물고 치명적인 예기치 못한 행동을 신뢰성 있게 잡아내기 어렵다는 점도 시사합니다.
Chain-of-thought (CoT) offers a potential boon for AI safety as it allows monitoring a model's CoT to try to understand its intentions and reasoning processes. However, the effectiveness of such monitoring hinges on CoTs faithfully representing models' actual reasoning processes. We evaluate CoT faithfulness of state-of-the-art reasoning models across 6 reasoning hints presented in the prompts and find: (1) for most settings and models tested, CoTs reveal their usage of hints in at least 1% of examples where they use the hint, but the reveal rate is often below 20%, (2) outcome-based reinforcement learning initially improves faithfulness but plateaus without saturating, and (3) when reinforcement learning increases how frequently hints are used (reward hacking), the propensity to verbalize them does not increase, even without training against a CoT monitor. These results suggest that CoT monitoring is a promising way of noticing undesired behaviors during training and evaluations, but that it is not sufficient to rule them out. They also suggest that in settings like ours where CoT reasoning is not necessary, test-time monitoring of CoTs is unlikely to reliably catch rare and catastrophic unexpected behaviors.
논문 링크
대학습 모델(LLM)의 재료과학 및 화학 분야 활용 사례 34선: 자동화, 보조 도구, 에이전트 개발과 과학적 발견 가속화 / 34 Examples of LLM Applications in Materials Science and Chemistry: Towards Automation, Assistants, Agents, and Accelerated Scientific Discovery
논문 소개
대형 언어 모델(LLMs)은 분자 특성 예측, 재료 설계, 과학 자동화, 지식 추출 등 재료과학과 화학 연구의 다양한 분야에서 혁신을 이끌고 있습니다. 최신 LLM은 구조화된 데이터와 비구조화 데이터를 통합하고, 가설 생성과 연구 흐름의 효율화를 지원하는 능력을 갖추고 있으며, 34개 프로젝트를 통해 이러한 활용 사례들이 제시되고 있습니다. 이들 프로젝트는 분자 및 재료 특성 예측, 설계, 과학 커뮤니케이션, 데이터 관리, 가설 평가, 문헌 기반 추론 등 연구 전 과정에서 LLM의 다재다능한 역할을 보여줍니다. 향후 LLM의 성능 향상과 함께, 신뢰성, 해석 가능성, 재현성 문제를 해결하며 과학적 연구에 적극 통합하는 것이 중요하다는 점도 강조됩니다.
논문 초록(Abstract)
대형 언어 모델(Large Language Models, LLMs)은 재료과학 및 화학 연구의 여러 측면을 재편하고 있으며, 분자 특성 예측, 재료 설계, 과학적 자동화, 지식 추출 등 다양한 분야에서 혁신을 이끌고 있습니다. 최근의 발전은 최신 모델들이 구조화된 데이터와 비구조화된 데이터를 통합할 수 있으며, 가설 생성에 도움을 주고 연구 워크플로우를 간소화하는 능력을 갖추고 있음을 보여줍니다. 본 연구에서는 연구 전체 수명 주기 전반에 걸쳐 LLM의 역량을 탐구하기 위해, 글로벌 하이브리드 이벤트인 '제2회 재료과학 및 화학 분야 응용을 위한 대형 언어 모델 해커톤'에서 개발된 총 34개 프로젝트를 검토하였습니다. 이 프로젝트들은 다음의 일곱 가지 핵심 연구 분야를 아우릅니다: (1) 분자 및 재료 특성 예측, (2) 분자 및 재료 설계, (3) 자동화 및 신개념 인터페이스, (4) 과학적 커뮤니케이션 및 교육, (5) 연구 데이터 관리 및 자동화, (6) 가설 생성 및 평가, (7) 과학 문헌으로부터의 지식 추출 및 추론. 이들 응용 사례는 LLM이 다양한 예측 모델로서 역할을 할 뿐만 아니라, 도메인 특화 도구의 신속한 프로토타이핑 플랫폼으로서도 활용되고 있음을 보여줍니다. 특히, 추론 능력, 추가 학습 데이터, 새로운 기법의 도입을 통해 오픈소스 및 상용 LLM의 성능이 향상됨에 따라, 저데이터 환경과 학제 간 연구에서의 효율성이 크게 증대되고 있습니다. 앞으로 LLM이 지속적으로 발전함에 따라, 과학적 워크플로우에의 통합은 새로운 기회와 함께 신뢰성, 해석 가능성, 재현성 등의 도전 과제도 함께 제기하고 있으며, 이에 대한 지속적인 탐구와 개선, 연구가 필요합니다.
Large Language Models (LLMs) are reshaping many aspects of materials science and chemistry research, enabling advances in molecular property prediction, materials design, scientific automation, knowledge extraction, and more. Recent developments demonstrate that the latest class of models are able to integrate structured and unstructured data, assist in hypothesis generation, and streamline research workflows. To explore the frontier of LLM capabilities across the research lifecycle, we review applications of LLMs through 34 total projects developed during the second annual Large Language Model Hackathon for Applications in Materials Science and Chemistry, a global hybrid event. These projects spanned seven key research areas: (1) molecular and material property prediction, (2) molecular and material design, (3) automation and novel interfaces, (4) scientific communication and education, (5) research data management and automation, (6) hypothesis generation and evaluation, and (7) knowledge extraction and reasoning from the scientific literature. Collectively, these applications illustrate how LLMs serve as versatile predictive models, platforms for rapid prototyping of domain-specific tools, and much more. In particular, improvements in both open source and proprietary LLM performance through the addition of reasoning, additional training data, and new techniques have expanded effectiveness, particularly in low-data environments and interdisciplinary research. As LLMs continue to improve, their integration into scientific workflows presents both new opportunities and new challenges, requiring ongoing exploration, continued refinement, and further research to address reliability, interpretability, and reproducibility.
논문 링크
타입 제약 기반 언어 모델의 코드 생성: 형식 시스템을 활용한 안전한 코드 생성 방법 / Type-Constrained Code Generation with Language Models
논문 소개
대형 언어 모델(LLMs)은 코드 생성에서 뛰어난 성과를 거두었지만, 여전히 컴파일 불가능한 출력이 발생하는 문제가 있습니다. 이는 모델의 다음 토큰 예측이 코드의 형식적 특성을 충분히 반영하지 않기 때문이며, 기존의 제약 디코딩은 주로 도메인 특화 언어나 구문적 특징에만 적용되어 왔습니다. 본 연구는 타입 시스템을 활용하여 코드 생성 과정에서 타입 오류를 방지하는 타입 제약 디코딩 방식을 제안하며, 이를 위해 새로운 접두사 오토마타와 타입 탐색 기법을 개발하였습니다. 실험 결과, 이 방법은 컴파일 오류를 절반 이상 줄이고, 다양한 크기와 모델 계열의 LLM에서 코드의 기능적 정확성을 크게 향상시키는 등, 형식적 타입 규칙을 활용한 제약이 효과적임을 보여줍니다.
논문 초록(Abstract)
대형 언어 모델(LLMs)은 코드 생성 분야에서 눈에 띄는 성과를 거두고 있습니다. 그러나 이들 모델은 여전히 종종 컴파일이 불가능한 출력을 생성하는데, 이는 다음 토큰 추론 과정이 코드의 형식적 측면을 충분히 모델링하지 않기 때문입니다. 제약된 디코딩(constraint decoding)은 이러한 문제를 완화하는 유망한 방법이지만, 지금까지는 도메인 특화 언어(domain-specific languages) 또는 범용 프로그래밍 언어의 구문적(syntactic) 특성에만 적용되어 왔습니다. 그러나 대형 언어 모델은 종종 타입 오류(typing errors)가 포함된 코드를 생성하는데, 이는 구문 영역을 넘어서는 문제이며 적절히 제약하기 어렵습니다. 이러한 도전 과제를 해결하기 위해, 본 연구에서는 타입 시스템(type systems)을 활용하여 코드 생성을 안내하는 타입 제약 디코딩(type-constrained decoding) 방식을 제안합니다. 이를 위해, 우리는 새로운 접두사 오토마타(prefix automata)와 생존 가능한 타입(inhabitable types)을 탐색하는 방법을 개발하여, 생성된 코드가 잘 타입이 맞도록 강제하는 신뢰할 수 있는 접근법을 구축하였습니다. 본 방법은 기본적인 단순 타입 언어(simplistically-typed language)에서 공식화하였으며, 실용성을 입증하기 위해 TypeScript로 확장하였습니다. HumanEval 및 MBPP 데이터셋에 대한 평가 결과, 본 접근법은 컴파일 오류를 절반 이상 줄이고, 코드 합성, 번역, 수리 작업에서의 기능적 정확성을 크게 향상시켰음을 보여줍니다. 또한, 다양한 크기와 모델 계열(최신 오픈 가중치 모델, 30B 이상의 파라미터를 갖는 모델 포함)에서도 효과적임이 입증되었습니다. 이러한 결과는 본 방법이 타입 시스템의 형식적 규칙을 활용하여 LLM의 코드 생성을 제약하는 데 있어 그 보편성과 효율성을 보여줍니다.
Large language models (LLMs) have achieved notable success in code generation. However, they still frequently produce uncompilable output because their next-token inference procedure does not model formal aspects of code. Although constrained decoding is a promising approach to alleviate this issue, it has only been applied to handle either domain-specific languages or syntactic features of general-purpose programming languages. However, LLMs frequently generate code with typing errors, which are beyond the domain of syntax and generally hard to adequately constrain. To address this challenge, we introduce a type-constrained decoding approach that leverages type systems to guide code generation. For this purpose, we develop novel prefix automata and a search over inhabitable types, forming a sound approach to enforce well-typedness on LLM-generated code. We formalize our approach on a foundational simply-typed language and extend it to TypeScript to demonstrate practicality. Our evaluation on the HumanEval and MBPP datasets shows that our approach reduces compilation errors by more than half and significantly increases functional correctness in code synthesis, translation, and repair tasks across LLMs of various sizes and model families, including state-of-the-art open-weight models with more than 30B parameters. The results demonstrate the generality and effectiveness of our approach in constraining LLM code generation with formal rules of type systems.
논문 링크
대규모 언어모델의 응답 품질 평가를 위한 자기 확신 기반 확장 가능 선택 기법 / Scalable Best-of-N Selection for Large Language Models via Self-Certainty
논문 소개
Self-certainty is proposed as an efficient metric that utilizes the inherent probability distribution of Large Language Model (LLM) outputs to estimate response quality without relying on external reward models. It correlates higher distributional self-certainty with improved response accuracy, especially when aggregated across multiple samples, and scales effectively with increasing sample size. The method enhances reasoning performance beyond greedy decoding, complements chain-of-thought prompting, and is applicable to open-ended tasks where traditional self-consistency methods are limited. Overall, self-certainty offers a practical approach to improving LLM reasoning capabilities with reduced computational overhead.
논문 초록(Abstract)
대상 선택(Best-of-N selection)은 테스트 시점의 계산량을 늘림으로써 대형 언어 모델(LLMs)의 추론 성능을 향상시키는 핵심 기법입니다. 현재 최첨단 방법들은 응답 평가와 선택을 위해 계산 비용이 많이 드는 보상 모델(reward models)을 자주 활용합니다. 반면, 자기 일관성(self-consistency)이나 범용 자기 일관성(universal self-consistency)과 같은 보상 없는 대안들은 개방형 생성(open-ended generation) 작업을 처리하거나 효과적으로 확장하는 데 한계가 있습니다. 이러한 문제를 해결하기 위해, 우리는 ‘자기 확실성(self-certainty)’이라는 새롭고 효율적인 지표를 제안합니다. 이 지표는 외부 보상 모델 없이도 LLM 출력의 내재된 확률 분포를 활용하여 응답 품질을 추정할 수 있습니다. 우리는 여러 샘플에 걸쳐 집계된 높은 분포적 자기 확실성(self-certainty)이 생성된 응답에 대한 신뢰도가 높음을 반영하며, 이는 응답의 정확도 향상과 상관관계가 있다고 가정합니다. 다양한 추론 작업에 대한 광범위한 실험을 통해, 자기 확실성은 (1) 샘플 크기 $N$이 증가함에 따라 reward 모델과 유사하게 효과적으로 확장되며, 계산 비용은 적게 든다는 점, (2) 체인 오브 사고(chain-of-thought) 방식을 보완하여 탐욕적 디코딩(greedy decoding) 이상의 추론 성능을 향상시킨다는 점, 그리고 (3) 전통적인 자기 일관성 방법이 한계에 부딪히는 개방형 작업(open-ended tasks)에도 일반화된다는 점을 보여줍니다. 본 연구 결과는 자기 확실성을 LLM의 추론 능력 향상에 실용적이고 효율적인 방법으로 자리매김하며, 관련 코드는 GitHub - backprop07/Self-Certainty: Implementation of self-certainty as an extention of ZeroEval Project 에서 확인하실 수 있습니다.
Best-of-N selection is a key technique for improving the reasoning performance of Large Language Models (LLMs) through increased test-time computation. Current state-of-the-art methods often employ computationally intensive reward models for response evaluation and selection. Reward-free alternatives, like self-consistency and universal self-consistency, are limited in their ability to handle open-ended generation tasks or scale effectively. To address these limitations, we propose self-certainty, a novel and efficient metric that leverages the inherent probability distribution of LLM outputs to estimate response quality without requiring external reward models. We hypothesize that higher distributional self-certainty, aggregated across multiple samples, correlates with improved response accuracy, as it reflects greater confidence in the generated output. Through extensive experiments on various reasoning tasks, we demonstrate that self-certainty (1) scales effectively with increasing sample size N, akin to reward models but without the computational overhead; (2) complements chain-of-thought, improving reasoning performance beyond greedy decoding; and (3) generalizes to open-ended tasks where traditional self-consistency methods fall short. Our findings establish self-certainty as a practical and efficient way for improving LLM reasoning capabilities. The code is available at GitHub - backprop07/Self-Certainty: Implementation of self-certainty as an extention of ZeroEval Project
논문 링크
더 읽어보기
지각 인코더: 최고의 시각 임베딩은 네트워크 출력이 아닌 중간 층에 존재한다 / Perception Encoder: The best visual embeddings are not at the output of the network
논문 소개
Perception Encoder (PE)는 이미지와 비디오 이해를 위한 최첨단 비전 인코더로, 간단한 비전-언어 학습을 통해 강력한 일반 임베딩을 생성합니다. 기존의 비전 인코더는 특정 다운스트림 작업에 맞춘 사전학습 목표에 의존했으나, PE는 대조적 비전-언어 학습만으로 다양한 작업에 적합한 임베딩을 얻을 수 있음을 보여줍니다. 그러나 이러한 임베딩은 네트워크의 중간 계층에 존재하므로, 언어 정렬과 공간 정렬 방법을 도입하여 이를 추출합니다. 이 모델은 제로샷 이미지 및 비디오 분류, 검색, 문서 및 영상 Q&A, 그리고 탐지와 추적 등 다양한 작업에서 최고 성능을 기록하며, 연구 활성화를 위해 모델과 데이터셋을 공개하고 있습니다.
논문 초록(Abstract)
본 논문에서는 이미지 및 비디오 이해를 위한 최첨단 비전 인코더인 Perception Encoder(PE)를 소개합니다. PE는 간단한 비전-언어 학습(vision-language learning)을 통해 학습된 모델입니다. 전통적으로 비전 인코더는 분류, 캡션 생성, 위치 지정 등 특정 하위 작업에 맞춘 다양한 사전 학습 목표(pretraining objectives)에 의존해 왔습니다. 놀랍게도, 저희는 정교하게 조정된 이미지 사전 학습 방법을 확장하고 강력한 비디오 데이터 엔진으로 정제한 후, 대조적(contrastive) 비전-언어 학습만으로도 이러한 하위 작업 모두에 강력하고 일반적인 임베딩(embeddings)을 생성할 수 있음을 발견하였습니다. 다만 한 가지 주의할 점은, 이러한 임베딩이 네트워크의 중간 계층에 숨어 있다는 점입니다. 이를 추출하기 위해, 저희는 두 가지 정렬 방법을 도입하였습니다. 하나는 다중 모달 언어 모델링을 위한 언어 정렬(language alignment)이고, 다른 하나는 밀집 예측(dense prediction)을 위한 공간 정렬(spatial alignment)입니다. 이 두 정렬 방법을 결합한 PE 계열 모델은 다양한 작업에서 최고 수준의 성능을 달성하였으며, 구체적으로는 다음과 같습니다. (1) 제로샷(zero-shot) 이미지 및 비디오 분류와 검색에서, 평균 제로샷 ImageNet 강인성 86.6과 Kinetics-400 비디오 분류 76.9를 동시에 기록하였고, (2) 문서, 이미지, 비디오 질문 응답(Q&A) 분야에서 각각 94.6의 DocVQA, 80.9의 InfographicVQA, 82.7의 PerceptionTest 성과를 8억(8B) 규모의 대형 언어 모델(LLM)로 달성하였으며, (3) 검출, 추적, 깊이 추정과 같은 공간적 작업에서도 COCO 데이터셋 기준 박스 평균 정밀도(box mAP) 66.0이라는 새로운 최첨단 성과를 기록하였습니다. 향후 연구 활성화를 위해, 저희는 본 모델, 코드, 그리고 합성 및 인간 주석이 달린 비디오 데이터셋을 공개합니다. 자세한 내용은 https URL에서 확인하실 수 있습니다.
We introduce Perception Encoder (PE), a state-of-the-art vision encoder for image and video understanding trained via simple vision-language learning. Traditionally, vision encoders have relied on a variety of pretraining objectives, each tailored to specific downstream tasks such as classification, captioning, or localization. Surprisingly, after scaling our carefully tuned image pretraining recipe and refining with our robust video data engine, we find that contrastive vision-language training alone can produce strong, general embeddings for all of these downstream tasks. There is only one caveat: these embeddings are hidden within the intermediate layers of the network. To draw them out, we introduce two alignment methods: language alignment for multimodal language modeling, and spatial alignment for dense prediction. Together, our PE family of models achieves best-in-class results on a wide variety of tasks, including (1) zero-shot image and video classification and retrieval, simultaneously obtaining 86.6 average zero-shot ImageNet robustness and 76.9 zero-shot Kinetics-400 video classification; (2) document, image, and video Q&A, enabling 94.6 DocVQA, 80.9 InfographicVQA, and 82.7 PerceptionTest with an 8B LLM; and (3) spatial tasks such as detection, tracking, and depth estimation, setting a new COCO state-of-the-art of 66.0 box mAP. To foster further research, we release our models, code, and novel dataset of synthetically and human-annotated videos: GitHub - facebookresearch/perception_models: State-of-the-art Image & Video CLIP, Multimodal Large Language Models, and More!
논문 링크
더 읽어보기
당신의 ViT는 은밀히 이미지 분할 모델이다 / Your ViT is Secretly an Image Segmentation Model
논문 소개
Vision Transformers (ViTs)는 다양한 컴퓨터 비전 작업에서 뛰어난 성능과 확장성을 보여줍니다. 기존의 이미지 분할 방법은 다중 스케일 특징을 생성하는 컨볼루션 어댑터와 피ixel 디코더, 그리고 이를 이용한 트랜스포머 디코더를 포함하는 복잡한 구조를 사용하지만, 본 연구에서는 충분한 크기와 사전 학습이 이루어진 ViT 자체가 이러한 태스크 특화 컴포넌트의 유도 편향을 학습할 수 있음을 보여줍니다. 이를 바탕으로, 단일 구조의 ViT를 활용하는 Encoder-only Mask Transformer (EoMT)를 제안하며, 대규모 사전 학습과 모델 확장으로 기존 최첨단 모델과 유사한 분할 정확도를 달성하면서도 훨씬 빠른 속도를 구현합니다. 이러한 결과는 모델의 크기를 키우는 것에 자원을 집중하는 것이 복잡한 구조를 추가하는 것보다 효율적임을 시사합니다.
논문 초록(Abstract)
비전 트랜스포머(Vision Transformers, ViTs)는 다양한 컴퓨터 비전 작업에서 뛰어난 성능과 확장성을 보여주고 있습니다. 단일 스케일 ViT를 이미지 분할에 적용하기 위해 기존 방법들은 컨볼루션 어댑터(convolutional adapter)를 활용하여 다중 스케일 특징을 생성하고, 픽셀 디코더(pixel decoder)를 통해 이 특징들을 융합하며, 이후 융합된 특징들을 이용해 예측을 수행하는 트랜스포머 디코더(Transformer decoder)를 사용하는 방식을 채택하고 있습니다. 본 연구에서는 이러한 작업 특화 구성요소들이 도입하는 귀납적 편향(inductive biases)이 충분히 큰 모델과 광범위한 사전 학습(pre-training)을 통해 ViT 자체가 학습할 수 있음을 보여줍니다. 이러한 발견을 바탕으로, 우리는 순수한 ViT 구조를 이미지 분할에 활용하는 ‘인코더 전용 마스크 트랜스포머(Encoder-only Mask Transformer, EoMT)’를 제안합니다. 대규모 모델과 사전 학습을 통해 EoMT는 작업 특화 구성요소를 사용하는 최첨단 모델들과 유사한 분할 정확도를 달성하며, 동시에 구조가 간단하여 훨씬 빠른 속도를 보여줍니다. 예를 들어, ViT-L 기준으로 최대 4배 빠른 속도를 기록합니다. 다양한 크기의 모델에 걸쳐 EoMT는 분할 정확도와 예측 속도 간의 최적의 균형을 보여주며, 이는 계산 자원을 모델 확장에 집중하는 것이 구조적 복잡성을 더하는 것보다 더 효율적임을 시사합니다. 코드: 이 URL 참조.
Vision Transformers (ViTs) have shown remarkable performance and scalability across various computer vision tasks. To apply single-scale ViTs to image segmentation, existing methods adopt a convolutional adapter to generate multi-scale features, a pixel decoder to fuse these features, and a Transformer decoder that uses the fused features to make predictions. In this paper, we show that the inductive biases introduced by these task-specific components can instead be learned by the ViT itself, given sufficiently large models and extensive pre-training. Based on these findings, we introduce the Encoder-only Mask Transformer (EoMT), which repurposes the plain ViT architecture to conduct image segmentation. With large-scale models and pre-training, EoMT obtains a segmentation accuracy similar to state-of-the-art models that use task-specific components. At the same time, EoMT is significantly faster than these methods due to its architectural simplicity, e.g., up to 4x faster with ViT-L. Across a range of model sizes, EoMT demonstrates an optimal balance between segmentation accuracy and prediction speed, suggesting that compute resources are better spent on scaling the ViT itself rather than adding architectural complexity. Code: Your ViT is Secretly an Image Segmentation Model (CVPR 2025 Highlight).
논문 링크
더 읽어보기
인공지능 음성 합성 서비스에서의 억양 편향과 디지털 배제: 사용자 경험과 기술적 차이 분석 / "It's not a representation of me": Examining Accent Bias and Digital Exclusion in Synthetic AI Voice Services
논문 소개
Recent advancements in AI speech generation and voice cloning have enabled highly naturalistic and accurate voice replication, but their sociotechnical impacts across diverse accents remain underexplored. The study evaluates the technical performance of two synthetic AI voice services, Speechify and ElevenLabs, revealing disparities in handling five regional English accents. Findings suggest that current technologies may unintentionally reinforce linguistic privilege and accent-based discrimination, leading to digital exclusion. The research underscores the importance of inclusive design and regulation to promote equitable and socially responsible AI speech services.
논문 초록(Abstract)
최근 인공지능(AI) 음성 생성 및 음성 복제 기술의 발전으로 자연스러운 음성 생성과 정확한 목소리 복제가 가능해졌으나, 이러한 기술이 다양한 억양과 언어적 특성을 지닌 사회기술 시스템에 미치는 영향은 아직 충분히 이해되지 않고 있습니다. 본 연구는 설문조사와 인터뷰를 병행하는 혼합 방법론을 통해 두 가지 인공지능 음성 서비스( Speechify와 ElevenLabs)의 기술적 성능을 평가하고, 사용자들의 경험이 이러한 음성 기술의 억양 차이에 대한 인식에 어떤 영향을 미치는지 탐구하였습니다. 연구 결과는 다섯 개 지역 영어 억양 간의 기술적 성능 차이를 드러내었으며, 현재의 음성 생성 기술이 무심코 언어적 특권과 억양 기반 차별을 강화할 가능성을 보여줍니다. 이는 새로운 디지털 배제의 형태를 초래할 수 있음을 시사합니다. 전반적으로 본 연구는 포용적인 설계와 규제의 필요성을 강조하며, 개발자, 정책입안자, 그리고 관련 기관들이 공정하고 사회적으로 책임 있는 AI 음성 기술을 구현할 수 있도록 실질적인 통찰을 제공합니다.
Recent advances in artificial intelligence (AI) speech generation and voice cloning technologies have produced naturalistic speech and accurate voice replication, yet their influence on sociotechnical systems across diverse accents and linguistic traits is not fully understood. This study evaluates two synthetic AI voice services (Speechify and ElevenLabs) through a mixed methods approach using surveys and interviews to assess technical performance and uncover how users' lived experiences influence their perceptions of accent variations in these speech technologies. Our findings reveal technical performance disparities across five regional, English-language accents and demonstrate how current speech generation technologies may inadvertently reinforce linguistic privilege and accent-based discrimination, potentially creating new forms of digital exclusion. Overall, our study highlights the need for inclusive design and regulation by providing actionable insights for developers, policymakers, and organizations to ensure equitable and socially responsible AI speech technologies.
논문 링크
인공지능 연구의 최종 목표로 ‘AGI’에 집착하지 말아야 한다 / Stop treating `AGI' as the north-star goal of AI research
논문 소개
The paper emphasizes that focusing on artificial general intelligence (AGI) as the primary goal of AI research can hinder effective goal-setting by fostering misconceptions and biases. It identifies six key traps—such as the illusion of consensus and the presumption of value-neutrality—that are exacerbated by AGI discourse, which can lead to misguided research priorities. To address these issues, the authors advocate for prioritizing specific engineering and societal objectives, embracing pluralism in approaches and goals, and promoting interdisciplinary inclusion to foster innovation. Ultimately, they argue that the AI community should move away from treating AGI as the ultimate aim to ensure more productive and responsible research.
논문 초록(Abstract)
인공지능(AI) 연구 커뮤니티는 AI 연구의 과학적, 공학적, 사회적 목표를 형성하는 데 중요한 역할을 합니다. 본 포지션 페이퍼에서는 ‘인공지능 일반지능(Artificial General Intelligence, AGI)’이라는 매우 논쟁이 많은 주제에 집중하는 것이 오히려 우리가 효과적인 목표를 선택하는 능력을 저해할 수 있다고 주장합니다. 우리는 AGI 담론으로 인해 악화되는 여섯 가지 주요 함정—즉, 생산적인 목표 설정을 방해하는 장애물—을 식별하였으며, 이들은 ‘합의의 환상(Illusion of Consensus)’, ‘나쁜 과학의 과도한 강화(Supercharging Bad Science)’, ‘가치 중립성 가정(Presuming Value-Neutrality)’, ‘목표 복권(Goal Lottery)’, ‘일반성 부채(Generality Debt)’, 그리고 ‘정상화된 배제(Normalized Exclusion)’입니다. 이러한 함정을 피하기 위해, 인공지능 연구 커뮤니티는 (1) 공학적 및 사회적 목표에서 구체성을 우선시하고, (2) 여러 가치 있는 목표와 다양한 유용한 접근법에 대한 다원주의를 중심에 두며, (3) 다양한 학문과 커뮤니티의 참여를 확대하여 혁신을 촉진해야 한다고 주장합니다. 따라서 인공지능 연구 커뮤니티는 ‘AGI’를 인공지능 연구의 북극성(북쪽 별) 목표로 삼는 태도를 중단할 필요가 있습니다.
The AI research community plays a vital role in shaping the scientific, engineering, and societal goals of AI research. In this position paper, we argue that focusing on the highly contested topic of
artificial general intelligence' (
AGI') undermines our ability to choose effective goals. We identify six key traps -- obstacles to productive goal setting -- that are aggravated by AGI discourse: Illusion of Consensus, Supercharging Bad Science, Presuming Value-Neutrality, Goal Lottery, Generality Debt, and Normalized Exclusion. To avoid these traps, we argue that the AI research community needs to (1) prioritize specificity in engineering and societal goals, (2) center pluralism about multiple worthwhile approaches to multiple valuable goals, and (3) foster innovation through greater inclusion of disciplines and communities. Therefore, the AI research community needs to stop treating `AGI' as the north-star goal of AI research.
논문 링크
MVDRAM: 비수정 DRAM에서 저비트 대형 언어모델 가속을 위한 GeMV 실행 가능성 확보 / MVDRAM: Enabling GeMV Execution in Unmodified DRAM for Low-Bit LLM Acceleration
논문 소개
Large language model (LLM) 추론에서 중요한 병목인 일반 행렬-벡터 곱셈(GeMV)의 성능 향상을 위해, 기존의 아날로그 인-DRAM 연산 기법인 Processing-Using-DRAM(PUD)의 한계를 극복하는 시스템이 제안됩니다. MVDRAM은 수정되지 않은 표준 DRAM을 활용하여, 데이터 공유 패턴과 수학적 선형성을 이용해 입력 재배열과 출력 비트 전환 비용을 제거함으로써, 저비트(4비트 이하) LLM의 GeMV 연산을 가속화합니다. 실험 결과, MVDRAM은 DDR4 DRAM 모듈에서 최대 7.29배의 속도 향상과 30.5배의 에너지 효율 개선을 달성하며, 전체 LLM 추론에서도 2.18배의 처리량 향상과 에너지 효율 향상을 보여줍니다. 이러한 성과는 표준 DRAM을 활용한 LLM 가속화 가능성을 보여주며, AI 하드웨어 분야에 새로운 전환점을 제시할 수 있습니다.
논문 초록(Abstract)
일반 행렬-벡터 곱셈(GeMV)은 양자화된 저비트 모델(quantized low-bit models)에서도 대형 언어 모델(LLM) 추론 과정에서 여전히 중요한 지연 병목 현상으로 남아 있습니다. 아날로그 인-DRAM 컴퓨팅 기술인 Processing-Using-DRAM(PUD)은 온디바이스(장치 내) DRAM을 GeMV 연산 엔진으로 재구성할 수 있는 잠재력을 지니고 있으며, 이를 통해 DRAM을 수정하지 않고도 광범위한 소비자 기기에서 고처리량(High-throughput) 처리 능력을 추가로 제공할 수 있습니다. 그러나 PUD를 LLM 추론 파이프라인 내 GeMV 연산에 적용할 경우, 인-DRAM 연산 전후에 상당한 오버헤드가 발생하여 고처리량 처리 능력의 이점을 저해하는 문제가 있습니다.
본 논문에서는 비수정 DRAM을 이용하여 저비트(under 4-bit) LLM 추론을 가속화하는 최초의 실용적 시스템인 MVDRAM(Memory-Driven DRAM)을 제안합니다. MVDRAM은 GeMV 연산의 데이터 공유 패턴과 수학적 선형성(linearity)을 활용하여, 기존 PUD 방식에서 요구되는 입력 데이터의 사전 정렬(pre-arranging)과 출력 비트 전환(bit-transposition) 비용을 제거하도록 프로세서와 DRAM을 효율적으로 조율합니다. 실험은 네 개의 DDR4 DRAM 모듈을 대상으로 수행했으며, 그 결과 MVDRAM은 저비트(4비트 미만) LLM의 GeMV 연산에서 프로세서 기반 구현과 유사하거나 더 빠른 추론 속도를 달성하였음을 보여줍니다. 특히, MVDRAM은 저비트 GeMV 연산에 대해 최대 7.29배(×7.29)의 속도 향상과 30.5배(×30.5)의 에너지 효율 향상을 이뤘습니다. 전체 LLM 추론 과정에서도 MVDRAM은 2비트 및 4비트 양자화된 저비트 모델에 대해 각각 2.18배(×2.18)와 1.31배(×1.31)의 처리량 향상과 3.04배(×3.04)와 2.35배(×2.35)의 에너지 효율 향상을 실현하였습니다. 이러한 성과는 표준 DRAM이 LLM 가속기로서의 가능성을 보여줌으로써, AI 하드웨어 분야의 지형을 재정의할 잠재력을 지니고 있습니다.
General matrix-vector multiplication (GeMV) remains a critical latency bottleneck in large language model (LLM) inference, even with quantized low-bit models. Processing-Using-DRAM (PUD), an analog in-DRAM computing technique, has the potential to repurpose on-device DRAM as a GeMV engine, offering additional high-throughput processing capabilities to widespread consumer devices without DRAM modifications. However, applying PUD to GeMV operations in the LLM inference pipeline incurs significant overheads \textit{before} and \textit{after} in-DRAM computation, diminishing the benefits of its high-throughput processing capabilities. This paper presents MVDRAM, the first practical system to accelerate GeMV operations for low-bit LLM inference using unmodified DRAM. By leveraging the data sharing patterns and mathematical linearity in GeMV operations, MVDRAM orchestrates the processor and DRAM to eliminate the costs associated with pre-arranging inputs and bit-transposition of outputs required in conventional PUD approaches. Our experimental evaluation with four DDR4 DRAM modules shows that MVDRAM achieves comparable or even better inference speed than the processor-based implementation for GeMV operations in low-bit (under 4-bit) LLM. In particular, MVDRAM achieves up to 7.29$\times$ speedup and 30.5$\times$ energy efficiency for low-bit GeMV operations. For end-to-end LLM inference, MVDRAM achieves 2.18$\times$ and 1.31$\times$ throughput improvements, along with 3.04$\times$ and 2.35$\times$ energy efficiency, for 2-bit and 4-bit quantized low-bit models, respectively. MVDRAM has the potential to redefine the AI hardware landscape by demonstrating the feasibility of standard DRAM as an LLM accelerator.
논문 링크
파이토치 한국 사용자 모임
이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일
로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)
아래
쪽에 좋아요
를 눌러주시면 뉴스 발행에 힘이 됩니다~