Anthropic, 현실 세계에서의 AI 에이전트 자율성을 측정한 'Measuring AI Agent Autonomy in Practice' 연구 공개

9bow · 2월 21, 2026, 9:30오전

Anthropic의 AI 에이전트 자율성 측정 연구 내용 요약

Anthropic은 수백만건의 자사의 Claude Code 및 Public API 사용 내역을 분석하여 현실 세계에서 사람들이 어느 분야에서 / 어떻게 에이전트를 사용하고 있는지와 경험이 쌓여가며 에이전트에게 자율성을 부여는 양상이 어떻게 변화하는지 등에 대해 연구하였습니다. 다음은 본 연구의 주요 인사이트입니다:

에이전트 자율성 및 사용자 행동 변화(Claude Code is working autonomously for longer): 가장 눈에 띄는 변화는 Claude Code를 사용하는 과정에서 나타난 자율성의 증가입니다. 지난 3개월 동안 에이전트가 사람의 개입 없이 스스로 작업을 수행하는 시간이 기존 25분 미만에서 45분 이상으로 두 배 가까이 늘어났습니다. 이는 단순히 모델의 성능 향상 때문만이 아니라, 기존 모델들도 실제 사용 환경에서 더 높은 자율성을 발휘할 잠재력이 있음을 시사합니다.
사용자들의 숙련도에 따른 변화(Experienced users in Claude Code auto-approve more frequently, but interrupt more often): 초보 사용자의 경우 약 20%만이 에이전트의 작업을 일괄 승인(Auto-approve)하는 반면 , 경험이 쌓인 숙련 사용자들은 이 비율이 40% 이상으로 높아집니다. 흥미로운 점은 숙련자들이 에이전트에게 더 많은 권한을 부여하면서도, 문제가 발생할 때는 더 빈번하게 개입하여 흐름을 조정한다는 것입니다.
통제와 협업의 메커니즘(Claude Code pauses for clarification more often than humans interrupt it): 연구에서는 에이전트의 중단 기제에 대해서도 다루고 있습니다. 복잡한 과업을 수행할 때 클로드(Claude)가 스스로 판단하여 사용자에게 질문을 던지며 멈추는 횟수가, 사용자가 직접 에이전트를 중단시키는 횟수보다 2배 이상 많았습니다. 이는 에이전트가 스스로의 한계를 인식하고 사용자에게 확인을 요청하는 에이전트 주도 중단(Claude stops itself)이 안전한 운용의 핵심적인 축이 되고 있음을 보여줍니다.
사용 분야 및 위험 관리(Agents are used in risky domains, but not yet at scale): 현재 에이전트 활용의 약 50%는 소프트웨어 공학 분야에 집중되어 있으며, 대부분의 작업은 되돌릴 수 있는 저위험군에 속합니다. 하지만 헬스케어, 금융, 사이버 보안 등 고위험군 분야에서도 에이전트 도입이 점진적으로 시작되고 있습니다.

본 연구에서는 안전한 AI 에이전트 배포를 위해 다음 두 가지가 필수적이라고 제언합니다:

배포 후 모니터링 인프라(Post-Deployment Monitoring Infrastructure): 배포 후 에이전트의 행동을 지속적으로 감시할 수 있는 새로운 모니터링 인프라 구축
새로운 인간-AI 상호작용 패러다임(New human-AI Interaction Paradigms): 인간과 AI가 자율성과 리스크를 함께 관리할 수 있는 새로운 방식의 상호작용 패러다임 도입

연구 개요: 야생의 AI 에이전트 자율성 측정 연구 도입

통제된 환경을 넘어선 현실 세계 데이터 확보의 당위성

최근 대규모 언어 모델을 기반으로 한 인공지능 기술이 비약적으로 발전함에 따라, AI 에이전트는 단순한 이메일 분류나 개인 일정 관리와 같은 일상적인 보조 역할을 넘어서서 복잡한 사이버 보안 취약점 점검 및 대규모 소프트웨어 엔지니어링 아키텍처 개편에 이르기까지 매우 광범위하고 중대한 분야에 적극적으로 도입되고 있습니다. 이러한 에이전트들의 활용 범위가 넓어지고 그 판단이 초래할 결과의 중대성이 커질수록, AI 시스템이 진정으로 안전하고 효과적으로 현업에 배포되기 위해서는 실제 사람들이 예측 불가능한 현실 세계에서 에이전트를 정확히 어떤 방식으로 사용하고 있는지 명확하게 이해하는 과정이 반드시 선행되어야 합니다.

하지만 에이전트 기술 자체가 눈부신 속도로 발전하고 진화하고 있는 현실에 비해, 실제 현장의 배포 환경에서 사용자들이 AI 에이전트에게 어느 정도 수준의 자율성을 허용하고 있으며 문제 발생 시 어떠한 방식으로 개입하여 상호작용하는지에 대한 실증적이고 체계적인 데이터는 학계와 산업계를 막론하고 놀라울 정도로 턱없이 부족한 상황이었습니다.

Anthropic은 바로 이러한 심각한 지식의 공백을 메우고 실효성 있는 안전 기준을 마련하기 위해, 통제된 실험실 환경이나 벤치마크 테스트 결과에만 맹목적으로 의존하지 않고 현실의 사용자들이 AI 에이전트에게 어떻게 업무를 맡기고 그 과정을 통제하는지 구체적인 데이터를 바탕으로 심층적인 통찰을 제공하는 포괄적인 연구를 야심 차게 진행하였습니다. 이는 기술의 잠재력 측정에서 한 걸음 더 나아가 실제 인간과 기계 간의 신뢰 기반 협력 양상을 규명한다는 점에서 실무적 의미를 부여하고 있습니다.

깊이와 너비를 결합한 Anthropic의 교차 검증 방법론

이러한 복잡다단한 현실의 현상을 심층적으로 조사하고 정량화하기 위해, Anthropic의 연구진은 사용자의 민감한 개인정보와 기업의 기밀 데이터를 철저하게 보호하는 특수 인프라를 적극적으로 활용하여 자체 코딩 에이전트인 클로드 코드(Claude Code) 및 자사의 공개 API를 통해 실시간으로 발생한 수백만 건 이상의 방대한 인간-에이전트 상호작용 데이터를 입체적으로 수집하고 분석하였습니다. 이 연구는 구체적으로 사용자들이 일상적인 업무 속에서 에이전트에게 실제로 어느 정도의 자율성을 기꺼이 허용하는지, 그리고 사용자가 해당 도구에 대한 경험과 신뢰를 쌓아감에 따라 에이전트를 감독하고 통제하는 방식이 과연 어떻게 동적으로 변화하는지를 정밀하게 파악하는 데 모든 역량을 집중하였습니다.

깊이 있는 분석을 위해 자체 개발 제품인 클로드 코드(Claude Code)의 세션 데이터를 활용함으로써 Anthropic 연구진은 사용자의 최초 요청부터 작업이 최종 완료되는 순간까지 전체 흐름을 완벽하게 추적할 수 있었으며, 이를 통해 에이전트가 인간의 개입 없이 스스로 얼마나 오래 실행되는지 혹은 어떤 특정 상황에서 인간의 멈춤 지시가 발생하는지 등 자율성의 세부적인 동태를 현미경처럼 들여다볼 수 있었습니다. 이와 동시에 너비를 확보하기 위해 수천 명의 다양한 기업 및 개인 고객이 제각기 다른 목적으로 활용하는 퍼블릭 API 트래픽 상의 개별 도구 호출(Tool call) 데이터를 결합하였으며, 이로써 특정 단일 제품의 편향을 넘어 매우 폭넓고 다채로운 산업군에서의 에이전트 활용 현황을 객관적으로 교차 검증하는 탁월한 방법론적 성취를 이루어냈습니다.

결과적으로 깊이를 담당하는 클로드 코드(Claude Code) 데이터와 너비를 대변하는 공개 API(Public API) 트래픽이라는 이질적이지만 상호 보완적인 두 데이터 소스의 유기적인 결합은, 기존의 단일 데이터 추적 방식만으로는 결코 도달할 수 없었던 에이전트 자율성에 대한 대단히 입체적이고 신뢰도 높은 시각을 우리에게 제공해주고 있습니다.

인공지능 성능 평가 패러다임의 전환

이상적 환경을 가정한 기존 METR 평가 지표와의 괴리

최근 인공지능 업계에서 AI 모델의 고도화된 성능을 평가하는 척도로 널리 인용되고 있는 METR의 "긴 작업을 수행하는 인공지능의 능력 측정(Measuring AI Ability to Complete Long Tasks)에 대한 연구 결과에 따르면, 현재 시장을 선도하는 최고 수준의 AI 모델들은 인간 전문가가 무려 5시간 동안 온전히 집중하여 수행해야 하는 극도로 길고 복잡한 작업을 인간의 도움 없이 약 50%의 높은 성공률로 단독 완수할 수 있는 엄청난 내재적 잠재력을 지니고 있다고 평가받고 있습니다.

그러나 Anthropic이 이번에 현업 사용자의 실제 데이터를 바탕으로 측정한 에이전트의 실제 자율성 지속 시간 수치는 이러한 화려한 벤치마크 테스트의 결괏값과는 상당히 큰 괴리를 보이며 전혀 다른 양상의 결을 선명하게 보여주고 있습니다. 실제 클로드 코드 사용 환경에서 사용자의 간섭 없이 에이전트가 가장 길게 단독으로 작업을 유지한 상위 0.1퍼센트(99.9분위)의 극단적인 롱테일 자율 작업 지속 시간조차 약 42분에서 45분 수준에 머무르는 것으로 측정되었으며, 전체 사용자의 일반적인 작업 패턴을 대변하는 중앙값(Median)의 경우에는 하나의 턴이 고작 45초 내외로 유지되는 데 불과할 정도로 무척 짧게 나타났습니다.

겉보기에 이러한 수치의 격차는 현재 배포된 AI 모델의 실제 지능이나 기술적 한계가 벤치마크 평가에 미치지 못해서 발생하는 현상으로 오해하기 쉬우나, 근본적인 원인은 모델의 능력 부족이 아니라 두 지표가 측정하고 있는 환경의 근본적인 차이에 기인합니다. 즉, METR의 학술적 평가는 예상치 못한 인간의 변덕스러운 개입이나 현실 세계의 예외적인 시스템 에러 변수가 완벽하게 차단된 이른바 '이상적인 환경(Idealized setting)' 속에서 AI 모델이 발휘할 수 있는 순수한 지적 잠재력과 해당 작업 자체의 난이도를 측정한 결과물이기 때문입니다.

현실 세계의 개입과 불확실성을 반영한 실증적 척도의 필요성

반면 Anthropic의 이번 연구가 포착해 낸 실증적 데이터는 통제된 실험실이 아닌, 수많은 변수가 난무하는 현실 세계(Practice)에서 인간 사용자가 수시로 에이전트의 작업을 일시 중단시켜 본인의 새로운 의도나 수정된 피드백을 실시간으로 제공하거나, 혹은 모델 스스로가 작업의 다음 단계에 대해 논리적인 불확실성을 느끼고 자발적으로 실행을 멈춘 뒤 인간에게 도움을 요청하는 질문을 던지는 지극히 동적이고 복잡한 상호작용의 생생한 과정을 그대로 반영하고 있습니다.

이러한 관점에서 두 지표의 차이를 종합하여 해석해 보면, 현재 현장에 투입되고 있는 최상위 에이전트들은 시스템적으로 이미 수 시간 단위의 긴 작업을 독자적으로 이끌어갈 수 있는 훌륭한 추론 능력을 충분히 갖추고 있음에도 불구하고, 실제 배포 환경에서는 혹시 모를 치명적인 오류를 방지하기 위한 안전장치와 철저한 결과 검증에 대한 인간 사용자의 본능적인 요구 때문에 에이전트의 자율성이 모델의 최대 한계치보다 훨씬 더 보수적으로 억제되고 제어되고 있음을 명확하게 입증하고 있습니다. 이는 마치 고성능 스포츠카가 시속 300킬로미터로 달릴 수 있는 강력한 엔진을 탑재하고 있음에도 불구하고 복잡한 도심의 교통 상황과 신호등 체계, 그리고 운전자의 안전 운행 의지 때문에 실제로는 시속 60킬로미터 내외로 통제되어 주행하는 것과 완벽히 일치하는 현상입니다.

결국, 우리가 AI 기술의 실질적인 진보를 정확히 가늠하기 위해서는 모델이 고립된 상태에서 무엇을 할 수 있는가를 묻는 이상적인 능력 평가 지표와 더불어, 인간과 기계가 하나의 팀으로서 얽혀있는 역동적인 실무 환경 속에서 실제로 얼마나 서로를 신뢰하고 통제권을 나누어가지는가를 정밀하게 측정하는 배포 환경 기반의 실증적 척도가 병행되어야만 진정한 의미의 자율성 패러다임을 온전히 이해할 수 있습니다.

클로드 코드(Claude Code) 분석: 시간에 따른 자율성의 진화

작업 지속 시간의 비약적 상승과 배포 오버행 현상

본 연구가 보고하는 클로드 코드(Claude Code)의 실사용 데이터 분석 결과 중 단연 가장 흥미롭고 핵심적인 발견 중 하나는, 현재의 AI 모델들이 사용자가 실제로 현업에서 조심스럽게 허용하고 있는 수준보다 실제로는 훨씬 더 막강하고 높은 수준의 자율성을 무리 없이 안정적으로 감당할 수 있는 이른바 '배포 오버행(Deployment overhang)' 상태에 널리 놓여 있다는 사실의 확인입니다.

위 99.9분위(99.9th Percentile) 턴 지속 시간 그래프를 상세히 살펴보면, 2025년 10월부터 이듬해인 2026년 1월에 이르는 불과 몇 개월 사이의 짧은 기간 동안 클로드 코드(Claude Code) 인터랙티브 세션 내에서 인간 사용자의 어떠한 개입도 없이 에이전트 단독으로 끊임없이 작업을 수행한 최장 지속 시간이 약 25분 미만에서 45분 이상으로 거의 두 배가량 극적으로 증가하는 뚜렷한 추세를 확인할 수 있습니다.

여기서 특히 주의깊게 살펴봐야 할 점은 이러한 작업 시간의 비약적인 증가 양상이 백엔드의 새로운 AI 모델 버전이 출시되는 특정 날짜를 기점으로 계단식으로 급격히 뛰어오른 것이 아니라, 모델의 업데이트 주기와는 무관하게 전체 기간에 걸쳐 매우 점진적이고 부드러운 우상향 상승 곡선을 꾸준히 그렸다는 점입니다.

이는 단순히 소프트웨어의 물리적인 성능 향상만이 자율성 확장의 유일한 원인이 아니며, 오히려 초기에는 에이전트의 능력을 반신반의하던 파워 유저들이 시간이 지남에 따라 도구와 지속적으로 상호작용하며 굳건한 신뢰를 구축하게 되었고, 이에 따라 과거에는 상상하지 못했던 점차 더 야심차고 도전적인 거대 규모의 작업을 에이전트에게 과감하게 일임하는 방향으로 사용자 본인들의 행동 양식이 진화하고 있음을 강력하게 시사합니다.

이를 뒷받침하듯 Anthropic 내부 직원의 클로드 코드 사용 데이터를 집중적으로 분석한 결과에서도, 사용자가 부여한 가장 복잡하고 어려운 작업(Challenging tasks)에 대한 에이전트의 성공률이 두 배로 크게 상승한 반면, 세션당 인간이 직접 개입하여 작업을 수정한 평균 횟수는 오히려 5.4회에서 3.3회로 유의미하게 감소하는 놀라운 성과 효율화 현상이 관찰되어, 더 많은 자율성을 부여받은 에이전트가 인간의 수고를 덜어주면서도 더 높은 품질의 성과를 내는 선순환 궤도에 진입했음을 훌륭하게 증명하고 있습니다.

사용자 숙련도에 따른 통제권 위임과 감독 방식의 고도화

인공지능 도구를 다루는 사용자의 숙련도가 깊어질수록 에이전트에 대한 통제와 감독 방식이 단편적인 확인에서 고차원적인 지휘로 어떻게 진화하는지를 보여주는 통계는 향후 인간-컴퓨터 상호작용(HCI) 설계에 있어 매우 귀중한 통찰을 제공합니다. Claude Code의 계정 유지 기간별 자동 승인 비율 곡선을 보면, 이제 막 시스템에 진입하여 50회 미만의 세션을 수행한 초보 신규 사용자의 경우 에이전트가 코드를 수정하거나 도구를 사용할 때 이를 무조건적으로 믿고 넘기는 완전 자동 승인(Auto-approve) 모드의 활용 비율이 약 20% 수준에 머무르며 매우 방어적인 태도를 취함을 알 수 있습니다. 반면, 무려 750회 이상의 방대한 세션을 거치며 에이전트의 장단점을 뼛속까지 파악한 숙련된 베테랑 사용자들의 경우, 이 자동 승인 활성화 비율이 40% 이상으로 두 배 넘게 훌쩍 치솟으며 인공지능 파트너에게 막대한 재량권을 부여하는 과감함을 보여줍니다.

하지만 이와 동시에 턴 단위 개입 비율 그래프(Interruption Rate by Experience)를 나란히 비교해 보면 대단히 역설적으로 보이는 현상이 나타나는데, 그것은 바로 작업을 전면적으로 자동 승인하는 비율이 크게 늘어났음에도 불구하고 작업 중간에 사용자가 갑자기 난입하여 클로드 코드(Claude Code)의 실행을 강제로 중단(Interruption)시키는 빈도 역시 신규 사용자의 5% 수준에서 숙련된 사용자의 9% 수준으로 함께 뚜렷하게 증가했다는 사실입니다.

겉보기에는 상충해 보이는 이 두 가지 지표의 동반 상승은 사실 숙련된 사용자들이 감독이라는 행위 자체를 완전히 포기하거나 방관하는 것이 아니라, 효율성을 극대화하기 위해 감독의 '패러다임' 자체를 근본적으로 업그레이드했음을 명백히 보여줍니다. 즉, 초보자 시절처럼 에이전트가 내딛는 모든 자잘한 걸음을 사전에 일일이 승인(Step-by-step approval)하던 답답한 마이크로 매니지먼트 방식에서 과감히 벗어나, 평소에는 에이전트가 넓은 들판을 자유롭게 뛰놀며 자율적으로 일하도록 풀어두고 뒤에서 전체적인 흐름을 예의주시하다가 아키텍처의 방향이 심각하게 어긋나거나 결정적인 개입이 꼭 필요한 결정적 순간을 예리하게 포착하여 선별적으로만 시스템을 제동하는 적극적 모니터링(Active monitoring)'상태로 본인들의 지휘 전략을 한 차원 높게 고도화하였음을 이 데이터가 생생하게 증명해주고 있습니다.

시스템 주도적 멈춤 현상이 창출하는 협력적 안전망 구축

현실의 치열한 배포 환경에서 시스템의 치명적인 오작동을 막고 안전한 자율성의 경계를 확고히 통제하는 주체는 더 이상 화면 밖의 인간 사용자만이 아닙니다. 클로드 코드(Claude Code)의 로그를 세밀하게 분석한 결과에 따르면 에이전트 본연의 알고리즘 역시 직면한 작업의 난이도와 복잡성이 한계치를 넘어설 때, 섣불리 다음 단계를 추측하여 강행하기보다는 본인 판단의 불확실성을 예민하게 감지하고 스스로 작업을 일시 멈춘 뒤 인간 사용자에게 정확한 명확화(Clarification)와 구체적인 방향을 정중하게 묻는 이른바 에이전트 주도적 멈춤(Agent-initiated Stops) 빈도를 스스로 크게 높이는 것으로 밝혀졌습니다.

특히, 높은 사고력을 요하는 가장 복잡한 수준의 작업 환경 생태계에서는 모델 스스로가 먼저 판단의 한계를 인정하고 사용자에게 질문을 던지기 위해 멈춰 서는 횟수가, 외부에서 인간이 강제로 시스템의 멱살을 잡아채듯 중단시키는 횟수보다 무려 2배 이상 압도적으로 높게 나타나 충격을 안겨주었습니다.

데이터를 더 깊이 파고들어 작업이 중단되는 주요 원인들을 세부적으로 분류해 보면, 에이전트인 클로드 코드(Claude Code)가 스스로 판단을 멈추는 핵심적인 이유로는 사용자에게 여러 가지 구현 대안 중 하나를 확정 지어 달라고 선택을 요구할 때가 전체의 35%로 가장 높았으며, 시스템 디버깅을 위해 추가적인 진단 정보나 외부 테스트 결과를 애타게 요청할 때가 21%, 인간의 초기 지시사항이 너무 불명확하여 구체화를 요구할 때가 13%, 그리고 외부 시스템 접근을 위한 권한이나 인증 토큰을 정당하게 요구할 때가 12%를 차지하며 대단히 합리적이고 체계적인 이유들로 구성되어 있었습니다.

반대로, 인간 사용자가 개입하여 억지로 에이전트를 멈춰 세우는 이유의 대다수는 모델이 현재 작업 환경의 전체적인 기술적 맥락을 누락한 채 코딩을 진행하고 있어 이를 긴급히 바로잡아 전달하기 위함이 32%를 차지했고, 클로드의 연산 속도가 지나치게 느려지거나 주어진 범위를 넘어서는 과도한 파일 수정을 시도할 때 제어하기 위함이 17%를 차지했습니다. 이러한 일련의 구체적인 통계 수치들은 현재의 고도화된 에이전트가 자신의 인지적 불확실성을 아주 정확히 메타 인지하고 선제적으로 행동을 멈출 수 있는 뛰어난 역량을 내재하고 있으며, 이것이 시스템 배포 시 피로도가 높은 인간의 일방적인 감시를 훌륭하게 보완하고 상호 보완적인 신뢰를 구축하는 대단히 중요하고 핵심적인 안전장치(Safety Property)로 훌륭하게 작동하고 있음을 강력하게 증명합니다.

퍼블릭 API 트래픽 분석: 산업별 활용 분포와 잠재적 위험성

소프트웨어 엔지니어링 도메인 집중과 초기 생태계의 특성

현재 자율형 에이전트 기술이 본격적으로 글로벌 산업 전반에 침투하기 시작하는 아주 초기 도입 단계에서 관찰되는 가장 특징적이고도 압도적인 현상 중 하나는, 에이전트의 활용이 다양한 산업 분야에 고르게 분산되어 확산되기보다는 유독 특정 단일 도메인으로의 쏠림 현상이 극심하다는 점이며 이는 앤스로픽의 광범위한 퍼블릭 API 트래픽 분포를 통해 아주 선명하게 입증되고 있습니다.

위 차트는 주요 도메인별 에이전트 도구 호출 활동 분포를 보여주며, 수많은 이종 기업들로부터 쉼 없이 쏟아져 들어오는 전체 수백만 건의 에이전트 트래픽 물량 중에서 순수하게 소프트웨어 엔지니어링과 직접적으로 연관된 개발 및 유지보수 활동이 무려 50%라는 절대적인 비중을 단독으로 거머쥐고 있음이 통계적으로 명확히 나타납니다.

이러한 극단적인 활용의 집중 현상은 근본적으로 평소 복잡한 소스 코드 구조를 설계하고 난해한 버그를 밤새워 추적하며 방대한 클라우드 인프라를 매일같이 통제해야 하는 소프트웨어 엔지니어 집단이, 뼛속 깊이 내재된 기술적 호기심과 생산성 향상에 대한 끝없는 갈망을 바탕으로 최신 인공지능 자동화 도구를 그 어떤 직군보다도 빠르게 본인들의 개발 환경에 적극적으로 수용하고 극한의 스트레스 테스트를 거치며 전체 에이전트 생태계의 성장을 견인하는 선구적인 얼리어답터 역할을 훌륭히 수행하고 있기 때문으로 넉넉히 분석할 수 있습니다.

그러나 우리가 여기서 결코 시선을 거두지 말아야 할 더욱 중요한 지점은, 전체 파이의 절반을 집어삼킨 이 거대한 소프트웨어 코딩 도메인의 이면에 가려져 비록 개별 점유율은 한 자릿수 퍼센트 내외의 미미한 소규모에 불과할지라도, 방대한 비정형 기업 데이터를 쉼 없이 분석해 내는 비즈니스 인텔리전스 분야나 외부 고객과의 실시간 대화를 자율적으로 수행하는 고객 서비스 지원 업무, 세일즈 리드를 발굴하는 영업 자동화 시스템, 복잡한 수치 연산이 동반되는 금융 데이터 처리 및 수천 건의 상품 재고를 능동적으로 관리하는 전자상거래 분야 등 무수히 많은 다채롭고 이질적인 전통 산업군에서 이미 에이전트 기반의 혁신적인 초기 활용 사례들이 조용하지만 맹렬하게 싹을 틔우며 포착되고 있다는 사실에 깊이 주목하고 다가올 거대한 패러다임의 변화를 준비해야 한다는 점입니다.

저위험 작업 중심의 현황 속 고위험 영역으로의 조심스러운 확장

현재 Anthropic의 방대한 퍼블릭 API를 통해 실시간으로 관찰되고 있는 수많은 인공지능 에이전트들의 현장 활동 내역을 종합적인 관점에서 조망해 보면, 다행스럽게도 아직까지는 전체적인 활동의 무게 중심이 비교적 위험도가 낮고 설사 오류가 발생하더라도 언제든 손쉽게 이전 상태로 되돌릴 수 있는 가역적인(Low-risk and reversible) 수준의 안전한 작업들에 확고하게 머물러 있는 것이 주지의 사실입니다.

위 산점도는 이 현상을 가장 직관적으로 설명해줍니다. 수많은 도구 호출 작업들을 성격별로 클러스터링하여 자율성(Autonomy)과 위험성(Risk)이라는 두 가지 핵심 척도를 기준으로 2차원 평면상에 넓게 흩뿌려 놓은 산점도 그래프를 보면, 압도적인 다수의 트래픽이 10점 만점의 위험도 척도에서 매우 낮은 수치를 기록하며 그래프의 왼쪽 아래 구역인 저위험-저자율성 안전지대에 빽빽하게 밀집해 있는 것을 쉽게 눈으로 확인할 수 있습니다.

하지만 이 거대한 산점도에서 경각심을 일깨우는 부분은, 비록 그 밀집도는 현저히 낮아 드문드문 흩어져 있을지언정 그래프의 오른쪽 상단에 위치한 높은 자율성과 높은 위험성이 섬뜩하게 공존하는 극한의 사분면 공간(High-risk, High-autonomy quadrant)에 이미 유의미한 수의 데이터 점들이 분명하게 군집을 형성하며 자리를 잡고 있다는 사실입니다.

연구진의 추가적인 심층 분석 결과에 따르면 이러한 고위험 영역에서 암약하는 에이전트 모델들은 관리자의 핵심 API 키와 같은 대단히 중요한 보안 자격 증명을 직접 다루거나, 철저한 정보 보호가 생명인 환자의 민감한 의료 기록을 열람 및 데이터베이스에서 검색하고, 심지어 외부 자본 시장과 연동하여 암호화폐 거래를 사람의 개입 없이 자동으로 실행하는 등 잠재적 사고 발생 시 그 결과의 치명성이 상상을 초월하는 헬스케어, 금융, 사이버 보안과 같은 무거운 도메인에서 이미 조심스럽게 그 활동 반경을 넓혀가고 있음이 확인되었습니다.

앞서 소프트웨어 엔지니어링 영역에서 확인했던 '시간이 지나며 경험과 신뢰가 축적됨에 따라 에이전트에 대한 자율성 부여가 극대화되는 패턴'이, 과연 시스템 오류의 결과 검증이 훨씬 더 까다롭고 파국적인 경제적, 윤리적 손실을 초래할 수 있는 의료나 금융 분야에서도 인간의 적절한 통제력을 상실하지 않은 채 안전하게 동일하게 재현될 수 있을지는 아직 아무도 장담할 수 없으므로, 우리 업계는 이러한 최전선의 위험 지대에 대해 이전과는 차원이 다른 집요한 지속적 모니터링 체계를 갖추고 사고 발생을 원천 차단할 완전히 새로운 패러다임의 보호 장치를 설계하는데 총력을 기울여야만 합니다.

결론: 연구의 구조적 한계와 미래 지향적 제언

데이터 해석 시 유의해야 할 방법론적 제약 사항

Anthropic이 공개한 이번 연구 결과는 그동안 실험실의 무균실 같은 닫힌 환경 속 벤치마크 테스트에만 갇혀 있던 에이전트의 능력 평가 관행을 과감히 탈피하여, 온갖 노이즈와 변수가 난무하는 생생한 야생의 실전 환경에서 에이전트가 사용자와 부대끼며 어떠한 양상으로 작동하는지를 대규모 실증 데이터로 낱낱이 입증해 낸 학술적이고도 실무적인 측면에서 의미있는 결과입니다.

하지만, 이 보고서의 통계 수치들을 무비판적으로 맹신하기에 앞서 이 훌륭한 연구 이면에 내재된 몇 가지 뚜렷하고도 구조적인 방법론적 제약 사항들을 반드시 냉철한 이성으로 인지하고 비판적으로 수용할 수 있어야만 합니다.

우리가 데이터를 해석할 때 가장 먼저 염두에 두어야 할 핵심적인 한계점은, 이 방대한 분석의 기반이 된 관찰 대상이 철저하게 Anthtopic 자사가 독자 개발한 클로드(Claude) 단일 모델 라인업과 클로드 코드(Claude Code)라는 특정 소프트웨어 제품의 사용자층, 그리고 자사가 운영하는 인프라 망을 통과하는 퍼블릭 API 트래픽의 울타리 안에만 철저히 국한되어 추출되었다는 것입니다. 이는 곧 라마(LLaMA)와 같은 수많은 오픈소스 기반의 생태계나 GPT 등 완전히 다른 내부 아키텍처와 제품 철학을 지닌 타사의 경쟁 모델 환경에서는 사용자와 에이전트 간의 신뢰 형성 방식이나 위험 수용 태도가 지금 우리가 확인한 결과와는 전혀 다른 상이한 패턴으로 발현될 가능성이 농후하므로 이 현상을 글로벌 인공지능 생태계 전체의 절대적인 보편적 진리로 섣불리 일반화해서는 안 됨을 의미합니다.

또한, 고객사의 API 호출 트래픽을 분석하는 과정에서 기업들의 민감한 내부 로직이나 프라이버시를 절대적으로 보호해야만 하는 강력한 데이터 보안 정책의 제약으로 인해, 연구진은 에이전트가 궁극적으로 달성하고자 하는 장기적인 최종 목표나 전체 세션의 유기적인 문맥을 완벽히 꿰뚫어 보지 못한 채 오직 찰나에 발생하는 개별적인 도구 호출(Tool call)이라는 파편화된 단면만을 분절적으로 이어 붙여 현상을 유추할 수밖에 없었다는 점에서 추론의 깊이에 근본적인 한계가 존재합니다.

게다가 Anthropic의 시야에 닿는 최전방의 API 트래픽 로그 상에서는 인공지능 에이전트가 인간의 아무런 개입 없이 무한한 자율성을 가지고 독단적으로 수많은 코드를 배포하고 위험한 외부 호출을 실행하는 것처럼 위태롭게 비칠지라도, 실제로는 그 통신망의 보이지 않는 뒷단(Downstream)에서 해당 고객사가 자체적으로 막대한 비용과 인력을 들여 겹겹이 구축해 놓은 다단계 인간 리뷰어 조직이나 엄격한 자동화 QA 테스트 시스템이 에이전트의 모든 출력물을 한 땀 한 땀 철저히 검수하고 승인하는 대단히 견고한 오프라인 안전망이 굳건히 존재할 가능성이 높습니다. 따라서 이 연구 방법론의 가시성 밖이라는 이유로 이러한 현실의 방어벽들이 통계에 전혀 반영되지 못했다는 점은 향후 위험도를 평가할 때 반드시 참작해야 할 매우 중요한 맹점이라 할 수 있습니다.

배포 후 모니터링 필수화 및 안전한 협력 생태계 조성 방안

지금까지 살펴본 본 연구가 글로벌 소프트웨어 생태계와 인공지능 연구 커뮤니티 전체를 향해 일관되게 던지는 단 하나의 가장 강력한 시사점은, 모델을 대중에게 공개하기 전에 폐쇄된 환경에서 수행하는 일회성 사전 평가(Pre-deployment evaluation)에만 안주하던 안일한 관행을 완전히 벗어던지고, 모델이 수만 가지 변수가 도사리는 복잡다단한 현실 세계에 본격적으로 투입되고 난 이후의 행동 패턴을 영구적이고도 실시간으로 집요하게 추적하고 감시할 수 있는 체계적인 배포 후 모니터링(Post-deployment monitoring) 인프라의 확고한 구축이 이제는 미래 생존을 위한 절대적인 필수 불가결의 과제로 자리매김했다는 엄중한 사실입니다.

본 연구의 다양한 결과 지표들이 일관되게 웅변하고 있듯이, 현실 세계 배포 현장에서 관찰되는 에이전트의 실질적인 자율성 수준은 단순히 백엔드 서버에 탑재된 대규모 언어 모델 자체의 파라미터 개수나 코드의 논리적 성능표에 의해서 일방적으로 고정되는 정적인 개념이 결코 아님을 깨달아야 합니다.

진정한 에이전트의 작동 양상은 그 강력한 지능을 제공하는 기저의 파운데이션 모델, 해당 모델에게 자신의 중대한 업무 권한을 기꺼이 이양하고 때로는 의심하며 통제권을 행사하는 변덕스러운 인간 사용자, 그리고 이 둘 사이의 의사소통을 매개하여 상호작용의 방식을 규정짓는 제품의 UI/UX 인터페이스라는 세 가지 거대한 기둥이 끊임없이 마찰하고 융합하며 실시간으로 공동 창조(Co-constructed)해 내는 지극히 역동적이고 유기적인 사회기술적 합작품이라는 본질을 꿰뚫어 보아야 합니다.

따라서, 그 어느 때보다 기술적 불확실성이 짙게 깔려있는 다가올 미래의 인공지능 생태계를 안전하게 수호하기 위해서는, 단순히 모델의 연산 속도를 높이거나 도구 사용의 정확도를 1퍼센트 끌어올리는 기술적 완벽주의에만 매몰될 것이 아니라, 제품을 기획하는 가장 초기 단계에서부터 인간 사용자가 시스템의 진행 상황을 직관적이고 투명하게 들여다보고 잠재적인 오류의 폭주 징후를 조기에 발견하여 즉각적으로 실행 스레드를 중단하고 안전 상태로 롤백할 수 있는 대단히 견고하고 혁신적인 인간 중심의 상호작용 체계를 치열하게 고민하고 과감히 인프라에 도입해야만 합니다.

Anthropic의 Measuring AI Agent Autonomy in Practice 연구 공개 블로그

Anthropic의 Measuring AI Agent Autonomy in Practice 연구 관련 추가 자료(Appendix)

METR의 긴 작업(Long Task)을 수행하는 인공지능(AI)의 능력 측정에 대한 연구 소개 글

긴 작업(Long Task)을 수행하는 인공지능(AI)의 능력 측정에 대한 연구 소개 (feat. METR)

이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.

파이토치 한국 사용자 모임이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

아래쪽에 좋아요를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~