EVMbench 소개
오늘날 스마트 컨트랙트는 단순한 코드 조각을 넘어 1,000억 달러 이상의 막대한 암호화폐 자산을 보호하는 핵심 금융 인프라로 자리 잡았습니다. 이처럼 스마트 컨트랙트가 처리하는 경제적 규모가 폭발적으로 성장함에 따라, 코드 내에 존재하는 작은 취약점 하나가 즉각적이고 돌이킬 수 없는 대규모 금전적 피해로 이어질 수 있는 위험성을 안고 있습니다. 동시에 인공지능 에이전트가 코드를 읽고, 작성하며, 실행하는 능력이 비약적으로 발전하면서, 보안 업계에서는 AI가 공격자의 무기가 될 수 있다는 우려와 방어자의 강력한 도구가 될 수 있다는 기대가 교차하고 있습니다. 이러한 배경 속에서 경제적으로 유의미한 환경 내에서 AI 모델의 실제 능력을 측정하고, 배치된 스마트 컨트랙트를 감사(Audit) 및 강화하기 위한 방어적 AI 시스템의 사용을 장려할 필요성이 대두되었습니다.
이에 OpenAI는 암호화폐 전문 투자사인 Paradigm과 협력하여 새로운 벤치마크 평가 도구인 EVMbench를 공식적으로 발표했습니다. EVMbench는 인공지능 에이전트가 이더리움 가상 머신(EVM) 기반의 스마트 컨트랙트에서 고위험군 취약점을 얼마나 정확하게 탐지하고, 기능 훼손 없이 패치하며, 나아가 체인 상에서 직접 익스플로잇(취약점 공격)을 성공시킬 수 있는지를 종합적으로 평가하도록 설계되었습니다. 과거의 벤치마크들이 단순하거나 합성된 가상의 코드 조각에 의존했던 것과 달리, EVMbench는 철저하게 현실 세계의 경제적 인프라와 과거에 실제로 발생했던 취약점 데이터를 기반으로 에이전트를 테스트한다는 점에서 그 의미가 매우 깊습니다.
OpenAI는 이 벤치마크를 통해 AI 에이전트가 지닌 사이버 공격 능력의 발전 속도를 투명하게 추적하고 모니터링하고자 합니다. 더 나아가 자율형 AI 에이전트가 활발하게 트랜잭션을 발생시키는 다가올 경제 시대에 대비하여, 개발자와 보안 연구원들이 AI 기반의 보안 감사 도구를 워크플로우에 적극적으로 통합하도록 촉구하고 있습니다. 이를 위해 OpenAI는 EVMbench의 작업 환경과 도구, 그리고 평가 프레임워크 전체를 오픈소스로 공개하여 신흥 사이버 리스크를 관리하고 관련 연구가 지속될 수 있도록 생태계를 적극적으로 지원하고 있습니다.
EVMbench의 주요 특징
실제 보안 환경을 반영한 120개의 취약점 데이터셋
EVMbench는 AI 에이전트가 현실의 복잡성을 감당할 수 있는지 평가하기 위해 인위적으로 합성된 코드를 배제했습니다. 대신 Code4rena와 같은 공개 스마트 컨트랙트 보안 감사 경쟁(Audit competitions)에서 실제로 보고되었던 40개의 저장소(Repository)로부터 120개의 고위험(High-severity) 취약점을 엄선하여 데이터셋을 구축했습니다. 여기에 포함된 취약점들은 모두 과거에 실제로 존재했으며 공개적으로 문서화된 내역들입니다.
또한, 이 데이터셋에는 안정화폐(Stablecoin) 전송에 초점을 맞추어 고속 및 저비용 결제를 지원하도록 설계된 레이어 1 블록체인인 Tempo의 보안 감사 프로세스에서 영감을 받은 취약점 시나리오도 포함되어 있습니다. Paradigm이 지원하는 Tempo 블록체인의 사례를 포함한 것은, AI 주도의 결제가 확대될 미래에 대비하여 EVMbench가 단순한 기술 테스트를 넘어 실제 결제 인프라와 직결된 환경에서 AI의 역량을 검증하도록 의도된 조치입니다.
세 가지 핵심 평가 모드
EVMbench는 실제 보안 연구원과 해커들이 수행하는 워크플로우를 그대로 반영하여, AI 에이전트의 능력을 탐지(Detect), 패치(Patch), 익스플로잇(Exploit)이라는 세 가지 핵심 모드로 나누어 평가합니다.
탐지(Detect) 모드에서 AI 에이전트는 제공된 스마트 컨트랙트 저장소 전체를 깊이 있게 감사하여 알려진 실제 취약점들을 식별해내야 합니다. 채점은 에이전트가 실제 정답(Ground-truth)에 해당하는 취약점을 얼마나 정확하게 찾아냈는지(Recall)를 기준으로 이루어집니다. 하지만 현재 AI 에이전트들은 코드베이스 전체를 끝까지 감사하기보다는 하나의 문제점을 발견하면 분석을 멈추는 한계를 보였습니다. 또한, 에이전트가 인간 감사자가 찾지 못한 새로운 문제를 지적했을 때, 이것이 인간이 놓친 진짜 제로데이 취약점인지 혹은 단순한 오탐지(False positive)인지 신뢰성 있게 판별하기 어렵다는 기술적 난제도 존재합니다.
패치(Patch) 모드에서는 발견된 취약점을 수정하면서도 스마트 컨트랙트가 본래 의도한 기능(Functionality)을 완벽하게 유지해야 하는 까다로운 과제가 주어집니다. 에이전트가 수정한 코드는 컴파일 오류를 일으키지 않아야 하며, 원본의 정상적인 자동화 테스트를 모두 통과하는 동시에 기존의 익스플로잇 공격은 철저히 방어해내야 합니다. 미묘한 취약점을 제거하면서도 복잡하게 얽힌 기존의 비즈니스 로직을 온전히 보존하는 것은 AI에게 여전히 매우 어려운 작업으로 나타났습니다.
익스플로잇(Exploit) 모드는 에이전트가 배치된 스마트 컨트랙트를 상대로 실제로 자금을 빼내는(Fund-draining) 엔드투엔드 공격을 시도하는 환경입니다. 안전하고 객관적인 평가를 위해 실제 메인넷이 아닌 격리된 로컬 Anvil 환경에서 작업이 수행됩니다. OpenAI는 에이전트가 꼼수를 써서 채점 시스템을 속이는 것을 방지하기 위해, 트랜잭션을 결정론적으로 재실행(Deterministic replay)하고 안전하지 않은 RPC 메서드를 제한하는 Rust 기반의 채점 하네스(Harness)를 자체적으로 구축했습니다. 에이전트는 이 환경에서 온체인 검증을 거쳐 최종적으로 공격 성공 여부를 평가받게 됩니다.
생태계 방어력 강화를 위한 적극적인 지원
OpenAI는 EVMbench의 결과가 시사하는 바와 같이 AI 모델이 공격자에게 유리하게 작용할 수 있는 '이중 용도(Dual-use)'의 위험성을 인지하고 있습니다. 이에 대응하여 방어자의 능력을 가속화하기 위한 실질적인 지원책을 함께 내놓았습니다. 사이버보안 그랜트 프로그램(Cybersecurity Grant Program)을 통해 선의의 방어적 보안 연구를 수행하는 조직들에게 1,000만 달러 규모의 API 크레딧과 지원을 제공하기로 약속했습니다.
비록 EVMbench에 포함된 취약점들이 고위험군이기는 하나, 널리 사용되고 막대한 자금이 예치된 실제 프로덕션 환경의 스마트 컨트랙트들은 이보다 훨씬 더 엄격한 검증을 거치므로 실제 환경의 난이도를 완벽히 대변하지는 못할 수 있습니다. 그러나 이 벤치마크는 방어적 AI 보안 도구의 발전을 촉진하고, 향후 고도화될 자율형 AI 에이전트 시대의 보안 기준을 확립하는 데 있어 매우 중요한 초석이 될 것입니다.
EVMbench 소개 블로그
https://openai.com/index/introducing-evmbench/
EVMbench 기술 문서
EVMbench 사용하기
이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. ![]()
파이토치 한국 사용자 모임
이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일
로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)
아래
쪽에 좋아요
를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~ ![]()






