MDASH 소개
Microsoft Security가 새로운 AI 기반 사이버 방어 시스템인 Microsoft Security Multi-Model Agentic Scanning Harness(코드명 MDASH) 를 공개했습니다. 이 시스템은 단일 거대 모델 한 대에 모든 추론을 맡기는 기존의 보안 도구와 달리, 100개 이상의 특화된 AI 에이전트를 오케스트레이션하여 취약점을 발견하고, 토론을 거쳐 검증하고, 실제로 익스플로잇 가능한 버그임을 PoC로 증명하는 엔드-투-엔드 파이프라인입니다. Microsoft는 이 시스템을 사용하여 Windows 네트워킹 및 인증 스택에서 16개의 신규 취약점을 발견했으며, 그중 4건은 Windows 커널 TCP/IP 스택과 IKEv2 서비스의 원격 코드 실행(RCE)을 가능하게 하는 Critical 등급으로 분류되었습니다.
MDASH가 주목받는 이유는 단순히 "AI가 또 하나의 보안 도구를 만들었다"는 차원을 넘어섭니다. Microsoft는 비공개 테스트 드라이버에 심어둔 21개의 취약점을 거짓 양성(False Positive) 없이 모두 찾아냈고, 지난 5년간 Microsoft Security Response Center(MSRC) 에 보고된 clfs.sys의 실제 케이스에 대해 96%, tcpip.sys에 대해 100%의 재현율(Recall)을 달성했습니다. 공개 벤치마크인 CyberGym 에서도 1,507개의 실제 취약점 재현 과제 중 88.45%를 성공시켜 리더보드 1위에 올랐으며, 2위와의 격차는 약 5%포인트에 달합니다. 이는 AI 기반 취약점 탐색이 더 이상 연구실의 호기심 수준이 아니라 엔터프라이즈 규모의 프로덕션 방어로 진입했음을 보여주는 신호입니다.
이번 Microsoft의 게시물은 MDASH의 핵심 아이디어인 "모델이 아니라 하네스(harness)가 제품이다"라는 철학을 따라가며, 어떤 파이프라인 구조로 100개 이상의 에이전트가 협업하는지, Patch Tuesday에 반영된 두 건의 대표적 버그(tcpip.sys의 SSRR UAF, ikeext.dll의 IKEv2 더블 프리)가 왜 단일 모델 하니스로는 발견되기 어려웠는지, 그리고 벤치마크와 회고적 평가가 시사하는 점을 정리합니다.
자율 코드 보안(ACS) 팀과 Microsoft 코드베이스의 도전 과제
MDASH를 만든 주체는 Microsoft 내부에 새로 꾸려진 Autonomous Code Security(ACS) 팀입니다. 이 팀에는 DARPA AI Cyber Challenge(AIxCC) 에서 2,950만 달러 상금을 거머쥔 Team Atlanta 출신 인력이 다수 합류했습니다. Team Atlanta는 자율 사이버 추론 시스템(Cyber Reasoning System, CRS)을 구축하여 복잡한 오픈소스 프로젝트에서 실제 버그를 발견하고 패치까지 자동화한 팀으로, 그 과정에서 축적된 "프런티어 언어 모델이 전문가 수준의 보안 감사를 수행하도록 만드는 엔지니어링 기술"이 MDASH의 토대가 되었습니다.
ACS 팀이 다루는 Microsoft 코드베이스는 일반적인 오픈소스와 차원이 다른 난이도를 갖고 있습니다. 첫째, Windows, Hyper-V, Azure 와 그 주변 디바이스 드라이버 생태계는 어떤 상용 LLM의 학습 코퍼스에도 포함되지 않은 거대한 비공개 표면(massive proprietary surface) 입니다. 커널 호출 규약, IRP와 락 불변식, IPC 신뢰 경계, 컴포넌트 내부 관용구는 단순한 패턴 매칭으로 풀리지 않습니다. 모델이 실제로 추론해야 한다는 뜻입니다.
둘째, 대규모 DevSecOps 환경에서는 모든 발견이 담당자와 트리아지(triage) 절차, 그리고 Patch Tuesday 라는 출시 마감에 연결됩니다. 추측성 발견을 묻어둘 조용한 서랍이 없습니다. 도구가 노이즈를 만들면 그 노이즈는 곧 모두의 문제가 됩니다. 셋째, Windows, Hyper-V, Xbox, Azure는 수십억 명의 사용자가 의존하는 고가치 표적입니다. 어려운 버그 하나를 찾았을 때의 이득이 매우 큰 만큼, Tier-1 컴포넌트에서 거짓 양성이 발생했을 때의 비용도 그만큼 큽니다. MDASH는 이러한 제약 아래에서 ACS 팀과 Microsoft Windows Attack Research and Protection(WARP) 팀의 협업으로 다져졌습니다.
MDASH 파이프라인: 모델은 입력일 뿐, 하니스가 제품이다
MDASH는 본질적으로 에이전트 기반 취약점 발견 및 패치 시스템입니다. 코드베이스를 입력으로 받아 검증되고 증명된 취약점을 출력하는 구조화된 파이프라인이며, 다음 다섯 단계로 구성됩니다.
- Prepare(준비) 단계: 소스 타깃을 인덱싱하고 언어 인식 인덱스를 구축한 다음, 과거 커밋 기록을 분석하여 공격 표면과 위협 모델을 그립니다.
- Scan(탐색) 단계: 특화된 감사자 에이전트(Auditor Agents) 가 후보 코드 경로를 훑으면서 가설과 증거가 함께 달린 후보 발견(Candidate Findings) 을 방출합니다.
- Validate(검증) 단계: 두 번째 에이전트 코호트인 토론자(Debaters) 가 각 발견의 도달 가능성과 익스플로잇 가능성에 대해 찬반 주장을 펼칩니다.
- Dedup(중복 제거) 단계: 의미적으로 동일한 발견들을 패치 단위로 묶어서 중복을 정리합니다.
- Prove(증명) 단계: 버그 클래스가 허용할 경우 트리거 입력을 구성·실행합니다. C/C++ 코드라면 AddressSanitizer(ASan) 등을 활용해 사전 조건을 동적으로 검증하고, 실제로 취약점이 발현되는 입력을 만들어냅니다.
이 파이프라인이 실전에서 동작하기 위해 MDASH는 세 가지 속성을 가집니다.
다양한 모델로 구성된 앙상블(Ensemble of Diverse Models): 단일 모델로 모든 단계를 최적화할 수 없다는 전제 하에, MDASH는 설정 가능한 모델 패널을 운영합니다. 무거운 추론은 SOTA 모델이 담당하고, 대량 토론 단계에는 증류 모델(Distilled Models) 을 비용 효율적으로 투입합니다. 그리고 의도적으로 별개의 두 번째 SOTA 모델 을 카운터포인트로 배치합니다. 모델 간 불일치 자체가 신호입니다. 감사자가 의심스럽다고 표시한 항목에 대해 토론자가 반박하지 못하면 그 발견의 사후 신뢰도(Posterior Credibility) 가 올라가는 방식입니다.
특화된 에이전트(Specialized Agents): 감사자는 토론자처럼 추론하지 않고, 토론자는 증명자(Prover)처럼 추론하지 않습니다. 각 파이프라인 단계는 고유한 역할, 프롬프트 체계, 도구, 정지 기준을 갖습니다. MDASH는 과거 Common Vulnerabilities and Exposures(CVE) 와 그 패치에 대한 심층 연구로부터 도출된 100개 이상의 특화 에이전트를 운영하며, 이들이 독립적으로 버그를 발견하고 그 결과를 하나의 보고서로 앙상블합니다.
확장 플러그인을 갖춘 엔드투엔드 파이프라인: 파이프라인은 단정적(opinionated) 이지만 닫혀 있지 않습니다. 도메인 전문가는 플러그인을 통해 파운데이션 모델이 자체적으로 알 수 없는 컨텍스트(커널 호출 규약, IRP 규칙, 락 불변식, IPC 신뢰 경계, 코덱 상태 머신 등)를 주입할 수 있습니다. 후술할 CLFS 증명 플러그인이 대표적입니다. Windows 팀은 자체 CodeQL 데이터베이스를 활용한 커스텀 분석을 결합하기도 했습니다.
이 아키텍처의 보상은 모델 세대 간 이식성(Portability) 입니다. 타깃팅, 검증, 중복 제거, 증명 단계는 설계 자체가 모델에 비의존적이므로, 새 모델이 등장하면 패널 구성을 한 줄 바꿔서 A/B 테스트할 수 있습니다. 모델이 좋아지면 고객이 그동안 투자한 스코프 파일, 플러그인, 설정, 보정값이 그대로 살아남아 프런티어의 가치를 그대로 누리게 됩니다.
StorageDrive: 모델이 본 적 없는 코드로 검증하기
MDASH의 능력을 평가하려면 우선 모델이 본 적이 없는 코드 위에서 검증해야 합니다. 이렇게 해야 모델이 "시험 답안을 외운" 가능성을 배제할 수 있기 때문입니다. ACS 팀은 Microsoft 내부 공격 보안 연구자 면접에서 사용되는 비공개 디바이스 드라이버 StorageDrive 를 대상으로 삼았습니다. 이 드라이버에는 커널 Use-After-Free(UAF), 정수 처리 오류, IOCTL 검증 결함, 잠금 오류 등 21개의 취약점이 의도적으로 심어져 있으며, 외부에 공개된 적이 없어 모델 학습 코퍼스에 들어 있을 가능성도 사실상 없습니다.
기본 설정 상태로 MDASH를 실행한 결과, 21개 모든 그라운드 트루스(ground truth) 취약점이 정확히 식별되었고 거짓 양성은 0건이었습니다. 이 단순한 테스트는 MDASH의 추론 및 취약점 발견 능력이 전문가급 공격 연구자에 근사한 수준임을 보여줍니다. ACS 팀은 같은 하니스를 Windows에서 가장 보안이 중요한 부분인 TCP/IP 네트워크 스택 의 보안 감사에 투입했고, 그 결과가 이번 Patch Tuesday에 반영되었습니다.
2026년 5월 Patch Tuesday: MDASH가 찾은 16개 CVE
이번 Patch Tuesday에는 MDASH가 Windows 네트워크 스택과 인접 서비스에서 발견한 16개의 CVE가 포함되었습니다. 그중 4건은 Critical 등급의 RCE이며, 절반 이상이 인증 없이 네트워크 위치에서 도달 가능합니다.
| 컴포넌트 | 설명 | CVE | 심각도 | 유형 |
|---|---|---|---|---|
tcpip.sys |
SSRR IPv4 패킷을 통한 원격 비인증 UAF | CVE-2026-33827 | Critical | RCE |
tcpip.sys |
조작된 IPv6 확장 헤더를 통한 NULL deref | CVE-2026-40413 | Important | DoS |
tcpip.sys |
ESP SA 참조 카운트 언더플로를 통한 커널 DoS | CVE-2026-40405 | Important | DoS |
ikeext.dll |
비인증 IKEv2 SA_INIT 더블 프리로 LocalSystem RCE | CVE-2026-33824 | Critical | RCE |
tcpip.sys |
Ipv4pReassembleDatagram의 UAF 정보 누출 | CVE-2026-40406 | Important | 정보 누출 |
tcpip.sys |
재조합을 통한 IPsec cross-SA 프래그먼트 스플라이싱 | CVE-2026-35422 | Important | 보안 우회 |
tcpip.sys |
비인증 로컬 WFP RPC가 네임 캐시 비활성화 | CVE-2026-32209 | Important | 보안 우회 |
ikeext.dll |
메모리 누수 | CVE-2026-35424 | Important | DoS |
telnet.exe |
FProcessSB의 TO_AUTH OOB 읽기 | CVE-2026-35423 | Important | 정보 누출 |
tcpip.sys |
IPv6+TCP MDL 분할 패킷의 NULL deref | CVE-2026-40414 | Important | DoS |
tcpip.sys |
ICMPv6 패킷의 NdisGetDataBuffer NULL deref | CVE-2026-40401 | Important | DoS |
tcpip.sys |
SA 이중 감소로 인한 사전 인증 원격 UAF | CVE-2026-40415 | Important | RCE |
http.sys |
비인증 원격 QUIC 컨트롤 스트림 OOB 읽기 | CVE-2026-33096 | Important | DoS |
tcpip.sys |
RPC 블롭을 통한 커널 스택 버퍼 오버플로 | CVE-2026-40399 | Important | 권한 상승 |
netlogon.dll |
비인증 CLDAP User= 필터 스택 오버플로 | CVE-2026-41089 | Critical | RCE |
dnsapi.dll |
조작된 UDP DNS 응답이 힙 OOB 트리거 | CVE-2026-41096 | Critical | RCE |
10건이 커널 모드, 6건이 유저 모드 취약점이며 대부분 인증 자격 증명 없이 도달할 수 있다는 점이 인상적입니다.
심층 사례 1: tcpip.sys SSRR 경로의 원격 비인증 UAF (CVE-2026-33827)
첫 번째 심층 사례는 IPv4 수신 경로의 Ipv4pReceiveRoutingHeader 함수 안에서 발생하는 참조 카운트 기반 Path 객체의 수명 관리 오류입니다. 함수는 라우팅 조회를 호출한 뒤 자신이 소유하던 유일한 참조를 dereference 로 해제하는데, 이후 Strict Source and Record Route(SSRR) 옵션 처리 단계에서 같은 포인터를 다시 사용합니다. 첫 번째 해제 시점에 참조 카운트가 0에 도달하면, 해당 메모리는 프로세서별 룩어사이드 할당자(per-processor lookaside allocator)로 반환되고 곧 재사용될 수 있습니다. 그 결과 후속 접근이 커널 컨텍스트의 전형적 UAF로 바뀝니다.
이 취약점은 공격자가 제어 가능한 패킷 메타데이터를 처리하는 네트워크 트리거 경로 위에 있으므로, 네트워크 스택의 상승된 IRQL 에서 직접 도달이 가능합니다. 핵심 문제는 경로 캐시와 정리 루틴의 동시성 모델에 의해 더 심해집니다. 호출자가 소유권을 놓는 순간, Path 객체의 생존 여부는 공유 자료 구조가 보유한 외부 참조에 전적으로 달립니다. 경로 캐시 스캐빈저, 명시적 플러시 루틴, 인터페이스 상태 기반 가비지 컬렉션 등 여러 독립 서브시스템이 동시에 객체를 제거하고 마지막 참조를 떨굴 수 있습니다. SMP 시스템에서 이 객체는 후속 dereference 이전에 회수·덮어쓰기될 수 있으며, 단순한 순서 버그가 경쟁(race) 기반 UAF 로 격상됩니다.
단일 모델 하니스가 이 버그를 놓치는 이유
이 버그는 같은 함수 내부에서조차 지역적으로 보이지 않는 수명 위반(lifetime violation) 입니다. 참조 해제와 재사용 사이에 대안 분기, 다수의 검증 체크, 여러 조기 종료(early-drop) 조건이 끼어 있어 "release-then-use" 패턴이 깨집니다. 참조 소유권을 중간 상태에 걸쳐 추적하지 않으면 모델은 두 동작을 독립된 사건으로 인식할 뿐입니다.
결정적인 단서는 컨텍스트 바깥에 있습니다. 동일한 논리 연산이 다른 곳에서는 올바른 순서 로 등장하며, 필요한 데이터를 객체에서 모두 뽑은 다음에야 참조를 해제합니다. 즉 문제의 호출 지점은 "명백한 오용"이 아니라 불일치(inconsistency) 입니다. 이를 잡으려면 파일 간(cross-file) 추론이 필요합니다. 비슷한 패턴을 찾고, 그 의도를 정렬하고, 일탈을 알아채야 합니다. 또한 도달 가능성은 SSRR 플래그를 세우는 입력, 해당 경로를 허용하는 기본 설정, 그리고 노출 윈도에서 객체를 회수할 수 있는 동시 서브시스템의 존재라는 여러 조건의 조합에 달려 있습니다. 단일 패스 분석은 이 단계들을 뭉뚱그려 처리하지만, MDASH의 단계별 접근은 소유권 위반, 동시성 모델, 외부 제어 트리거를 하나의 익스플로잇 경로로 엮어냅니다.
이 취약점은 2026년 4월 Patch Tuesday에 패치되었습니다.
심층 사례 2: IKEv2 SA_INIT 더블 프리로 LocalSystem RCE (CVE-2026-33824)
두 번째 사례는 IPsec 의 IKE와 AuthIP 키 교환을 담당하는 Windows 컴포넌트 IKEEXT 서비스에서 발견되었습니다. UDP/500 포트에서 IKEv2 응답자(responder) 로 동작하는 모든 호스트, 즉 RRAS VPN, DirectAccess, Always-On VPN 인프라, 또는 인바운드 연결 보안 규칙이 있는 머신은 인증되지 않은 원격 공격자에 의해 트리거될 수 있었습니다.
공격자는 Microsoft의 "IPsec Security Realm Id" 벤더 ID 페이로드를 담은 IKE_SA_INIT 메시지에 이어, 즉시 재조립되는 RFC 7383 SKF IKEv2 프래그먼트 하나를 보내는 것만으로 서비스 내부에서 16바이트 힙 할당의 결정론적 더블 프리를 일으킬 수 있습니다. IKEEXT 가 svchost.exe 안에서 LocalSystem 권한으로 실행되므로, 이는 시스템 최고 권한 컨텍스트로의 사전 인증 원격 코드 실행(pre-auth RCE) 경로가 됩니다.
근본 원인은 교과서적인 소유권 버그입니다. IKEEXT 가 재조립된 프래그먼트를 수신 파이프라인으로 다시 주입할 때, 패킷 수신 컨텍스트를 평면 memcpy 로 복제합니다. 이는 얕은 복사(shallow copy) 이며, 구조체의 바이트는 복제하지만 그것이 가리키는 힙 할당들은 복제하지 않습니다. 그 할당 중 하나가 공격자가 제공한 보안 영역 식별자입니다. 복사 직후 큐에 들어간 컨텍스트와 살아 있는 Main Mode SA가 같은 포인터 를 들고 있고 둘 다 자기가 소유주라고 믿습니다. 정리 시점에 각자 free를 호출하므로 더블 프리가 발생합니다. 트리거는 UDP 패킷 두 개, 경쟁이나 정밀한 타이밍은 필요 없습니다.
단일 모델 하니스가 이 버그를 놓치는 이유
이 버그는 6개 파일에 걸친 별칭 수명(aliasing lifecycle) 버그입니다. ike_A.c(잘못된 memcpy), ike_B.c(별칭의 원천과 첫 스택 로컬 복사), ike_C.c(잘못된 free), ike_D.c(올바른 패턴과 두 번째 free), ike_E.c(원격으로 버퍼가 채워지는 지점), ike_F.c(IKEv2 디스패처와 두 번째 free 이전의 UAF 읽기 지점) 가 모두 관여합니다. 어떤 단일 파일 분석도 전체를 볼 수 없습니다.
이 버그가 진짜라는 가장 강력한 증거는 같은 코드베이스 안 ike_D.c 에 동일한 패턴의 올바른 버전 이 있다는 점입니다. 셀렉터의 memcpy 직후 정확한 정리 단계가 등장합니다. 한 사이트의 누락된 단계를, 다른 사이트의 존재하는 단계와 대조해 잡아내는 능력이 필요합니다. MDASH의 특화 감사자 에이전트는 정확히 이런 비교를 끌어올리도록 설계되어 있고, 토론 단계가 이 가설을 교차 심문(cross-examination) 아래에서 살아남게 만듭니다.
이 취약점도 2026년 4월 Patch Tuesday에 패치되었습니다.
MDASH는 얼마나 강력한가: 회고적 평가와 CyberGym
Patch Tuesday 코호트와 StorageDrive 결과는 전향적(forward-looking) 신호입니다. 한편 이미 잘 검토된 코드의 진실에 대해 시스템이 얼마나 잘 동작하는지를 보여주는 회고적(retrospective) 벤치마크 두 개가 있습니다.
MSRC 과거 케이스에 대한 재현율: ACS 팀은 패치 이전 스냅샷에 MDASH를 재실행하여, 과거 MSRC가 확인한 버그를 (재)발견할 수 있었는지 측정했습니다.
clfs.sys: 5년에 걸친 28건의 MSRC 케이스에서 96% 재현율tcpip.sys: 5년에 걸친 7건의 MSRC 케이스에서 100% 재현율
이 수치가 의미 있는 이유는 MSRC 케이스 데이터베이스가 "실제 공격자가 익스플로잇한 버그, Patch Tuesday가 필요했던 버그, 방어자가 반응해야 했던 버그"의 그라운드 트루스이기 때문입니다. 잘 검토된 커널 컴포넌트의 5년치 백로그를 96% 재현한다는 것은 이론적 약점을 찾아낸 것이 아니라 실제로 중요한 버그들 을 찾아낸 것입니다. 다만 이는 유한한 케이스 수에 대한 회고적 측정이며, "다음 38개의 CLFS 버그도 같은 비율로 발견될 것"이라고 말해주지는 않습니다. 전향적 신호는 결국 Patch Tuesday 코호트 그 자체입니다.
CLFS 증명 플러그인 사례: CLFS의 96% 재현율 수치는 사실 Prove 단계의 이야기 이기도 합니다. 많은 CLFS 발견은 트리거 로그 파일을 구성하기 전까지는 흥미로워 보일 뿐, 증명 없는 후보 발견은 트리아지 백로그의 한 줄에 불과합니다. ACS 팀이 작성한 CLFS 특화 증명 플러그인은 후보 발견이 주어졌을 때 트리거 로그를 구성하는 방법을 알고 있습니다. 디스크 컨테이너 레이아웃, 블록 검증 시퀀스, 인메모리 상태 머신을 충분히 이해하고 있어서 후보 경로를 실제 싱크까지 몰고 갑니다. 파운데이션 모델이 Microsoft 고유의 파일시스템 불변식을 내재화할 필요가 없도록, 플러그인이 그 도메인 지식을 내장하고 모델이 그것을 활용하는 구조입니다.
CyberGym 벤치마크: 188개 OSS-Fuzz 프로젝트에서 추출한 1,507개의 실제 취약점 재현 과제로 구성된 공개 벤치마크 CyberGym 에서 MDASH는 88.45% 의 성공률을 달성하여 공식 리더보드 1위에 올랐습니다. 2위(83.1%) 와의 격차는 약 5%포인트입니다. 이 결과는 일반에 공개된 모델만으로 얻어졌으며, 주변의 에이전트 시스템이 원시 모델 능력 이상으로 종단 성능에 크게 기여한다는 점을 시사합니다. 평가에는 CyberGym의 기본 설정인 Level 1(취약 소스 코드와 고수준 취약점 설명 제공) 을 사용했고, MDASH의 Prove 단계를 CyberGym 평가 프로토콜에 맞춰 자동으로 PoC 입력을 제출하고 플래그를 회수하도록 확장했습니다.
남은 약 12%의 실패 분석에서는 두 가지 구조적 패턴이 드러났습니다. 잘못된 코드 영역을 겨냥한 발견 중 82%가 함수나 파일 식별자가 없는 모호한 설명에서 비롯되었다는 점은 설명 품질이 스캔 정확도의 주요 변수 임을 보여줍니다. 또 다른 사례는 에이전트가 libFuzzer 스타일 입력을 만들었지만 과제는 실제로 honggfuzz 포맷 입력을 요구했던 하니스 포맷 불일치 입니다.
시사점: 모델이 아니라 시스템이 핵심이다
MDASH 사례에서 얻을 수 있는 교훈은 단일 제품에 국한되지 않습니다. 하니스가 일을 한다. 모델은 입력 중 하나일 뿐이다(The harness does the work, and the model is one input) 라는 명제는 세 가지 구체적 함의를 가집니다.
첫째, 발견은 어떤 단일 프롬프트도 달성할 수 없는 조합(composition) 을 요구합니다. 이 글의 두 버그 사례, tcpip.sys 의 경쟁 조건과 ikeext.dll 의 별칭 체인은 함수 하나를 받은 모델에게는 보이지 않습니다. 파일 간 패턴 비교, 다단계 도달성 분석, 특화 에이전트 간 토론, 그리고 종단 증명 구성을 순차적으로 엮을 수 있는 시스템 에만 보입니다. 단일 모델 하니스는 모델이 할 수 있는 일을 과소평가했고, 단일 에이전트에 과신하는 접근은 모델이 신뢰성 있게 할 수 있는 일을 과대평가했습니다. 핵심은 모델을 둘러싼 하니스이며, 그 하니스가 엔지니어링의 대부분입니다.
둘째, 검증(validation) 이 발견 과 수정 의 차이를 만듭니다. 후보 버그를 표시만 하는 스캐너는 트리아지 백로그를 만드는 스캐너입니다. 이번 Patch Tuesday 코호트가 그 결과물인 이유는, 그것을 만든 시스템이 후보 단계에서 멈추지 않고 토론하고, 중복을 제거하고, 증명하기 때문입니다. 검증은 체크박스가 아니라 자체적인 에이전트와 플러그인의 파이프라인이며, 일상적 엔지니어링 노력 대부분이 거기에 쌓입니다.
셋째, 시스템이 모델 향상을 흡수합니다. 새로운 모델이 등장해도 타깃팅, 토론, 중복 제거, 증명 단계를 다시 쓰지 않아도 됩니다. 설정만 바꾸고 A/B 테스트를 돌리면 됩니다. 프로젝트별 컨텍스트, 스캔 플러그인, 증명 에이전트 같은 고객의 투자가 그대로 살아남습니다. 이것이 장기적으로 가장 중요한 아키텍처 속성입니다. 모델 추첨은 앞으로도 계속될 것이고, 가치가 특정 모델에 묶여 있는 시스템은 6개월마다 재구축되어야 하기 때문입니다.
방어자에게 보내는 메시지는 분명합니다. AI 취약점 도구에 던져야 할 올바른 질문은 "어떤 모델을 쓰나요?" 가 아니라 "그 모델로 무엇을 하나요, 그리고 다음 모델이 왔을 때 무엇이 살아남나요?" 입니다.
한국 개발자/연구자에게 주는 함의
MDASH의 발표는 한국의 보안 연구자, AI 엔지니어, 시스템 소프트웨어 개발자 모두에게 시사하는 바가 있습니다. 첫째, 멀티 모델 에이전트 시스템 설계에 대한 공개된 청사진 이 또 하나 추가되었습니다. 100개 이상의 특화 에이전트, 감사자/토론자/증명자 역할 분리, SOTA-증류 모델 혼합, 도메인 플러그인 확장성은 보안 외 영역(코드 리뷰, 컴플라이언스, 데이터 품질 검증) 에도 그대로 적용 가능한 패턴입니다.
둘째, Team Atlanta 의 사례에서 보듯 학계·연구실의 자율 사이버 추론 시스템(CRS) 연구가 산업 현장으로 빠르게 이전되고 있습니다. Atlantis, SemGrep, CodeQL, Snyk Code 같은 도구와의 비교, 그리고 OSS-Fuzz 와 CyberGym 같은 공개 벤치마크의 등장으로 평가 인프라도 빠르게 정비되고 있습니다. AI/ML 연구자가 보안 도메인에 기여할 수 있는 여지는 그 어느 때보다 큽니다.
셋째, 도메인 플러그인의 가치가 확인되었다는 점은 전문 지식을 LLM에 어떻게 주입하느냐 가 여전히 핵심 차별화 요소임을 보여줍니다. RAG, 도구 사용, MCP 서버, 코드 분석 데이터베이스 등 컨텍스트 주입 메커니즘에 대한 연구가 보안에서 큰 임팩트를 낼 수 있습니다.
MDASH는 현재 Microsoft 보안 엔지니어링 팀에서 사용 중이며, 소수 고객을 대상으로 한정된 비공개 프리뷰가 진행되고 있습니다. 프리뷰 참여는 공식 신청 페이지 에서 가능합니다.
Defense at AI speed: Microsoft's new multi-model agentic security system tops leading industry benchmark 원문 블로그
MDASH 비공개 프리뷰 신청 페이지
이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. ![]()
파이토치 한국 사용자 모임
이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일
로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)
아래
쪽에 좋아요
를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~ ![]()



