Microsoft MDASH: Wenn 100 KI-Agenten gemeinsam Sicherheitslücken jagen
Am 12. Mai 2026 veröffentlichte Microsoft seinen monatlichen Patch Tuesday – und diesmal war eine Meldung dabei, die weit über die übliche Liste gepatchter Schwachstellen hinausging. Sechzehn der behobenen Sicherheitslücken, darunter zwei kritische Remote-Code-Execution-Schwachstellen mit CVSS-Scores von 9.8 und 8.1, wurden nicht von menschlichen Sicherheitsforschern entdeckt. Sie wurden von einer KI gefunden.
Das System heisst MDASH – Multi-Model Agentic Scanning Harness – und es markiert einen Wendepunkt in der Geschichte der Cybersicherheit. Nicht weil eine KI Bugs findet (das tun andere Systeme auch), sondern weil MDASH diese Bugs in produktiver Qualität findet, validiert, beweist und in einem einzigen automatisierten Durchlauf auf den Patch-Tuesday-Prozess vorbereitet. Zum ersten Mal in der Geschichte von Windows wurde ein Patch-Paket durch ein vollständig autonomes KI-System mitgeprägt.
Was ist MDASH?
MDASH steht für Multi-model Agentic Scanning Harness. Der Name ist Programm: Es ist kein einzelnes Modell, sondern ein Orchestrierungssystem, das mehr als 100 spezialisierte KI-Agenten koordiniert. Jeder Agent ist für eine bestimmte Klasse von Schwachstellen oder eine bestimmte Rolle im Analyseprozess trainiert.
"Unlike single-model approaches, the harness orchestrates more than 100 specialized AI agents across an ensemble of frontier and distilled models to discover, debate, and prove exploitable bugs end-to-end." – Taesoo Kim, VP Agentic Security, Microsoft
Das System wurde von Taesoo Kim geleitet, einem der renommiertesten Sicherheitsforscher der Welt. Kim leitete zuvor das DARPA AIxCC-Team der Georgia Tech, das 2025 den Wettbewerb gewann und 29,5 Millionen Dollar Preisgeld für autonomes Cyber-Reasoning einstrich. Bei Microsoft leitet er nun das Team Autonomous Code Security (ACS), das MDASH entwickelt hat.
Die 5-Stufen-Pipeline
MDASH verarbeitet Quellcode in einer strukturierten, fünfstufigen Pipeline. Jede Stufe hat eine klar definierte Aufgabe und eigene spezialisierte Agenten.
| Stufe | Name | Aufgabe |
|---|---|---|
| 1 | Prepare | Quellcode einlesen, sprachbewusste Indizes aufbauen, Angriffsfläche und Bedrohungsmodelle analysieren |
| 2 | Scan | Spezialisierte "Auditor"-Agenten durchsuchen Codepfade und emittieren Kandidaten-Findings |
| 3 | Validate | "Debater"-Agenten argumentieren für und gegen Erreichbarkeit und Ausnutzbarkeit |
| 4 | Dedup | Semantisch äquivalente Findings werden zusammengefasst und priorisiert |
| 5 | Prove | Triggering-Inputs werden konstruiert und ausgeführt (z.B. via AddressSanitizer in C/C++) |
Das Besondere an diesem Design ist die explizite Trennung von Rollen. Ein Auditor-Agent denkt nicht wie ein Debater-Agent, und keiner von beiden denkt wie ein Prover-Agent. Jede Stufe hat ihr eigenes Prompt-Regime, ihre eigenen Tools und ihre eigenen Abbruchkriterien.
Das Ensemble-Prinzip: Warum Uneinigkeit ein Signal ist
MDASH verwendet kein einzelnes Modell, sondern ein Ensemble verschiedener Modelltypen. SOTA-Modelle (State-of-the-Art) übernehmen die schwere Reasoning-Arbeit als "Heavy Reasoner". Destillierte, kleinere Modelle fungieren als kostengünstige "Debater" für hochvolumige Validierungsdurchläufe. Ein zweites, unabhängiges SOTA-Modell liefert den Gegenpunkt.
Die entscheidende Einsicht hinter diesem Design: Wenn ein Auditor-Agent eine Schwachstelle markiert und der Debater-Agent sie nicht widerlegen kann, steigt die Glaubwürdigkeit des Findings. Uneinigkeit zwischen Modellen ist kein Fehler – sie ist ein Signal. Das System nutzt Modell-Divergenz als Qualitätsfilter.
Diese Architektur macht MDASH auch modell-agnostisch. Die Pipeline funktioniert mit jedem Modell. Wenn ein neues Frontier-Modell erscheint, kann es per A/B-Test in einzelne Stufen eingesetzt werden, ohne das Gesamtsystem zu destabilisieren.
Die 16 CVEs: Was MDASH im Mai 2026 fand
Beim Patch Tuesday vom 12. Mai 2026 entdeckte MDASH 16 Schwachstellen im Windows-Quellcode. Die beiden kritischsten zeigen exemplarisch, warum dieses System bisherige Ansätze übertrifft.
| CVE | CVSS | Komponente | Typ | Auswirkung |
|---|---|---|---|---|
| CVE-2026-33824 | 9.8 | ikeext.dll (IKEv2) | Double-Free | Unauthentifiziertes RCE als LocalSystem |
| CVE-2026-33827 | 8.1 | tcpip.sys (TCP/IP) | Race Condition / UAF | RCE via speziell präpariertes IPv6-Paket |
| CVE-2026-41089 | 7.5 | netlogon.dll (CLDAP) | Stack Overflow | Remote Code Execution |
| CVE-2026-41096 | 7.2 | dnsapi.dll | Heap OOB | Remote Code Execution |
| + 12 weitere | – | Verschiedene | DoS, Info Disclosure, EoP | Verschiedene |
CVE-2026-33824 ist besonders bemerkenswert: Der Double-Free-Bug in ikeext.dll erstreckt sich über sechs separate Quelldateien (ike_A.c bis ike_F.c). Ein einzelnes Modell mit begrenztem Kontextfenster hätte die Verbindung zwischen diesen Dateien nicht herstellen können. MDASH's Cross-File-Reasoning-Fähigkeit war hier entscheidend.
CVE-2026-33827 ist ein Race-Condition-Bug in tcpip.sys. Die Lifetime-Verletzung ist lokal nicht sichtbar – sie entsteht erst durch die Interaktion mehrerer Codepfade über Modulgrenzen hinweg. Genau für solche Cross-Module-Bugs wurde der Debater-Mechanismus entwickelt.
Benchmark: MDASH schlägt Anthropic Mythos Preview
Neben den realen CVEs wurde MDASH auf dem CyberGym-Benchmark getestet – dem aktuell anspruchsvollsten öffentlichen Benchmark für KI-gestützte Schwachstellenentdeckung mit 1.507 realen Schwachstellen.
| System | CyberGym Score |
|---|---|
| MDASH (Microsoft) | 88.45 % |
| Nächstbestes System | 83.1 % |
| Anthropic Mythos Preview | ~83 % |
| Beste Single-Model-Baseline | ~71 % |
MDASH führt die Leaderboard mit einem Vorsprung von rund 5 Prozentpunkten an. Auf dem internen StorageDrive-Testset fand das System alle 21 bekannten Schwachstellen bei null False Positives. Auf dem CLFS.sys-Datensatz (5 Jahre MSRC-Cases) erreichte es 96 % Recall, auf tcpip.sys sogar 100 %.
Einordnung: KI-Cybersicherheit wird zur Produktionsdisziplin
MDASH ist nicht das einzige KI-Sicherheitssystem, das 2026 auf den Markt kommt. Anthropic hat Project Glasswing gestartet, OpenAI hat Daybreak angekündigt. Alle drei Systeme verfolgen dasselbe Ziel: Schwachstellen zu finden, bevor Angreifer sie entdecken.
Was MDASH von diesen Initiativen unterscheidet, ist der Beweis, dass das System bereits in Produktion funktioniert. Die 16 Patch-Tuesday-CVEs sind keine Laborbefunde – sie sind reale Schwachstellen in produktivem Windows-Code, die gepatcht und an Millionen von Nutzern ausgeliefert wurden.
"The strategic implication is clear: AI vulnerability discovery has crossed from research curiosity into production-grade defense at enterprise scale, and the durable advantage lies in the agentic system around the model rather than any single model itself." – Taesoo Kim
Bedeutung für Schweizer Unternehmen
Für Schweizer Unternehmen ist MDASH aus mehreren Gründen relevant. Erstens werden Windows-Schwachstellen, die MDASH findet, schneller gepatcht – das verkürzt das Exposure-Fenster für alle Windows-Nutzer, einschliesslich der geschätzten 2,3 Millionen Windows-Installationen in Schweizer Unternehmen.
Zweitens ist MDASH in einer limitierten privaten Preview verfügbar. Unternehmen, die Microsoft Azure nutzen, können sich für den Early Access anmelden. Das ist besonders relevant für FINMA-regulierte Finanzdienstleister und Gesundheitsorganisationen, die unter dem revDSG proaktive Sicherheitsmassnahmen nachweisen müssen.
Drittens zeigt MDASH, wohin sich die Sicherheitsbranche bewegt. Die NIS2-Direktive der EU (in der Schweiz als DORA für Finanzdienstleister relevant) verlangt zunehmend den Nachweis proaktiver Sicherheitsmassnahmen. KI-gestützte Schwachstellenentdeckung wird in den nächsten Jahren von einer Differenzierungsmassnahme zu einer Compliance-Anforderung werden.
| Anwendungsfall | Relevanz für Schweizer KMU | Verfügbarkeit |
|---|---|---|
| Windows-Patching (indirekt) | Alle Windows-Nutzer | Sofort (via Patch Tuesday) |
| Azure-Integration | Azure-Kunden | Private Preview |
| On-Premise Codebase-Scan | Eigene Entwicklungsteams | Angekündigt, kein Datum |
| FINMA/revDSG-Compliance-Nachweis | Regulierte Branchen | Roadmap |
Fazit: Ein Wendepunkt, kein Hype
MDASH ist kein Forschungsprojekt und kein Marketingversprechen. Es ist ein System, das bereits bewiesen hat, dass es reale Schwachstellen in produktivem Code findet, validiert und für den Patch-Prozess aufbereitet – in einem Massstab und mit einer Qualität, die menschliche Sicherheitsteams allein nicht erreichen können.
Die Zahl 16 klingt klein. Aber hinter jeder dieser 16 CVEs steckt eine potenzielle Katastrophe: ein ungepatchter Windows-Server in einem Schweizer Spital, eine offene RCE-Lücke in einem Finanzdienstleister, ein Einfallstor für Ransomware in einem KMU. MDASH hat diese 16 Türen geschlossen, bevor ein Angreifer sie finden konnte.
Das ist der Massstab, an dem KI-Sicherheitssysteme gemessen werden sollten: nicht an Benchmark-Scores, sondern an realen Schwachstellen, die real gepatcht wurden. MDASH hat diesen Test bestanden.
Quellen: Microsoft Security Blog – Defense at AI Speed | The Hacker News – MDASH Finds 16 Windows Flaws | GeekWire – Microsoft's Multi-Agent AI System