Home » Fachbeiträge » Cybersecurity » KI-Agent übertrifft neun von zehn Sicherheitsprofis beim Penetrationstest

Stanford-Studie: KI-Agent übertrifft neun von zehn Sicherheitsprofis beim Penetrationstest

Forscher haben erstmals KI-Agenten gegen menschliche Pentester in einem echten Unternehmensnetzwerk antreten lassen. Das Ergebnis: Ihr System ARTEMIS fand mehr kritische Schwachstellen als fast alle Profis.

·

Redaktion (sf)

5 Min. Lesezeit
Lupe über Netzwerkverbindungen
Foto: ©AdobeStock/kaliel

Wie gut sind KI-Agenten wirklich, wenn sie nicht in Sandboxen oder bei Capture-the-Flag-Wettbewerben antreten, sondern ein echtes Produktivnetzwerk knacken sollen? Ein Forscherteam von Stanford, Carnegie Mellon und dem KI-Sicherheitsunternehmen Gray Swan AI hat genau das ausprobiert.

Für ihre Studie ließen die Wissenschaftler zehn zertifizierte Penetrationstester gegen mehrere KI-Agenten antreten. Darunter war auch ARTEMIS, ein eigens entwickeltes Multi-Agenten-Framework. Die Zielumgebung: das Informatik-Netzwerk einer großen US-Forschungsuniversität mit rund 8.000 Hosts in zwölf Subnetzen – Unix-Systeme, IoT-Geräte, Windows-Maschinen, eingebettete Systeme. Die Universität setzt zum Schutz Schwachstellenmanagement, hostbasierte Firewalls, Intrusion-Detection- und Endpoint-Detection-Software ein.

Profis mit Zertifikaten und CVE-Erfahrung

Die menschlichen Teilnehmer waren dabei keine Amateure. Sie verfügten über Zertifizierungen wie OSCP, CRTO, OSWE und GWAPT und hatten im Laufe ihres Berufslebens bereits viele kritische Schwachstellen in Anwendungen aufgedeckt. Jeder von ihnen bekam eine Kali-Linux-VM, studentenäquivalente Zugangsdaten und die Vorgabe, mindestens zehn Stunden zu investieren. Die Vergütung lag bei 2.000 US-Dollar pro Person.

Auf der KI-Seite traten neben ARTEMIS fünf bestehende Frameworks an: OpenAIs Codex, Claude Code, CyAgent, Incalmo und MAPTA. Cy-Agent wurde dabei in zwei Konfigurationen mit unterschiedlichen Sprachmodellen getestet. Alle erhielten dieselben Instruktionen und dieselbe VM wie die Menschen.

Artemis: Supervisor, Sub-Agenten, Triage

Das „Automated Red Teaming Engine with Multi-agent Intelligent Supervision“-(ARTEMIS)-System unterscheidet sich von bestehenden Agenten-Frameworks vor allem in den folgenden Punkten:

  • Ein Supervisor steuert den Gesamtablauf und delegiert Aufgaben an beliebig viele Sub-Agenten, für die jeweils eigene, aufgabenspezifische System-Prompts generiert werden.
  • Ein Triage-Modul prüft gefundene Schwachstellen vor der Einreichung auf Relevanz, Reproduzierbarkeit und Duplikate.
  • Das System kann über Stunden hinweg autonom arbeiten, indem es nach Abschluss einer Sitzung den Kontext zusammenfasst und in einer neuen Sitzung dort weitermacht.

Letzteres ist etwas, an dem bestehende Agenten laut Studienautoren bisher scheitern. So signalisierte Codex bereits nach weniger als 20 Minuten, fertig zu sein. CyAgent hielt knapp zwei Stunden durch. ARTEMIS lief dagegen über zwei Arbeitstage jeweils acht Stunden. In der Spitze arbeiteten acht Sub-Agenten gleichzeitig.

Platz zwei im Gesamtranking

Die beste ARTEMIS-Konfiguration – ein Ensemble aus Claude Sonnet 4, OpenAI o3, Claude Opus 4, Gemini 2.5 Pro und o3 Pro als Supervisor-Modelle – erreichte 95,2 Punkte und damit den zweiten Gesamtplatz. Nur ein menschlicher Teilnehmer (111,4 Punkte) war besser.

ARTEMIS reichte elf Schwachstellen ein, neun davon wurden als valide bestätigt – eine Trefferquote von 82 Prozent. Beim Schweregrad-Score kam das System auf 54 Punkte. Der höchste Wert im Feld lag bei 64 Punkten.

Eine zweite Variante, die ausschließlich GPT-5 nutzte, kam auf 53,2 Punkte und Platz sieben – immer noch vor der Hälfte der menschlichen Tester. Dass beide Varianten gleich viele Schwachstellen einreichten, sich aber in der technischen Tiefe unterschieden, führen die Forscher auf Unterschiede im Cybersicherheitswissen der jeweiligen Sprachmodelle zurück.

Bestehende KI-Frameworks enttäuschen

Die anderen KI-Frameworks lieferten ein ernüchterndes Bild. Claude Code und MAPTA verweigerten die Aufgabe komplett. Incalmo blieb in der Aufklärungsphase stecken: null Ergebnisse. Codex mit GPT-5 kam auf 38,6 Punkte bei einer Validierungsrate von mageren 57 Prozent. CyAgent erreichte je nach Modell zwischen 19,4 und 23,6 Punkte.

Der Vergleich ist aufschlussreich: A1 (ARTEMIS mit GPT-5), Codex (ebenfalls GPT-5) und CyAgent (ebenfalls GPT-5) nutzen dasselbe Basismodell, liefern aber völlig unterschiedliche Ergebnisse. Die Architektur des Agenten-Frameworks sei damit mindestens ebenso entscheidend wie das zugrunde liegende Sprachmodell, so die Forscher.

Wo die KI versagt

ARTEMIS und die menschlichen Tester gingen laut Studie ähnlich vor: Scannen, Ziele identifizieren, untersuchen, ausnutzen, wiederholen. Der größte Vorteil der KI lag in der Parallelisierung. Fand ARTEMIS bei einem Scan etwas Auffälliges, startete es sofort einen Sub-Agenten im Hintergrund – manchmal mehrere gleichzeitig für verschiedene Ziele. Ein menschlicher Teilnehmer notierte etwa einen verwundbaren LDAP-Server, kehrte aber nie zu ihm zurück. ARTEMIS hätte sofort einen Sub-Agenten losgeschickt.

Die größte Schwäche von ARTEMIS ist allerdings, dass das System keine grafischen Oberflächen bedienen kann. 80 Prozent der Menschen fanden eine Remote-Code-Execution-Schwachstelle auf einem Windows-Rechner, der über die browserbasierte KVM-Lösung TinyPilot erreichbar war. ARTEMIS scheiterte an der GUI-Interaktion und meldete stattdessen lediglich Fehlkonfigurationen wie CORS-Wildcards.

Umgekehrt half die CLI-Fixierung in einem anderen Fall. 60 Prozent der Teilnehmer fanden eine Schwachstelle in einem iDRACServer mit moderner Web-Oberfläche. Keiner fand dieselbe Lücke in einem älteren iDRACServer, dessen veraltete HTTPS-Cipher-Suite von modernen Browsern abgelehnt wurde. ARTEMIS nutzte schlicht curl -k, um die Zertifikatsprüfung zu umgehen, und war drin. Die Menschen gaben auf, als ihr Browser nicht mitspielte.

Auch bei falsch-positiven Meldungen schnitt ARTEMIS schlechter ab. In einem Fall meldete der Agent eine erfolgreiche Anmeldung mit Standard-Zugangsdaten. Tatsächlich hatte der Server aber nur die Log-in-Seite erneut ausgeliefert. Für einen Menschen mit Browser wäre das sofort erkennbar gewesen.

18 Dollar pro Stunde statt 125.000 Dollar Jahresgehalt

Unschlagbar sind hingegen die Kosten. Die GPT-5-Variante von ARTEMIS kostete für 16 Stunden Betrieb insgesamt 291 US-Dollar.

Hochgerechnet auf eine 40-Stunden-Woche ergibt das Kosten von knapp 38.000 Dollar pro Jahr. Die Ensemble-Variante war mit 59 Dollar pro Stunde (944 Dollar gesamt) deutlich teurer, lieferte aber keine proportional besseren Ergebnisse. Zum Vergleich: Das durchschnittliche Jahresgehalt eines US-Penetrationstesters liegt laut Indeed bei circa 125.000 Dollar.

In zusätzlichen Tests prüften die Forscher, ob ARTEMIS Schwachstellen, die es autonom übersehen hatte, mithilfe von Hinweisen finden konnte. Vier von Menschen gefundene Lücken – E-Mail-Spoofing, SQL-Injection, Stored XSS und unauthentifizierter Remote-Konsolen-Zugang – wurden dem System mit abgestuften Hinweisen vorgelegt. Alle vier wurden mindestens einmal gefunden, wenn die Hinweise ausreichend waren. Der Flaschenhals liegt demnach nicht in der technischen Ausführung, sondern darin, die richtigen Angriffsmuster überhaupt zu erkennen.

Einschränkungen und offene Fragen

Insgesamt klingen die Zahlen erst einmal eindrucksvoll. Allerdings sollte man sie nicht überbewerten. Zehn Teilnehmer und zwei ARTEMIS-Läufe sind schlicht zu wenig, um daraus allgemeine Schlüsse zu ziehen. Dass der Agent die meisten Profis schlägt, stimmt für genau diesen Test unter genau diesen Bedingungen. Und diese waren durchaus vorteilhaft für die KI – was auch die Studienautoren selbst einräumen.

Das IT-Team der Universität wusste vom Test und winkte Aktionen durch, die im Normalbetrieb abgefangen worden wären. Wie ARTEMIS sich schlägt, wenn auf der anderen Seite jemand aktiv verteidigt, bliebe also abzuwarten.

Dazu kommt, dass zehn Stunden für einen Penetrationstest sehr wenig sind. Profis arbeiten normalerweise ein bis zwei Wochen an einem Auftrag. Ob ARTEMIS seinen Vorsprung über einen längeren Zeitraum halten würde oder ob erfahrene Tester die KI dann abhängen würden, lässt sich aus den Daten nicht ablesen. Ein Punkt, der zudem nicht untergehen sollte: Die Studie wurde unter anderem durch eine Spende von OpenAI finanziert. Die Wissenschaftler legen das offen, aber eine unabhängige Überprüfung der Ergebnisse gibt es bislang nicht.

Systeme wie ARTEMIS werden menschliche Pentester auf absehbare Zeit sicher nicht ersetzen, aber sie können ein günstiges Werkzeug für kleinere Unternehmen sein, die sich regelmäßige professionelle Tests schlicht nicht leisten können. Dass die Forscher ARTEMIS als Open Source veröffentlicht haben, macht die Sache allerdings zweischneidig: Dasselbe Werkzeug, das Verteidigern hilft, steht dann auch Angreifern zur Verfügung.  (sf)

Die komplette Studie ist kostenlos hier verfügbar.

Newsletter Abonnieren

Abonnieren Sie jetzt IT-SICHERHEIT News und erhalten Sie alle 14 Tage aktuelle News, Fachbeiträge, exklusive Einladungen zu kostenlosen Webinaren und hilfreiche Downloads.

Andere interessante Fachbeiträge

Junge Frau aus dem medizinischen Bereich lehnt an einer Tafel mit medizinischem Background und mit Tablet unter dem Arm

Patientendaten auf unsicheren Wegen

Die Digitalisierung des Gesundheitswesens ermöglicht eine effizientere Patientenversorgung durch nahtlose Kommunikation zwischen verschiedenen Akteuren der Behandlungs- und Versorg...

Ampel vor gelbem Hintergrund

Browser-Erweiterung macht Webtracking sichtbar

Cookie-Banner bitten um Zustimmung zu etwas, das sie nicht verständlich erklären. Adblocker blockieren Tracker, machen aber selten transparent, was genau im Hintergrund geschieht. ...

Mann am PC vor Monitor

Der Mensch als Angriffsfläche und als stärkste Verteidigung

Ein ganz normaler Arbeitstag in einem Industrieunternehmen oder einer Versorgungseinrichtung. Eine vertraut wirkende E-Mail: perfekt formuliert, inhaltlich stimmig, scheinbar vom i...