Home » Fachbeiträge » Security Management » Die Agenten-Lücke

Neue Protokolle unterlaufen den AI Act: Die Agenten-Lücke

Der EU AI Act reguliert KI-Modelle anhand ihrer Trainingsrechenleistung – doch autonome KI-Agenten hebeln diesen Ansatz aus. Über Protokolle wie Anthropics MCP oder Googles A2A vernetzen sich kleine Modelle zu mächtigen Systemen, die einzeln unter den Schwellenwerten bleiben, gemeinsam aber sensible Daten verarbeiten und eigenständig handeln. Welche Sicherheitsrisiken daraus entstehen und wie Unternehmen ihre Agenten-Architekturen trotzdem absichern können, zeigt eine Analyse der aktuellen Frameworks von ENISA und NIST.

9 Min. Lesezeit
Freundlicher Roboter mit einem gruseligen Schatten im Hintergrund
Foto: ©AdobeStock/Jay-Koppelman

Der EU AI Act setzt bei der Definition von systemischen Risiken primär auf hohe Schwellenwerte beim Modelltraining. Der Trend zu Agentic-AI untergräbt diesen Ansatz jedoch grundlegend: Durch die Nutzung von Protokollen wie dem Model Context Protocol (MCP) und Agent-to-Agent (A2A) können vergleichsweise kleine Modelle Prozessketten bilden, bei denen jedes einzelne Element unter den kritischen Grenzwerten bleibt, während das verkettete Gesamtsystem diese um ein Vielfaches überschreitet. Das primäre Ziel des AI Acts, Anbieter großer generativer KI-Modelle zu mehr Sicherheit zu drängen, lässt sich so unterlaufen.

Dabei operieren Agentic-AI-Systeme in der Praxis oftmals mit schutzwürdigen Daten, beispielsweise wenn ein KI-Agent im Auftrag eines Anwenders nach einem Produkt sucht, dieses in einem Onlineshop bestellt und dann mit einer Kreditkarte bezahlt. Für eine solche Anwendung greifen die beteiligten Agenten auf sensible Informationen zu, die sie untereinander austauschen und weiterverarbeiten.

Durch autonome Handlungsfähigkeit wie das eigenständige Ausführen von Code kann ein solches System aus verketteten KI-Agenten einen weit größeren Schaden anrichten als ein isoliertes, riesiges Modell. Es stellt sich daher die Frage, ob die Agenten-Architektur selbst als GPAI mit systemischem Risiko eingestuft werden muss, und zwar auch dann, wenn nur die einzelnen KI-Modell-Komponenten des Systems die vom EU AI Act gesetzten Schwellenwerte unterschreiten.

Die EU definiert im AI Act KI-Modelle mit allgemeinem Verwendungszweck (General Purpose AI, GPAI) über die Rechenleistung des Modelltrainings. Darunter fällt jedes Modell, das mit mehr als 10²³ FLOPS trainiert wurde. FLOP steht für Gleitkommaoperationen; im Kontext des AI Acts bezeichnet der Wert die kumulative Rechenleistung während des Trainings.

Das Modell muss in der Lage sein, Sprach-, Text-zu-Bild- oder Text-zu-Video-Ausgaben zu erzeugen. Für Anbieter solcher GPAI-Modelle gelten umfangreiche Pflichten über den gesamten Lebenszyklus hinweg – von der Modellentwicklung und Schulung über die Veröffentlichung bis hin zu späteren Updates. Die Umsetzung dieser Vorgaben muss per Dokumentation nachgewiesen werden. Dazu gehören eine Zusammenfassung der verwendeten Trainingsdaten und die Einhaltung der Regeln zum Urheberrecht im Modell.

Bei besonders rechenintensiven Modellen, die mit mehr als 10²5 FLOPS trainiert wurden, gilt das Modell als GPAI mit systemischem Risiko. Das bedeutet zusätzliche Verpflichtungen für den Anbieter. Er muss sein Modell immer und überall daraufhin prüfen, ob es Risiken gibt. Dabei geht es um Technik, aber auch um Ethik und Soziales. Cybersicherheitsmaßnahmen müssen über den gesamten Lebenszyklus ergriffen und umgesetzt werden. Zum Beispiel ist vorgeschrieben, Vorfälle im Internet zu bewerten und Schwachstellen zu schließen. Schwere Cybersicherheitsvorfälle sind an die zuständigen nationalen Behörden zu melden, in deren Land die betroffenen Systeme angeboten werden.

Enisa-Framework stößt bei Agenten an Grenzen

Für die praktische Umsetzung der AI-Act-Anforderungen hat die europäische Behörde für Cybersicherheit (ENISA) das Multilayer Framework for Good Cybersecurity Practice (FAICP) entwickelt. Der Leitfaden liefert konkrete Anleitungen zur Absicherung von GPAI-Systemen, -Vorgängen und -Prozessen und unterscheidet dabei drei Ebenen: allgemeine Cybersicherheit, KI-spezifische Sicherheit und branchenspezifische Anforderungen (siehe Kasten). Doch auch wer mit kleineren KI-Agenten-Systemen unterhalb der GPAI-Schwellenwerte arbeitet, sollte aus Gründen der System- und Anwendungssicherheit die FAICP-Prinzipien anwenden.

Die Integration von Agentic-AI-Protokollen wie MCP und A2A in die Infrastruktur eines Unternehmens betrifft alle Ebenen des ENISA-FAICP-Frameworks. Auf der Grundlagenebene etwa fungieren MCP-Server als neue Netzwerkendpunkte, was eine strikte Umsetzung des Zero-Trust-Prinzips erfordert. Da Agenten über diese Protokolle oft direkten Zugriff auf Dateisysteme erhalten, müssen Zugriffsrechte deutlich granularer definiert werden, als es in klassischen IT-Umgebungen der Fall ist.

Im Bereich der KI-Sicherheit auf der zweiten Ebene entstehen durch MCP und A2A neue Angriffsvektoren wie die Indirect Prompt Injection. Dabei platziert ein Angreifer eine manipulierte Datei in einem Repository, die der Agent über das Protokoll ausliest. Versteckte Befehle in der Datei können den Agenten dazu verleiten, vertrauliche Daten an externe Systeme weiterzugeben. Zur Abwehr sind Netzwerkfilter nötig, die die Agentenkommunikation überwachen und verdächtige Muster blockieren.

Auf der dritten Ebene, den sektorspezifischen Anforderungen, wird es besonders heikel. In kritischen Infrastrukturen wie dem Finanzwesen oder der Energieversorgung könnten KI-Agenten eigenständig Transaktionen auslösen. Die FAICP fordert hier nachvollziehbare Entscheidungen, was bei autonomen Agentenketten eine technische Herkulesaufgabe ist.

Hinzu kommt ein rechtliches Problem: Wer haftet, wenn etwas schiefgeht? Durch verkettete KI-Agenten verschwimmen die Verantwortlichkeiten zwischen Modell-Anbieter und System-Integrator. Koppelt ein Unternehmen einen Agenten an interne Datenbanken und dieser verstößt aufgrund einer Fehlfunktion gegen den AI Act oder Datenschutzregeln, ist unklar, wer verantwortlich ist. Der Integrator kontrolliert schließlich die Agenten-Logik und die Datenanbindung – nicht der Modell-Anbieter.

Die drei Ebenen der KI-Sicherheit nach ENISA

Ebene I – Grundlagen der Cybersicherheit:

Hier wird das technische Fundament zur Absicherung geschaffen. Dazu zählen zum Beispiel: Register über Sicherheits-Assets der Informations- und Telekommunikationstechnik (ITK), Konzepte über Identitäten und Zugriffsrechte nach dem Zero-Trust-Prinzip, ein Schwachstellen-Management, bei dem das Risiko gewichtet wird, Prozesse für Updates und Patching sowie Prozesse für die Beantwortung von Incidents.

Ebene II – Sicherheit für KI:

Hier geht es um Bedrohungen, die erst durch KI in ITK-Systemen entstehen. Dazu gehören zum Beispiel kryptografisch abgesicherte Datenlieferketten, Detektoren gegen Datenvergiftung, Tests zum Erkennen von Angriffen und Mechanismen für vertrauliche Inferenz. Es wird auch empfohlen, Ausgabe- und Prompt-Filter zu benutzen. Diese kennzeichnen riskante Ergebnisse.

Ebene III – Sicherheit in bestimmten Bereichen:

Hier werden Sicherheitsprinzipien auf Bereiche übertragen, in denen es unmittelbare Risiken für Menschen, Gesundheit oder Infrastruktur gibt. Im Gesundheitswesen empfiehlt das FAICP etwa Protokolle, die man überprüfen kann, und Pläne für Notfälle. Der Finanzsektor soll sichere Nachhandels- Logs führen und Entscheidungen nachvollziehbar machen. In Operational-
Technology-(OT)-Umgebungen sind Notfallstrategien, physische Abschaltungen und Regeln für die Anlagen aufgeführt.

Abbildung 1: Schichtenmodell ENISA
Quelle: ENISA, „Multilayer Framework for Good Cybersecurity Practices for AI“, S. 6

Abbildung 1: Schichtenmodell im FAICP

Dieses neue Zusammenspiel durch KI-Agenten macht deutlich, dass eine rein hardwarebasierte Regulierung durch den EU AI Act zu kurz greift. Für Unternehmen bedeutet dies, dass die Cybersicherheit von einer reaktiven Überprüfung zu einer aktiven Sicherheit bereits während der Designphase des KI-Agenten-Systems übergehen muss. Wer Agenten einsetzt, muss nicht nur das verwendete Modell absichern, sondern den gesamten Aktionsraum, den die MCP und A2A Protokolle dem Agenten eröffnen. Die FAICP-Leitlinien der ENISA bieten hierfür zwar eine Struktur, müssen aber dringend um spezifische Standards für autonome Agenten-Schnittstellen ergänzt werden, um den Anforderungen der Cybersicherheit in der Praxis zu genügen.

NIST-Framework als Leitplanke für Agenten-Sicherheit

Sichere Agentensysteme entstehen nicht im Alleingang: KI-Entwickler beherrschen die Modelle, kennen aber oft nicht die klassische IT-Sicherheit. Auch ein Informationssicherheitsmanagementsystem (ISMS) nach ISO 27001, das viele Unternehmen bereits nutzen, deckt KI-spezifische Risiken nicht ab. Hier hilft das Cyber-Security-Framework des National Institute of Standards and Technology (NIST) als Ergänzung (siehe Abbildung 2).

Abbildung 2: Management von IT-Risiken nach NIST gilt auch für KI-Agenten-Systeme. (Quelle: NIST)

Abbildung 2: Management von IT-Risiken nach NIST gilt auch für KI-Agenten-Systeme.
Quelle: NIST

Im Gegensatz zu klassischen Softwareanwendungen zeichnen sich KI-Agenten durch ein hohes Maß an Autonomie und die Fähigkeit aus, eigenständig  Entscheidungen in dynamischen Umgebungen zu treffen, was die Angriffsfläche und die Komplexität der Risiken erhöht. Ein fundierter Ansatz beginnt daher bereits in der Vorbereitungsphase mit der Definition des Kontextes, wobei die spezifischen Ziele des Agenten sowie die potenziellen Auswirkungen auf die Organisation und externe Stakeholder präzise umrissen werden müssen.

Im Zentrum der Methodik nach NIST steht die Identifikation von Risiken, die bei KI-Agenten über herkömmliche Cybersicherheitsbedrohungen hinausgehen. Hier treten besagte Phänomene wie Prompt Injection, Data Poisoning oder das Problem der Modell-Halluzinationen in den Vordergrund, die das Verhalten des Agenten unvorhersehbar machen können. Ein Agent, der Zugriff auf interne Datenbanken oder E-Mail-Systeme hat, könnte durch geschickte Manipulation Dritter dazu verleitet werden, vertrauliche Informationen preiszugeben oder schadhafte Aktionen auszuführen.

Das NIST-Modell verlangt hier eine kontinuierliche Überwachung, da sich das Risikoprofil eines Agenten durch permanentes Lernen oder sich ändernde Datenströme im laufenden Betrieb verschieben kann. Die Bewertung dieser Risiken muss daher dynamisch erfolgen und darf sich keinesfalls auf eine einmalige Prüfung vor dem Rollout beschränken.

Die Umsetzung von Schutzmaßnahmen erfordert darüber hinaus eine enge Verzahnung von technischen Kontrollen und organisatorischen Leitplanken. Hierzu zählen die Implementierung strikter Zugriffskontrollen und die Überprüfung der Output-Integrität durch sekundäre Validierungsschichten bei den KI-Agenten-Protokollen.

Ein wesentlicher Aspekt nach NIST ist die Förderung der Vertrauenswürdigkeit, was im Kontext von KI-Agenten vor allem Erklärbarkeit und Transparenz bedeutet. Entwickler müssen sicherstellen, dass die Entscheidungspfade des Agenten nachvollziehbar bleiben, um im Fall einer Fehlentscheidung eine schnelle Ursachenanalyse und Korrektur zu ermöglichen. Dies korrespondiert mit der NIST-Säule der Verantwortlichkeit, die klare Strukturen für die menschliche Aufsicht (Human-in-the-Loop) fordert, um die Autonomie des Systems dort zu begrenzen, wo kritische Geschäftsentscheidungen getroffen oder ethische Grenzbereiche berührt werden.

Guardrailing und Monitoring im Betrieb

Um die Integrität und Sicherheit von KI-Agenten zu gewährleisten, müssen die Kontrollmechanismen für die Überprüfung von Protokollen weit über einfache Filterfunktionen hinausgehen. Im Rahmen des NIST-Ansatzes kann dazu eine mehrstufige Validierungsarchitektur implementiert werden, die als Korrektiv zwischen dem autonomen Agenten und der Außenwelt fungiert.

Ein primärer technischer Kontrollmechanismus ist das sogenannte Guardrailing. Dabei untersuchen spezialisierte Sprachmodelle oder regelbasierte Systeme die Protokollinhalte in Echtzeit auf Richtlinienverstöße, Halluzinationen oder die Preisgabe von sensiblen Daten. Diese Instanz fungiert als Sicherheitsschleuse, die potenziell schädliche Aktionen von KI-Agenten blockiert, bevor sie eine Wirkung entfalten können.

Ergänzend dazu spielt die semantische Konsistenzprüfung eine entscheidende Rolle. Hierbei wird das Verhalten von KI-Agenten gegen eine verifizierte Wissensbasis geprüft, um sicherzustellen, dass die vorgeschlagene Handlung logisch und faktisch fundiert ist. In hochkritischen Umgebungen sieht das NIST-Framework zudem die Einbindung von deterministischen Validierern vor. Diese prüfen beispielsweise bei Agenten, die Anweisungen und Prompts erzeugen oder Datenbankabfragen generieren, ob die Syntax korrekt ist und ob deren Ausführung innerhalb definierter Berechtigungsgrenzen bleibt, etwa durch den Einsatz von Sandbox- Umgebungen.

Ein weiterer wesentlicher Aspekt ist das Monitoring des Verhaltens von KI-Agenten im Betrieb. Dabei wird kontinuierlich abgeglichen, ob die vom Agenten gewählten Zwischenschritte noch mit der ursprünglichen Zielvorgabe des Nutzers übereinstimmen. Da Agenten oft über mehrere Stufen hinweg planen, besteht das Risiko des sogenannten Driftens, bei dem sich das System durch eine Kette von Fehlinterpretationen von den gewünschten Eigenschaften entfernt.

Durch die Implementierung von Checkpoints, die eine explizite Bestätigung durch einen menschlichen Operator (Human-in-the-Loop) bei Überschreiten bestimmter Risikoschwellen erfordern, kann eine notwendige Absicherung zur Intervention sichergestellt werden. Dieser hybride Ansatz aus automatisierter Echtzeit-Prüfung und strategischer menschlicher Aufsicht ermöglicht es, die Effizienzvorteile autonomer Agenten zu nutzen, ohne die Kontrolle über die Systemsicherheit einzubüßen.

Fazit

Der Übergang von klassischen IT-Prozessen zu dynamischen KI-Prozessen mit autonomen KI-Agenten erfordert eine ganzheitliche Betrachtung von KI-Sicherheit und IT-Sicherheit. Ein isolierter Fokus auf die KI-Modellentwicklung und GPAI-Modelle wie Large Language Models (LLMs) reicht nicht aus. Ein resilientes KI-Agenten-System zeichnet sich dadurch aus, dass es Sicherheitsgrenzen nicht nur erkennt, sondern innerhalb gesetzter Leitplanken proaktiv agiert und nicht ausbricht.

Die Frameworks von ENISA (FAICP) und NIST bieten dafür eine Struktur – auch wenn das Verhalten autonomer Systeme nie vollständig vorhersehbar sein wird. Letztlich ist der sichere Einsatz von KI-Agenten kein rein technisches Problem, sondern eine Frage der organisatorischen Reife. Organisationen, die Transparenz, Verantwortlichkeit und kontinuierliches Monitoring tief in ihrer Unternehmenskultur verankern, können das volle Potenzial autonomer Systeme ausschöpfen, ohne untragbare Risiken einzugehen.

Porträt Mirko Ross

Mirko Ross ist CEO der asvin GmbH.

Newsletter Abonnieren

Abonnieren Sie jetzt IT-SICHERHEIT News und erhalten Sie alle 14 Tage aktuelle News, Fachbeiträge, exklusive Einladungen zu kostenlosen Webinaren und hilfreiche Downloads.

Andere interessante Fachbeiträge

Schutzschild mit EU-Flagge

Wie Unternehmen NIS-2 und CRA gemeinsam umsetzen können

Mit dem NIS-2-Umsetzungsgesetz und dem Cyber Resilience Act (CRA) verschärft die EU ihre Anforderungen an die Cybersicherheit deutlich. Erstmals greifen organisatorische Schutzmaßn...

Open Source Code

Wie NIS-2 und CRA die Spielregeln für Open-Source-Software neu definieren

Open-Source-Software (OSS) ist das Betriebssystem der digitalen Transformation in Europa. Seine Attraktivität ist unbestritten und der Vormarsch unaufhaltsam: Unternehmen setzen au...

Integrierte Governance

Integrierte Governance statt Regelflut

Mit NIS-2, DORA und ESG wächst die Regulierungsdichte für Unternehmen stetig. Unsere Autoren zeigen im vierten Teil der Artikel-Serie, warum additive Compliance-Ansätze scheitern u...