Cybersicherheit auf dem Prüfstand
Cybersicherheit ist ein zentrales Thema der digitalen Gesellschaft und spielt sowohl im kommerziellen wie auch privaten Kontext eine wesentliche Rolle. Maschinelles Lernen (ML) hat sich in den letzten Jahren als eines der wichtigsten Werkzeuge zur Analyse sicherheitsrelevanter Probleme herauskristallisiert.
Eine Gruppe europäischer Forschender unter der Leitung von BIFOLD-Forschern der TU Berlin konnte jedoch zeigen, dass diese Art der Forschung oft fehleranfällig ist. Ihre Veröffentlichung „Dos and Don’ts of Machine Learning in Computer Security“ über Fallstricke bei der Anwendung von Maschinellem Lernen in der Sicherheitsforschung wurde auf dem renommierten USENIX Security Symposium 2022 mit einem Distinguished Paper Award ausgezeichnet.
Maschinelles Lernen in der Sicherheitsforschung birgt subtile Fallstricke
Maschinelles Lernen ist zweifellos eine Erfolgsgeschichte. Der weitverbreitete Zugang zu spezialisierten Rechenressourcen und großen Datensätzen sowie neuartige Konzepte und Architekturen für Deep Learning haben den Weg für Durchbrüche beim maschinellen Lernen in verschiedenen Bereichen geebnet, etwa bei der Übersetzung natürlicher Sprachen und der Erkennung von Bildinhalten. Diese Entwicklung hat sich auch auf die Sicherheitsforschung ausgewirkt: Maschinelles Lernen ist heute eine der wichtigsten Voraussetzungen für die Untersuchung und Lösung sicherheitsrelevanter Probleme in mehreren IT-Anwendungsbereichen, darunter die Erkennung von Eindringlingen, die Malware-Analyse, die Entdeckung von Sicherheitslücken und die Analyse von Binärcode.
Nicht nur kommerzielle Anbieter werben heute damit, dass ihre von künstlicher Intelligenz (KI) gesteuerten Produkte effizienter und effektiver als bisherige Lösungen seien. Auch viele Forschende setzen diese Technik ein, da Algorithmen den traditionellen Methoden oft weit überlegen zu sein scheinen. So wird maschinelles Lernen zum Beispiel auch eingesetzt, um neue digitale Angriffstaktiken zu erlernen und die Abwehrmaßnahmen an diese Bedrohungen anzupassen.
Maschinelles Lernen hat jedoch keine hellseherischen Fähigkeiten und erfordert Schlussfolgerungen über statistische Eigenschaften von Daten in einem ziemlich heiklen Arbeitsablauf: Falsche Annahmen und experimentelle Verzerrungen können diesen Prozess so sehr in Frage stellen, dass es unklar wird, ob wissenschaftlichen Entdeckungen, die mithilfe von Lernalgorithmen gemacht wurden, zu vertrauen ist. Versuche, solche Herausforderungen und Einschränkungen in bestimmten Sicherheitsbereichen wie der Erkennung von Eindringlingen in Netzwerke zu identifizieren, begannen vor zwei Jahrzehnten und wurden in jüngerer Zeit auf andere Bereiche wie die Analyse von Malware und das Fingerprinting von Websites ausgedehnt. Unabhängig davon argumentieren die Forschenden jedoch, dass es allgemeine Fallstricke im Zusammenhang mit dem maschinellen Lernen gibt, die alle Sicherheitsbereiche betreffen und bisher wenig beachtet wurden.
Diese Fallstricke könnten zu überoptimistischen Ergebnissen führen und, was noch schlimmer wäre, den gesamten Arbeitsablauf des maschinellen Lernens beeinträchtigen. Die Folge wäre ein falsches Erfolgsgefühl, das die Übernahme von Forschungsfortschritten in Wissenschaft und Industrie behindert. Eine solide wissenschaftliche Methodik ist von grundlegender Bedeutung, um Intuitionen zu unterstützen und Schlussfolgerungen zu ziehen. Die WissenschaftlerInnen argumentieren, dass diese Notwendigkeit besonders im Bereich der Sicherheit von Bedeutung ist, wo Prozesse oft von Gegnern untergraben werden, die aktiv versuchen, Analysen zu umgehen und Systeme zu knacken.
„In dem Paper liefern wir eine kritische Analyse des Einsatzes von ML in der Cybersicherheitsforschung“, so Erstautor Dr. Daniel Arp, Postdoc an der TU Berlin: „Zunächst identifizieren wir häufige Fallstricke bei der Konzeption, Implementierung und Evaluierung von lernbasierten Sicherheitssystemen.“ Ein Beispiel für solche Probleme ist die Verwendung nicht repräsentativer Daten. Dabei geht es um Datensätze, bei denen die Anzahl der Angriffe im Vergleich zu ihrer Häufigkeit in der Realität überrepräsentiert ist. ML-Modelle, die auf solchen Daten trainiert wurden, können sich in der Praxis als unbrauchbar erweisen. Im schlimmsten Fall könnte sich sogar herausstellen, dass sie außerhalb einer experimentellen Umgebung gar nicht funktionieren oder zu Fehlinterpretationen führen.
In einem zweiten Schritt führten die Forschenden eine Prävalenzanalyse auf der Grundlage der identifizierten Probleme durch, bei der sie 30 Beiträge von hochrangigen Sicherheitskonferenzen untersuchten, die zwischen 2010 und 2020 veröffentlicht wurden. „Zu unserer Besorgnis mussten wir feststellen, dass diese Fallstricke selbst in sorgfältig durchgeführter Spitzenforschung weit verbreitet sind“, so BIFOLD Fellow Prof. Dr. Konrad Rieck von der TU Braunschweig.
Wo moderne Cybersecurity-Ansätze ins Straucheln kommen
Auch wenn diese Ergebnisse bereits ein alarmierendes Signal waren – die möglichen Folgen waren zunächst unklar. In einem dritten Schritt haben die ForscherInnen daher anhand von vier konkreten Fallstudien mit Beispielen aus der Literatur gezeigt, wie und wo diese identifizierten Probleme zu unrealistischen Ergebnissen und Interpretationen von ML-Systemen führen.
Eine der untersuchten Fallstudien beschäftigte sich mit der Erkennung mobiler Schadsoftware. Aufgrund der großen Anzahl neuer gefährlicher Software für mobile Geräte, haben herkömmliche Antiviren-Scanner oft Probleme, mit der Schadsoftware Schritt zu halten und bieten nur eine schlechte Erkennungsleistung. Um dieses Problem in den Griff zu bekommen, haben ForscherInnen lernbasierte Methoden vorgeschlagen und entwickelt, die sich automatisch an neue Malware-Varianten anpassen können.
„Leider wurde die Leistung der lernbasierten Systeme in vielen Fällen überschätzt. Da es keine öffentlich zugänglichen Lern-Datensätze von Unternehmen gibt, nutzen ForscherInnen meist eigene Datensätze und führen dazu verschiedene Quellen zusammen“, erklärt Dr. Daniel Arp. „Diese Zusammenführung der Lern-Datensätze aus verschiedenen Quellen führt jedoch zu einer Verzerrung der Stichprobe: Apps aus den offiziellen App Stores der Smartphone-Hersteller bergen tendenziell weniger Sicherheitsrisiken als Apps, die aus alternativen Quellen mit geringeren Sicherheitsstandards stammen. Im Ergebnis konnten wir zeigen, dass moderne Cybersecurity-Ansätze dazu neigen, sich bei der Erkennung von Schadsoftware auf Merkmale zu konzentrieren, die auf die Quelle der App zurückzuführen sind, anstatt reale Malware-Merkmale zu identifizieren. Dies ist nur eines von vielen Beispielen des Papers, die zeigen, wie ein kleiner Fehler bei der Zusammenstellung der Lern-Datensätze schwerwiegende Verzerrungen im Ergebnis herbeiführt und das gesamte Experiment beeinflussen kann.“
Die Probleme bei der Anwendung von ML-Methoden in der Cybersicherheit werden durch die Notwendigkeit, in einem feindlichen Kontext zu arbeiten, noch verschärft. Mit ihrer Veröffentlichung hoffen die ForscherInnen, das Bewusstsein für potenzielle Fehlerquellen im experimentellen Design zu schärfen und diese möglichst zu vermeiden.
Stefan Mutschler
Gestapeltes Balkendiagramm mit den Fallstricken der 30 analysierten Arbeiten. Die Farben der einzelnen Balken zeigen den Grad des Auftretens eines Fehlers an, und die Breite gibt den Anteil der Arbeiten in dieser Gruppe an. Die Zahl in der Mitte jedes Balkens zeigt die Kardinalität (Anzahl der an einer Beziehung beteiligten Entitäten) der einzelnen Gruppen.
Mitwirkende am Papier „Dos and Don’ts of Machine Learning in Computer Security“
- TU Berlin
- TU Braunschweig
- University College London
- King’s College London
- Royal Holloway University of London
- Karlsruher Institut für Technologie (KIT)/KASTEL Security Research Labs
Was die ML-Forschenden genau tun*
1. Identifizierung von Fallstricken „Wir identifizieren zehn Fallstricke als Don’ts des maschinellen Lernens im Sicherheitsbereich und schlagen Dos als umsetzbare Empfehlungen vor, um Forscher dabei zu unterstützen, die Fallstricke nach Möglichkeit zu vermeiden. Darüber hinaus identifizieren wir offene Probleme, die nicht ohne Weiteres entschärft werden können und weitere Forschungsanstrengungen erfordern.“
2. Prävalenz-Analyse
„Wir analysieren die Häufigkeit der identifizierten Fallstricke in 30 repräsentativen,
hochrangigen Sicherheitspublikationen der letzten zehn Jahre. Zusätzlich führen wir eine breit angelegte Umfrage durch, in der wir das Feedback der Autoren dieser Arbeiten zu den identifizierten Fallstricken einholen und auswerten.“
3. Analyse der Auswirkungen
„In vier verschiedenen Sicherheitsbereichen analysieren wir experimentell das
Ausmaß, in dem solche Fallstricke zu experimentellen Verzerrungen führen, und wie wir diese Probleme durch Anwendung der vorgeschlagenen Empfehlungen effektiv überwinden können.“
*Zitate von der Website – übersetzt durch die Redaktion
Publikation:
Daniel Arp, Erwin Quiring, Feargus Pendlebury, Alexander Warnecke, Fabio Pierazzi, Christian Wressnegger, Lorenzo Cavallaro, Konrad Rieck: Dos and Don’ts of Machine Learning in Computer Security, https://www.usenix.org/system/files/sec22-arp.pdf