Sicherheit und Transparenz KI-basierter Lösungen

KI – meist maschinelles Lernen (ML) – wird immer häufiger als Werkzeug für verschiedene Sicherheitsanwendungen eingesetzt, welche Daten analysieren, clustern oder attributieren müssen. Dabei ist die IT-Sicherheit der eingesetzten Algorithmen oft begrenzt. For­schungsergebnisse der letzten Jahre zeigen Schwächen trainierter neuronaler Netze, wie etwa mangelnde Robustheit gegenüber gezielten Angriffen. Auch Risiken für die Privatsphäre werden im Zusammenhang mit maschinellem Lernen gesehen, wie etwa mögliche Schwachstellen von trainierten neuronalen Netzen sowie die Deanonymisierung in komplexen Datensätzen mit Hilfe von maschinellem Lernen.

Dies führt zu einem Mangel an Vertrauen und Akzeptanz in der Öffentlichkeit: ML wird als Risiko und Bedrohung wahrgenommen, als ein Mechanismus, der große Teile des Alltagslebens unkontrollierbar überwachen kann. Unter diesen Umständen wird es zu einer Herausforderung, das Potenzial von ML für Si­cher­heits­lö­sun­gen und andere sensible Anwendungen zu nutzen.

In der IT-Sicherheit ist der Einsatz von ML bereits heute in mehreren Bereichen etabliert. Die SPAM-Erkennung ist ein bekanntes Beispiel, bei dem Support-Vektor-Maschinen (SVM) versuchen, erwünschte von unerwünschten E-Mails zu unterscheiden. Die Autorenzuordnung kombiniert natural language forensics mit maschinellem Lernen. Deep Learning hilft, illegale Bilder zu identifizieren und Malware-Erkennung sowie Intrusion-Detection-Systeme zu verbessern.


Maschinelles Lernen als Angriffsziel und als Angriffswerkzeug

ML-Algorithmen und trainierte neuronale Netze sind heutzutage Ziel von Cyber-Angriffen: Verschiedene Angriffsarten versuchen, ML-basierte Entscheidungen zu beeinflussen bzw. in die Irre zu führen. Um dieses Herzstück von ML zu schützen, sind IT-Sicherheits-Maßnahmen erforderlich.

ML wird gleichzeitig zu einem Werkzeug von Angreifern. Deshalb müssen IT-Sicherheitsmaßnahmen in der Lage sein, Angriffe abwehren zu können, die sich schneller an komplexe Sicherheitsmaßnahmen anpassen können – ähnlich wie Intrusion-Detection-Systeme darauf abzielen, komplexe Angriffe mit Hilfe von ML zu identifizieren.

Sogenannte feindliches maschinelles Lernen (adversarial ML) wird in der IT-Sicherheit häufiger werden. Immer dann, wenn eine Sicherheitsherausforderung sowohl mit einem relativ einfachen Konzept beschrieben und gleichzeitig mittels ML angegangen werden kann, wird die andere Seite, sei es Verteidiger oder Angreifer, feindliches maschinelles Lernen nutzen, um Schwachstellen in der Strategie des Gegenübers effizient zu identifizieren und spezialisierte Angriffe oder Abwehrmaßnahmen dagegen einzusetzen.


Verbesserung der IT-Sicherheit von Tech­no­logien und Anwendungen, die auf ML basieren

SenPAI behandelt das Thema IT-Sicherheit und ML aus zwei Perspektiven: Zunächst geht es um die Verbesserung der Sicherheit von Algorithmen und Systemen, die auf ML basieren. Dabei geht es nicht um Standard-Systemsicherheit, die für alle IT-Systeme gilt, sondern der Schwerpunkt liegt auf Sicherheits­heraus­forderungen, die besonders bzw. ausschließlich für ML relevant sind. Der Begriff "Sicherheit" ist hier in einem weiten Sinne zu verstehen, da auch Fragen wie der Verlust von Privatsphäre oder die Transparenz von Entscheidungen behandelt werden.

Die zweite Perspektive ist anwendungszentriert. Da das Nationale Zentrum für angewandte Cyber­sicher­heits­forschung ATHENE angewandte Si­cher­heits­lö­sun­gen fokussiert, zielt SenPAI darauf ab, neue Sicherheitsanwendungen auf ML-Basis zu entwickeln und zu evaluieren. Diese Anwendungen können und sollen auch die in den technologiezentrierten Forschungsprojekten entwickelten Sicherheitsmechanismen nutzen sowie deren Nutzbarkeit und Leistungsfähigkeit beurteilen. Die Projekte, die sich auf Anwendungen konzentrieren, könnten neue Fragestellungen für die technologiezentrierten Projekte aufwerfen.

Diese Projekte könnten auch im Bereich Big Data angesiedelt sein, da sie mit großen, komplexen Datenbeständen arbeiten und zum Ziel haben, daraus auf effiziente Weise sicherheitsrelevante Informationen abzuleiten.

Aus den technologiezentrierten Projekten sollen hauptsächlich Forschungspublikationen und Doktorarbeiten hervorgehen. Ferner werden auch Werkzeuge entwickelt und implementiert. Die anwendungszentrierten Projekte konzentrieren sich darauf, Demonstratoren zu erstellen und diese mit Öffentlichkeit, Behörden sowie Industrie zu diskutieren.


Forschungsziele in SenPAI

In den letzten Jahren hat KI ein rasantes Wachstum hinsichtlich Leistung und Anwendungsbereichen erfahren. Es gibt jedoch immer noch viele Herausforderungen, die noch nicht durch erschöpfende Lösungen angegangen wurden. Innerhalb von SenPAI sind die folgenden Aspekte von KI und Sicherheit potenzielle Forschungsziele:

Ziel 1

Transparenz und Nachvollziehbarkeit von Ergebnissen

Die Interpretation der Ergebnisse von ML wird in Zukunft noch wichtiger sein als heute schon. Solange Ergebnisse von ML nicht nachvollziehbar interpretiert werden können, ist eine auf diesen Ergebnissen basierende Entscheidung in vielen Fällen problematisch.

Ziel 2

Robustheit

Im Bereich Maschinelles Lernen bezieht sich die Robustheit auf die Abhängigkeit der Algorithmen von Eingabewerten. Sie beschreibt zum Beispiel, wie sich ein Verfahren bei unerwarteten Störungen oder Rauschen an den Eingangswerten verhält. Wenn ML vor allem in autonomen Systemen eingesetzt werden soll, ist eine hohe Robustheit wichtig, um unvorhergesehenem Verhalten der KI entgegenzuwirken. Robustheit bedeutet auch Probleme mit den Trainingsdaten. Hier können Verzerrungen und Überanpassung auftreten, die zu trainierten Netzwerken führen, die in der Praxis keine zufriedenstellenden Ergebnisse liefern.

Ziel 3

Verfügbarkeit von Trainingsdaten

Es liegt in der Natur des Maschinellen Lernens, dass Trainingsdaten für die Nutzung notwendig sind. Viele ML-Methoden erfordern auch Trainingsdaten, die mit Anmerkungen versehen sind. Die Verfügbarkeit solcher Daten ist jedoch begrenzt – das hat zahlreiche Konsequenzen: Wenn es um personenbezogene Daten geht, steht dem Bedarf an Daten die Notwendigkeit des Datenschutzes gegenüber. Ohne zuverlässige Methoden zur Anonymisierung dieser Daten ist ihre Verwendung als Trainingsmaterial nur eingeschränkt möglich.

Ziel 4

Datenschutz-Garantie

Datenschutz und Big Data werden oft als unvereinbar angesehen. Es fehlt jedoch eine belastbare Analyse der tatsächlichen Aus­wirkungen der verschiedenen Mechanismen zur technischen Umsetzung des Datenschutzes auf die Ergebnisse der Analysen. Auf der anderen Seite stellen Big Data und ML eine Herausforderung für die Wirksamkeit des Datenschutzes dar, da sie Verknüpfungen zwischen Daten ermöglichen, die zur Aufhebung von Anonymität führen können. Zudem besteht die Gefahr, dass trainierte ML-Netzwerke die Trainingsdaten rekonstruieren können und so Hinweise auf Personen ermöglichen.

Ziel 5

Interdisziplinär: Richtlinien für den Gebrauch von KI

Der Einsatz von KI erfordert Verhaltensregeln, um Vorurteile oder Diskriminierung durch KI zu verhindern. Eine interdisziplinäre Diskussion über die Art und den Kontext dieses regulierten Verhaltens ist notwendig, um Richtlinien zu entwickeln, die von einer Maschine interpretiert und im Zweifelsfall überprüft werden können. Angesichts der rasanten Entwicklung der KI und der Zunahme ihrer Anwendungsfälle muss sich eine interdisziplinäre Diskussion so schnell wie möglich mit diesen grundlegenden Fragen befassen. Andernfalls werden technische Regelungen umgesetzt, die auf ingenieurwissen­schaft­lichen Konzepten beruhen, aber ethische oder rechtliche Aspekte nicht berücksichtigen. Dies wird die öffentliche Akzeptanz deutlich verringern und damit die Nutzung der Vorteile der KI behindern oder verlangsamen.