Projekte in SenPAI

RoMa: Robustness in Machine Learning

RoMa zielt darauf ab, Mechanismen zur Verbesserung der Sicherheit von ML in Anwendungsprojekten bereitzustellen. RoMa wird mit anderen Technologieprojekten in Bezug auf Angriffs- und Lösungsmodelle interagieren. Ziel von RoMa ist es, die Robustheit von neuronalen Netzen und anderen ML-Algorithmen gegen bestimmte Angriffe zu erhöhen: Es geht um Angriffe, die während der Testphase Eingabedaten verändern, um entweder eine korrekte Klassifizierung zu umgehen oder eine vom Angreifer gewünschte Klassifizierung zu erzwingen.


SecLLM: Security in Large Language Models

Dieses Projekt zielt darauf ab, die Sicherheitsbedrohungen in großen Sprachmodellen (LLMs) zu analysieren und Schutzmechanismen dagegen vorzuschlagen. Derzeit sind die möglichen Schwachstellen dieser Modelle noch unbekannt. Darüber hinaus müssen selbst für die bekannten Schwachstellen noch effektive Verteidigungsstrategien gefunden werden. Unser Ziel ist es, eine taxonomische Analyse der aktuellen Angriffe durchzuführen und neue potenzielle Angriffsarten zu untersuchen. Dabei konzentrieren wir uns insbesondere auf Prompt Injection, Backdoors und Privacy Leaks. Es hat sich beispielsweise gezeigt, dass es möglich ist, das Verhalten eines LLMs zu missbrauchen, indem versteckte Eingabeaufforderungen durch Cross-Site-Scripting eingeführt und damit Phishing-Angriffe durchgeführt werden. Aufgrund der exponentiellen Verbreitung von LLMs in kommerziellen Anwendungen könnten diese Anwendungen für die Sicherheitsbedrohungen durch LLMs anfällig sein. Daher ist die Bereitstellung von Sicherheitsgarantien zur Gewährleistung von Vertrauen und Sicherheit in diesen Modellen von größter Bedeutung.


SePIA: SEcurity and Privacy In Automated OSINT

SePIA ist ein Anwendungsprojekt, das sich mit verschiedenen Herausforderungen in der automatisierten Open Source Intelligence (OSINT) befasst. Ziele sind die Verkapselung des OSINT-Prozesses in eine sichere Umgebung, nach dem Privacy-by-Design-Prinzip sowie die Anwendung fortgeschrittener Crawling- und Informationserfassungskonzepte zur Automatisierung der Suche nach verfügbaren Datenquellen. Gleichzeitig wird ML genutzt, um den aktuellen Stand der Technik des Crawlens zu verbessern. Weitere Ziele sind die Verbesserung der Datenbereinigung durch Hinzufügen einer Rückkopplungsschleife zu Crawling- und Analysemodulen sowie die Verbesserung der Analysemethoden für automatisierte Intelligenz auf Grundlage von ML.


XReLeaS: Explainable Reinforcement Learning for Secure Intelligent Systems

Dieses Projekt befasst sich mit Aspekten der Transparenz sowie mit der Nachvollziehbarkeit von Ergebnissen und Netzen in ML. Ziel ist es, eine Software-Toolbox für nachvollziehbares ML zu erstellen, die auch andere Sicherheitsaspekte der Algorithmen erhöht. Als Beispiel dient eine Roboterumgebung.


Protecting Privacy and Sensitive Information in Texts

Ziel dieses Projekts ist es, Methoden zur Verarbeitung natürlicher Sprache zu erforschen, die sensible Informationen in Texten dynamisch erkennen und verschleiern können, wobei der Schwerpunkt auf impliziten Attributen wie ethnischem Hintergrund, Einkommensbereich oder Persönlichkeitsmerkmalen liegt. Diese Methoden werden dazu beitragen, die Privatsphäre aller Personen zu schützen - sowohl der Autoren als auch anderer Personen, die im Text erwähnt werden. Darüber hinaus gehen wir über spezifische Textquellen wie soziale Medien hinaus und zielen darauf ab, robuste und hochgradig anpassungsfähige Methoden zu entwickeln, die sich über Domänen und Register hinweg verallgemeinern lassen. Unser Forschungsprogramm umfasst drei Bereiche. Erstens werden wir den theoretischen Rahmen der Differential Privacy auf unser Szenario der impliziten Textobfuskation ausweiten. Die For­schungs­fragen umfassen grundlegende Datenschutzprobleme im Zusammenhang mit Textdatensätzen. Zweitens werden wir bestimmen, inwieweit unüberwachtes Pre-Training eine domänenun­ab­hängige Privatsphäre erreicht. Drittens ist die große Lücke zwischen formalen Garantien und sinnvollen Datenschutzfähigkeiten auf eine Diskrepanz zwischen theoretischen Grenzen und bestehenden Bewertungstechniken auf der Grundlage von Angriffen auf die Systeme zurückzuführen.


Ausgelaufene Forschungsprojekte

Adversarial Attacks on NLP systems

Laufzeit 01.01.2020 - 31.12.2023

Das Projekt konzentrierte sich auf eine zweite Herausforderung in der ML/KI-Sicherheit, bei der KI-Systeme als Angreifer eingesetzt werden. Der Schwerpunkt lag hier (NLP) auf textuellen Daten. Das Projekt befasste sich mit Hatespeech und Desinformation, welche relevante Szenarien in OSINT-Anwendungen sind. Ergebnisse können auch im SePIA-Projekt genutzt werden, da OSINT oft auf Textdaten basiert. Wissenschaftliche Erkenntnisse aus dem Projekt sind:

Robustheit

  • Neue Methode namens Confidence Regularization, die bekannte und unbekannte Verzerrungen abmildert
  • Neuartiger Debiasing-Rahmen, der mehrere Verzerrungen auf einmal behandeln kannn

Modelleffizienz

  • Neue Adapterarchitektur namens Adaptable Adapters, die eine effiziente Feinabstimmung von Sprachmodellen ermöglicht
  • Neue Transformer-Architektur, die Rational Activation Functions verwendet

 Datenerfassung

  • Analyse der Quellen von Verzerrungen und Verbesserung der Datenerfassung durch Erforschung des Potenzials von Bürgerwissenschaftlern

Bewertung generativer Modelle (z. B. LLMs)

  • Identifizierung von Fallstricken und Problemen bei der Verwendung bestehender Inferenzheuristiken für die Bewertung
  • Entwicklung eines neuartigen Rahmens für die Generierung synthetischer Daten: FALSESUM