Angriffe auf die Künstliche Intelligenz – Bedrohungen und Schutzmaßnahmen - Prof. Dr. Norbert Pohlmann

Angriffe auf die Künstliche Intelligenz – Bedrohungen und Schutzmaßnahmen

D. Adler, N. Demir, Norbert Pohlmann (Institut für Internet-Sicherheit):
„Angriffe auf die Künstliche Intelligenz – Bedrohungen und Schutzmaßnahmen“,
IT-Sicherheit – Mittelstandsmagazin für Informationssicherheit und Datenschutz,
DATAKONTEXT-Fachverlag,
1/2023

Angriffe auf die Künstliche Intelligenz
Künstliche Intelligenz (KI) ermöglicht es, komplexe Zusammenhänge und Muster aus großen Datenmengen zu extrahieren und in einem statistischen Modell zu erfassen. Dieses KI-Modell kann anschließend Aussagen über zukünftig auftretende Daten treffen.

Die in den letzten Jahrzehnten gestiegene Rechenleistung hat die praktische Anwendung vieler KI-Technologien begünstigt. Zunehmend wird das Potenzial von KI erkannt und KI-Technologien kommen in immer mehr Bereichen und Branchen zum Einsatz. Auch die zuletzt aufgekommene Diskussion um den Chatbot ChatGPT zeigt die Leistungsfähigkeit und zudem die daraus resultierenden gesellschaftlichen Folgen.

Weitere Anwendungsbeispiele für KI sind
●      die Erkennung von Verkehrsschildern bei (autonomen) Fahrzeugen,
●      das Vorschlagen von Diagnosen basierend auf Bildern,
●      die Einschätzung der Kreditwürdigkeit,
●      die Interpretation natürlicher Sprache bei Sprachassistenten,
●      die Detektion von Cyberangriffen.

Für das Training eines KI-Modells werden Trainingsdaten benötigt. Beim überwachten Lernen (engl. supervised learning) ist zusätzlich jedem Trainingsbeispiel ein Label zugeordnet, wodurch ein KI-Modell das gewünschte bzw. erwartete Ergebnis zu jedem Trainingsbeispiel erhält. Basierend auf diesem Trainingsdatensatz versucht ein KI-Modell allgemeine Muster zu erfassen, mit denen auch neue Daten dem korrekten Label zugeordnet werden können. Mit neuen Daten sind hierbei Eingaben gemeint, die nicht in den Trainingsdaten enthalten sind. Zum Beispiel besteht der Trainingsdatensatz für einen Spamfilter aus E-Mails und jeder E-Mail könnte entweder ein Label „spam” oder „normal” zugeordnet werden. Der trainierte Spamfilter wird dann eingesetzt, um neue E-Mails zu klassifizieren.

Das zugrunde liegende Konzept der Daten, das gelernt werden soll, ist in der Regel unbekannt. In der Praxis steht nur eine empirische Verteilung (Stichprobe) der Grundwahrheit zur Verfügung. Eine Herausforderung besteht darin, einen Trainingsdatensatz zusammenzustellen, der repräsentativ für die Grundwahrheit ist. Bei vielen Anwendungen sind nicht alle Prädiktoren messbar, sodass ein KI-Modell im Allgemeinen einen nicht reduzierbaren Fehler enthält. Jedoch müssen KI-Modelle nicht perfekt sein, um nützlich zu sein. Entscheidend ist ein angemessener Kompromiss zwischen Nutzen, Kosten und Risiko.

Mit dem Einsatz von KI gehen aber auch Gefahren einher. Die Konsequenzen einer Fehlentscheidung einer KI können sich je nach Anwendungsfall von finanziellen Schäden bis hin zu tödlichen Folgen erstrecken. Gleichzeitig stellt ein Nachweisen der korrekten Funktionsweise eines Modells sowie die zuverlässige Erkennung von Fehlern ein offenes Problem dar. KI ist in der Regel fehlerbehaftet, sodass es immer ein Restrisiko von Fehlentscheidungen gibt, mit dem umgegangen werden muss. Das Design eines guten KI-Modells erfordert daher zahlreiche wohlüberlegte Entscheidungen und Prozesse.

Wie die meisten IT-Systeme weisen auch KI-Modelle konzeptionelle Schwachstellen auf und können von einem bösartigen Akteur genutzt werden, um ein KI-Modell zu manipulieren und somit Entscheidungen zu beeinflussen.

Angriffe auf KI-Modelle
Die Sicherheit von KI-Modellen gegen vorsätzliche Angriffe (engl. adversarial machine learning) gewinnt zunehmend an Bedeutung. In den letzten Jahren hat die Anzahl der Studien über Schwachstellen bei KI-Modellen stark zugenommen und es wurde die Durchführbarkeit von Angriffen gegen moderne KI-Modelle aufgezeigt. Es sind bereits zahlreiche Vorfälle im Zusammenhang mit KI-Technologien dokumentiert.

KI-Modelle, welche unter Laborbedingungen entwickelt und evaluiert werden, weisen bei der produktiven Anwendung oft Schwächen auf. In der Praxis können Daten von einem Angreifer stammen und daher ist es unrealistisch anzunehmen, dass Daten von externen Quellen vertrauenswürdig seien. Ein realistisches Angreifermodell sollte die Existenz eines Angreifers annehmen, der Daten manipulieren und mit einem KI-Modell interagieren kann. Unter diesem Angreifermodell sind folgende Bedrohungen zu berücksichtigen:

Durch Veränderung der Trainingsdaten kann Einfluss auf den Entscheidungsprozess eines KI-Modells genommen und so Fehlentscheidungen verursacht werden.
Durch Veränderung einer Eingabe (unter Nutzung des gesamten Eingaberaums) kann die Position im Eigenschaftsraum verschoben werden, sodass diese Eingabe falsch klassifiziert wird.
Bei der Interaktion mit einem KI-Modell können Eingabe-Ausgabe-Paare gesammelt werden, die Aufschluss über die Funktionsweise und die verwendeten Trainingsdaten geben können.

Im Folgenden werden die gängigsten Angriffsvektoren gegen KI-Modelle vorgestellt, die bei nahezu allen KI-basierten Anwendungen berücksichtigt werden sollten. Bei einer Poisoning Attack wird der Entscheidungsprozess eines KI-Modells durch Manipulation der Trainingsdaten beeinflusst. Bei einer Evasion Attack wird eine Eingabe erstellt, die von einem KI-Modell falsch klassifiziert wird. Bei einer Backdoor Attack werden diese beiden Angriffsvektoren kombiniert, indem die Trainingsdaten auf eine Weise manipuliert werden, dass Fehlentscheidungen gezielt verursacht werden können. Bei einer Model Extraction Attack werden Vorhersagen von einem KI-Modell angefragt und die gesammelten Eingaben und Ausgaben verwendet, um eine lokale Approximation an das originale KI-Modell zu konstruieren oder die interne Funktionsweise abzuleiten. Je Angriffsvektor wird zunächst das Angriffsszenario erklärt und danach mögliche Gegenmaßnahmen aufgezeigt. Abschließend wird der aktuelle Stand von Richtlinien und Regulierungen für KI-Technologien dargestellt.

Poisoning Attack
Bei einer Poisoning Attack werden Trainingsdaten manipuliert mit der Absicht, die Leistung eines KI-Modells zu verschlechtern. Schon die Manipulation eines geringen Anteils des Trainingsdatensatzes kann weitreichenden Einfluss auf ein KI-Modell haben. Zum Beispiel könnte ein Angreifer die Labels von Verkehrsschildern ändern, sodass das KI-Modell häufiger falsche Klassifizierungen ausgibt.

Voraussetzung zur Durchführung einer Poisoning Attack ist ein direkter oder indirekter Zugriff auf die Daten, die ein KI-Modell für das Training verwendet. Dies lässt sich auf folgende Arten bewerkstelligen:

Manipulation eines Trainingsdatensatzes bei der Übertragung über einen unsicheren Kommunikationskanal und fehlender Integritätsüberprüfung auf der Empfängerseite.
Erstellung eines Trainingsdatensatzes mit falschen Labels, der anschließend öffentlich zur Verfügung gestellt wird. Hierbei wird darauf spekuliert, dass automatisierte Systeme diese Daten sammeln und ohne Überprüfung an ein KI-Modell zum Trainieren weitergeleitet werden; oder dass beim manuellen Bezug der Daten durch einen Menschen, die fehlerhaften Labels nicht auffallen.
Manipulation von Daten und/oder Labels eines existierenden Datensatzes unter Ausnutzung von unzureichender Zugriffskontrolle, Authentifizierung oder Sicherheitslücken in Software.
Kompromittierung eines Datenanbieters oder Label-Erstellers.
Unterwanderung eines Crowdsourcing-Anbieters.
Im Falle von KI-Modellen zur Detektion von Cyberangriffen, hat ein Angreifer (teilweise) Kontrolle über die Trainingsdaten, weil der Angreifer die Entität darstellt, deren Verhalten gelernt werden soll.

Schutzmaßnahmen gegen eine Poisoning Attack
Eine Poisoning Attack basiert auf der Manipulation von Trainingsdaten. Folglich besteht der Schutz vor diesem Angriffsvektor darin, den Trainingsdatensatz vor unautorisierter Veränderung zu schützen. Da Trainingsdaten häufig aus externen Quellen bezogen werden, sollte zusätzlich eine Beurteilung der Qualität und der Vertrauenswürdigkeit der Trainingsdaten erfolgen. Die folgende Liste gibt eine Übersicht von möglichen Maßnahmen, mit denen die Angriffsfläche für eine Poisoning Attack eingeschränkt werden kann:

Ein Trainingsdatensatz sollte über einen sicheren Kommunikationskanal übertragen werden. Zusätzlich sollte die Integrität eines Trainingsdatensatzes überprüft werden.
Trainingsdaten sollten nicht wahllos gesammelt werden, sondern von vertrauenswürdigen Datenquellen bezogen werden. Zudem sollte auch überprüft werden, ob die Daten geeignet und repräsentativ für die zu lernende Aufgabe sind. Idealerweise steht ein Datasheet zur Verfügung, welches den Datensatz dokumentiert.
Trainingsdaten sollten vor Manipulationen geschützt werden. Hierzu sollte sowohl ein Zugriffsmanagement als auch ein geeignetes Authentifizierungsverfahren implementiert werden. Auch sollten sicherheitskritische Software-Patches schnell angewendet werden. Eine Versionierung der Trainingsdaten ermöglicht es, nach einem Vorfall auf einen vertrauenswürdigen Datensatz zurückzugreifen. Eine Protokollierung von Änderungen der Trainingsdaten erleichtert die Untersuchung eines Vorfalls.
Beim Bezug von Daten oder Labels aus externen Quellen sowie bei der Verwendung und Einbindung von externen Ressourcen in die KI-Pipeline, sollten Risiken in der KI-Lieferkette identifiziert und eingeschätzt werden.
Bevor ein KI-Modell produktiv eingesetzt wird, sollte dessen Leistung auf einem Testdatensatz (Evaluationsdatensatz) getestet werden. Dieser Testdatensatz sollte die Grundwahrheit möglichst gut repräsentieren und darf nicht im Training verwendet worden sein. Für die Modell-Evaluation sind zum Anwendungsfall passende Metriken auszuwählen und zu messen. Diese Metriken sollten auch kontinuierlich während des Modelleinsatzes beobachtet werden, um einen Leistungsabfall des Modells erkennen zu können.

Ein Leistungsabfall kann ein Indikator für eine Poisoning Attack sein und einen Prozess zur Untersuchung des Trainingsdatensatzes und der KI-Lieferkette anstoßen. Neben Angriffen auf die Trainingsdaten und den Technologie-Stack der KI-Pipeline sind jedoch noch weitere Angriffsvektoren zu beachten. Eine Evasion Attack verursacht Fehlentscheidungen bei einem KI-Modell ohne die Trainingsdaten, das KI-Modell oder den Technologie-Stack zu manipulieren.

…

kostenlos downloaden

Weitere Informationen zum Begriff “Angriffe auf die Künstliche Intelligenz”

Artikel:

“Vertrauenswürdigkeit schafft Vertrauen – Vertrauen ist der Schlüssel zum Erfolg von IT- und IT-Sicherheitsunternehmen“

“Confidential Computing – IT-Sicherheit und Datenschutz in der Cloud“

“Risiko von unsicheren Internet-Technologien“

“Was Self-Sovereign Identity (SSI) unverzichtbar macht“

„Wertschöpfung der Digitalisierung sichern – Vier Cybersicherheitsstrategien für den erfolgreichen Wandel in der IT“

„IT-Sicherheit im Lauf der Zeit“

„Das Manifest zur IT-Sicherheit – Erklärung von Zielen und Absichten zur Erreichung einer angemessenen Risikolage in der IT“

„Strafverfolgung darf die IT-Sicherheit im Internet nicht schwächen“

„Wie wirtschaftlich sind IT-Sicherheitsmaßnahmen“

„Risikobasierte und adaptive Authentifizierung“

„Eine vertrauenswürdige Zusammenarbeit mit Hilfe der Blockchain-Technologie“

„Künstliche Intelligenz und Cybersicherheit – Unausgegoren aber notwendig“

„Vertrauen – ein elementarer Aspekt der digitalen Zukunft“

„Eine Diskussion über Trusted Computing – Sicherheitsgewinn durch vertrauenswürdige IT-Systeme“

„Ideales Internet-Frühwarnsystem“

„Bedrohungen und Herausforderungen des E-Mail-Dienstes – Die Sicherheitsrisiken des E-Mail-Dienstes im Internet“

Vorlesungen: „Vorlesungen zum Lehrbuch Cyber-Sicherheit“

Bücher:

Lehrbuch Cyber-Sicherheit – Das Lehrbuch für Konzepte, Mechanismen, Architekturen und Eigenschaften von Cyber-Sicherheitssystemen in der Digitalisierung
“Übungsaufgaben und Ergebnisse zum Lehrbuch Cyber-Sicherheit“

Bücher im Bereich Cyber-Sicherheit und IT-Sicherheit zum kostenlosen Download

Sicher im Internet: Tipps und Tricks für das digitale Leben
Der IT-Sicherheitsleitfaden
Firewall-Systeme – Sicherheit für Internet und Intranet, E-Mail-Security, Virtual Private Network, Intrusion-Detection-System, Personal Firewalls

Forschungsinstitut für Internet-Sicherheit (IT-Sicherheit, Cyber-Sicherheit)
Master-Studiengang Internet-Sicherheit (IT-Sicherheit, Cyber-Sicherheit)

Marktplatz IT-Sicherheit

It’s all about Trust!

Summary

Article Name

Angriffe auf die Künstliche Intelligenz

Description

KI-Modelle weisen konzeptionelle Schwachstellen auf und können von einem bösartigen Akteur genutzt werden, um ein KI-Modell zu manipulieren und somit Entscheidungen zu beeinflussen. Gegen solche Angriffe müssen geeignete Schutzmaßnahmen berücksichtigt werden.

Author

Prof. Norbert Pohlmann

Publisher Name

Institut für Internet-Sicherheit – if(is)

Publisher Logo

Angriffe auf die Künstliche Intelligenz – Bedrohungen und Schutzmaßnahmen Prof. Dr. Norbert Pohlmann - Cyber-Sicherheitsexperten