Model Extraction Attack - Prof. Dr. Norbert Pohlmann

Model Extraction Attack

Was ist ein Model Extraction Attack?

Ziel einer Model Extraction Attack ist die Erstellung einer lokalen Kopie eines KI-Modells unter Verwendung eines Orakels. Zum Beispiel kann ein Unternehmen ein KI-Modell über eine Cloud-API anbieten. Auf diese Weise können Kunden die Funktion des KI-Modells in ihre Anwendungen einbinden, ohne dass es lokal bei den Kunden vorliegen muss. Wertvolles geistiges Eigentum verbleibt beim Unternehmen. Für einen Angreifer stellt dieses Szenario jedoch ein Orakel dar, womit sich das KI-Modell aus der Cloud kopieren lässt. Damit beeinflusst Extraction Attack die Cyber-Sicherheit von KI-Systemen.

Voraussetzung zur Durchführung einer Model Extraction Attack ist indirekter Zugriff auf das Ziel-Modell über ein Orakel. Direkter Zugriff wird ausgeschlossen, weil dieser Angriff sonst überflüssig wäre. Das grundlegende Vorgehen, zum Beispiel bei neuronalen Netzen, besteht darin, Eingaben zu finden, die Grenzfälle für das Ziel-Modell darstellen und somit einen Konfidenzwert nahe 0,5 verursachen. Weil sich diese Eingaben im Eigenschaftsraum sehr nahe an der Entscheidungsgrenze (decision boundary) befinden, kann mit ihnen das Ziel-Modell bzw. eine Approximation dessen rekonstruiert werden. Mit anderen Methoden ist dies auch bei Entscheidungsbäumen und linearer Regression möglich.

Ein erfolgreich extrahiertes KI-Modell kann eine Evasion Attack begünstigen, ähnlich wie beim Erstellen eines KI-Modells mit der gleichen Aufgabe; und aufgrund der Übertragbarkeitseigenschaft reicht eine Approximation aus. Weitaus schwerwiegender ist, dass durch so einen Angriff geistiges Eigentum gestohlen werden kann, was mit dem Verlust eines Wettbewerbsvorteils einhergehen kann.

Schutzmaßnahmen gegen eine Model Extraction Attack

Da eine Model Extraction Attack auf Orakel-Zugriff basiert, beschränken sich die Maßnahmen auf die Konfiguration dieses Orakels. Auf technischer Ebene besteht die Ausgabe eines KI-Modells aus einer Vielzahl von Informationen. Man stelle sich ein KI-Modell zur Klassifizierung von Objekten auf Bildern vor. Die Ausgabe eines solchen Modells besteht aus einem Vektor von Konfidenz- bzw. Wahrscheinlichkeitswerten. Dies kann man sich als eine Liste von Label-Konfidenz-Tupel für alle Objekte, auf die das Modell trainiert wurde und daher erkennen kann, vorstellen. In vielen Fällen ist jedoch nur ein Teil dieser Informationen für eine Anwendung oder einen Endnutzer relevant. Folglich besteht die Schutzmaßnahme gegen eine Model Extraction Attack darin, die vom Orakel ausgegebenen Informationen zu minimieren:

Insbesondere wenn ein KI-Modell viele Labels gelernt hat, ist eine Minimierung der Anzahl der ausgegebenen Labels sinnvoll, weil oft nur die Labels, die über einem bestimmten Konfidenz-Schwellenwert liegen, von Interesse sind. Je nach Anwendungsfall kann alternativ immer eine statische Anzahl von Labels mit den höchsten Konfidenzwerten zurückgegeben werden, zum Beispiel die Top-10 Labels.
Konfidenzwerte könnten gerundet oder sogar entfernt werden, sodass ausschließlich Labels ausgegeben werden. Dadurch wird es dem (legitimen) Nutzer eines Orakel aber auch erschwert, die (Un)Sicherheit einer Entscheidung einzuschätzen.

Auch wenn die Ausgaben eines Orakels minimal sind, kann ein Angreifer noch das Label erfahren und eine Model Extraction Attack ist weiterhin möglich.

Hier finden Sie weitere Glossar-Einträge im Bereich der Künstliche Intelligenz:
Künstliche Intelligenz für Cyber-Sicherheit
IT-Sicherheit für Künstliche Intelligenz
Ethik der Künstliche Intelligenz
Singularität
Künstliche Intelligenz
Maschinelles Lernen

Angriffe auf die Künstliche Intelligenz

Weitere Informationen zum Begriff “Model Extraction Attack”:

Artikel

„Chancen und Risiken von ChatGPT – Vom angemessenen Umgang mit künstlicher Sprachintelligenz“

„Angriffe auf die Künstliche Intelligenz – Bedrohungen und Schutzmaßnahmen“

„Künstliche Intelligenz und Cybersicherheit – Unausgegoren aber notwendig“

„Ethik und künstliche Intelligenz – Wer macht die Spielregeln für die KI?“

„Der Virtuelle IT-Sicherheitsberater – Künstliche Intelligenz (KI) ergänzt statische Anomalien“

„Angriffe auf die Künstliche Intelligenz – Bedrohungen und Schutzmaßnahmen“

„Wie können wir der KI vertrauen? – Mechanismus für gute Ergebnisse“

„Sei gewarnt! Vorhersage von Angriffen im Online-Banking“

Bücher

„Lehrbuch Cyber-Sicherheit“

„Übungsaufgaben und Ergebnisse zum Lehrbuch Cyber-Sicherheit“

„Bücher im Bereich Cyber-Sicherheit und IT-Sicherheit zum kostenlosen Download“

Vorlesungen

„Vorlesungen zum Lehrbuch Cyber-Sicherheit“

Vorträge

„Aktuelle Angriffe – Übersicht und Handlungsmöglichkeiten“

„AI for IT security and IT security for AI“

„Künstliche Intelligenz (KI) und Cyber-Sicherheit“

„Immer mehr Daten = Immer mehr (Un) Sicherheit?“

„Cyber-Sicherheit vor dem Hintergrund von Krisensituationen“

Webseiten

„Forschungsinstitut für Internet-Sicherheit (IT-Sicherheit, Cyber-Sicherheit)“

„Master-Studiengang Internet-Sicherheit (IT-Sicherheit, Cyber-Sicherheit)“

„Marktplatz IT-Sicherheit“

„Marktplatz IT-Sicherheit: IT-Notfall“

„Marktplatz IT-Sicherheit: IT-Sicherheitstools“

„Marktplatz IT-Sicherheit: Selbstlernangebot“

„Marktplatz IT-Sicherheit: Köpfe der IT-Sicherheit“

„Vertrauenswürdigkeits-Plattform“

Zurück zur Übersicht

Summary

Article Name

Model Extraction Attack

Description

Ziel einer Model Extraction Attack ist die Erstellung einer lokalen Kopie eines KI-Modells unter Verwendung eines Orakels. Für einen Angreifer stellt dieses Szenario ein Orakel dar, womit sich das KI-Modell kopieren lässt.

Author

Prof. Norbert Pohlmann

Publisher Name

Institut für Internet-Sicherheit – if(is)

Publisher Logo

Model Extraction Attack Prof. Dr. Norbert Pohlmann - Cyber-Sicherheitsexperten