slider

Kapitel 15: „Künstliche Intelligenz und Cyber-Sicherheit“ - Prof. Dr. Norbert Pohlmann

Kapitel 15: „Künstliche Intelligenz und Cyber-Sicherheit“


Übungsaufgabe 1

Beschreiben Sie die zentralen Unterschiede des überwachten und des unüberwachten Lernens!

Lösung:

Beim überwachten Lernen wird ein Algorithmus mit Hilfe von Eingabedaten und bereits klassifizierten Ergebnissen trainiert. Dadurch kann der Algorithmus lernen, ob das Ergebnis mit den Eingabedaten den Erwartungen entspricht. Zum Aufgabenfeld des überwachten Lernens gehört das Regressions- und Klassifizierungsproblem.

Beim unüberwachten Lernen werden Muster und Gesetzmäßigkeiten in unklassifizierten Objekten gesucht. Die Stärke im unüberwachten Ansatz liegt darin, Dinge zu erkennen, die vorher anderweitig nicht sichtbar waren. Somit können beispielsweise unüberschaubare Datenmengen auf die wichtigsten Eigenschaften sowie Kriterien reduziert werden.

Übungsaufgabe 2

Nennen und beschreiben Sie die grundlegenden Prinzipien des Maschinellen Lernens. Gehen Sie dabei insbesondere auf mögliche konzeptionelle Probleme und Gefahren innerhalb der einzelnen Prinzipien ein!

Lösung:

Der Workflow des Maschinellen Lernens besteht aus den folgenden Prinzipien:

Eingabedaten: Die Eingabedaten stellen den Treibstoff des Maschinellen Lernens dar. Sie werden unter anderem für das Trainieren der Algorithmen und für die anschließende Klassifizierung innerhalb von Anwendungen verwendet. Die Güte der Eingabedaten beeinflusst direkt die Güte der Ergebnisse. Aus diesem Grund sollten die Eingabedaten unbedingt vor der Verarbeitung validiert werden. Mit Blick auf die Cybersicherheit sollten die validierten Eingabedaten zusätzlich vor Manipulationen geschützt werden, um Angriffen auf die Ergebnisfindung einer Anwendung vorzubeugen. In Abhängigkeit von den verschiedenen Algorithmen und der geplanten Anwendung müssen ggf. sehr große Datenmengen validiert und für die weitere Verarbeitung aufbereitet werden, damit akzeptable Ergebnisse erzielt werden können.

Algorithmen: Die verschiedenen Algorithmen des Maschinellen Lernens stellen den Motor jeder KI-Anwendung dar. Sie verarbeiten die Eingabedaten und produzieren die gewünschten Ergebnisse für eine Anwendung. Nicht jeder Algorithmus ist für eine bestimmte Problemstellung geeignet. Für jede Problemstellung müssen die passenden Algorithmen ermittelt und evaluiert werden. Hierbei müssen zusätzliche Rahmenbedingungen, wie z.B. die benötigte Lern- und Ausführungszeit der verschiedenen Algorithmen berücksichtigt werden.

Ergebnisse: Die Ergebnisse resultieren aus der Verarbeitung der Eingabedaten mit den Algorithmen. Sie stellen das gelernte Modell für die Lösung der zugrundeliegenden Problemstellung dar. Mit dem gelernten Modell können weitere Eingabedaten im Kontext der Problemstellung bewertet werden. Bei den Ergebnissen handelt es sich um besonders schützenswerte Ressourcen, da sie zum einen das Know-How oder den lukrativen Mehrwert einer Anwendung darstellen und zum anderen potenziell Rückschlüsse auf die gelernten Eingabedaten ermöglichen können. Letzteres muss insbesondere im Kontext von sensiblen Eingabedaten verhindert werden.

Verwendung: Innerhalb von konkreten Anwendungen wird entschieden, wie die gelernten Ergebnisse verwendet werden sollen. Mögliche Anwendungen im Bereich der Cybersicherheit sind unter anderem: Betrugsschutz im Online-Banking, Malware-Erkennung, Identifizierung von Spam-Mails oder Threat Intelligence. Durch geeignete Cybersicherheitsmechanismen muss gewährleistet werden, dass die vorherigen Prinzipien nicht über die Schnittstellen der Anwendung erfolgreich angegriffen werden können, z.B. durch manipulierte Eingabedaten.

Übungsaufgabe 3

Was ist die zentrale Idee eines Künstlichen Neuronalen Netzes?

Lösung:

Künstliche Neuronale Netze sollen die biologische Struktur des Gehirns und seiner Neuronen abbilden. Dabei werden Gewichte, mathematische Funktionen und miteinander verbundene Schichten aus künstlichen Neuronen für die Informationsverarbeitung genutzt. Die Struktur eines Künstlichen Neuronalen Netzes besteht aus einer Eingabeschicht, verdeckte Schichten und einer Ausgabeschicht. Die Schichten selbst bestehen wiederrum aus einer Vielzahl an künstlichen Neuronen.
Eine wesentliche Stärke von KNNs liegt darin, dass die verdeckten Schichten autark ein Modell zu den gelieferten Ein- und Ausgabedaten approximieren können.

Übungsaufgabe 4

Beschreiben Sie die Phasen eines Künstlichen Neuronalen Netzes für die Erstellung eines Modells zu den gegebenen Ein- und Ausgabedaten!

Lösung:

Die Berechnungen innerhalb des Künstlichen Neuronalen Netzes lassen sich grundsätzlich in zwei Phasen unterteilen.
In der ersten Phase werden die Berechnungen von der Eingabeschicht in Richtung der Ausgabeschicht durchgeführt (Forward Propagation). Abweichungen im daraus resultierenden Ergebnis werden anschließend durch eine rückwärts gerechnete Anpassung der Kantengewichte minimiert (Back Propagation).
Nachdem die Kantengewichte angepasst wurden, werden die beiden Phasen erneut durchlaufen. Diese Vorgehensweise wird so lange wiederholt, bis das Ergebnis in der Ausgabeschicht möglichst genau approximiert wurde. Abhängig von der konkreten Problemstellung können mehrere tausend Runden nötig sein.

Übungsaufgabe 5

Erklären Sie die Transferability Property.

Lösung:

Die Transferability Property beschreibt die Eigenschaft, dass ein Adversarial Example, das für ein Modell funktioniert, mit hoher Wahrscheinlichkeit auch für ein anderes Modell funktionieren wird, wenn beide Modelle für die gleiche Aufgabe trainiert wurden.

Übungsaufgabe 6

Was ist ein Adversarial Example?

Lösung:

Adversarial Examples sind von Angreifern absichtlich generierte einzelne Exemplare, durch die KI-Algorithmen getäuscht werden können. Zum Beispiel ein Stoppschild, das so manipuliert wird, dass es als 80 km/h Geschwindigkeitsbegrenzung erkannt wird.

Übungsaufgabe 7

Was ist das Ziel einer Poisoning Attack?

Lösung:

Das Ziel eines Poisoning Attacks ist, die Trainingsdaten so zu manipulieren, dass das Modell z. B. die Genauigkeit verschlechtert und dadurch ein falsches Ergebnis raus kommt.

Übungsaufgabe 8

Was ist das Ziel einer Evasion Attack?

Lösung:

Ziel eines Evasion Attacks ist die Erstellung eines sogenannten Adversarial Examples als Eingabe, das eine falsche oder bestimmte Vorhersage/Klassifizierung verursachen soll.

Übungsaufgabe 9

Was besagt das Paradigma Garbage In, Garbage Out?

Lösung:

Garbage in, Garbage out bedeutet im Umfeld der KI, dass unabhängig von der Qualität eines KI-Systems die Ergebnisse schlecht sind, wenn die Eingabedaten eine schlechte Qualität haben. Dies leitet sich aus der grundsätzlichen Idee ab: Extraktion von Wissen aus Daten. Wenn in den Daten keine Informationen stehen, kann auch kein Wissen extrahiert werden. Die Ergebnisqualität eines KI-Systems kann normalerweise nicht besser sein als die Qualität der Eingabedaten. Aus diesem Grund müssen die Eingabedaten eine hohe Qualität ausweisen, um ein gutes Ergebnis zu erzielen.

Übungsaufgabe 10

Welche Kriterien spiele bei der Qualität der Eingabedaten eine Rolle?

Lösung:

  1. Vollständigkeit der Daten
    Die Grundvoraussetzung für Vollständigkeit ist, dass ein Datensatz alle notwendigen Attribute und Inhalte enthält. Kann die Vollständigkeit der darin inkludierten Daten nicht garantiert werden, entsteht daraus potenziell das Problem von irreführenden Tendenzen, was letztendlich zu falschen oder diskriminierenden Ergebnissen führt. Dieses Phänomen tritt unter anderem bei Predictive Policing-Systemen auf: Wenn beispielsweise die Datenerhebung zu Kriminalitätsdelikten von vorneherein massiv in definierten Stadtvierteln stattfindet und dies im Kontext mit bestimmten Merkmalen wie Herkunft und Alter geschieht, ergibt sich daraus im Laufe der Zeit, dass dort bestimmte Bevölkerungsgruppen stärker überwacht und durch die häufiger durchgeführten Kontrollen letztendlich per se kriminalisiert werden. Der (vermeintliche) Tatbestand kann jedoch unter Umständen lediglich darauf basieren, dass entsprechende Vergleichswerte unter Berücksichtigung der gleichen Merkmale aus anderen Stadtvierteln nicht im adäquaten Maße erhoben wurden. Vollständigkeit bedeutet keinesfalls, wahllos möglichst viele Daten zu erfassen – entscheidend ist die Auswahl.
  2. Repräsentativität der Daten
    Die Repräsentativität zeichnet sich dadurch aus, dass die Daten eine tatsächliche Grundgesamtheit und somit entsprechend die Realität abbilden, die stellvertretend im Sinne der Aufgabenstellung ist. Sind die Daten nicht repräsentativ, hat dies zur Folge, dass daraus ein Bias resultiert. Ein Bias entsteht durch einen Fehler bei der Datenerhebung, der zu einem fehlerhaften Ergebnis führt. Dieses Phänomen tritt beispielsweise im Recruiting von Führungskräften auf, wenn hier größtenteils Daten aus der Vergangenheit berücksichtigt werden und in dieser Zeit überwiegend Männer in Führungspositionen waren. Mit der Konsequenz, dass die KI-basierte Anwendung daraus folgern müsste, dass Männer für diese Positionen qualifizierter seien. Ergebnisse wie diese zeigen, dass durch KI-Systeme nicht zwangsläufig Objektivität erreichbar ist.
  3. Nachvollziehbarkeit der Daten
    Für die Überprüfung der Datenqualität ist es essenziell, dass nachvollzogen werden kann, aus welchen Quellen die verwendeten Daten stammen. Sind die Quellen nicht transparent, das heißt nicht nachvollziehbar, ist es nicht möglich eine notwendige Validierung der Daten vorzunehmen, was sich letztendlich auf deren Qualität negativ auswirken kann. Für eine bestmögliche Bewertung und Messung sowohl der Datenqualität als auch der Qualität der Quellen sowie der Ableitung gezielter Verbesserungsmaßnahmen, müssen im Vorfeld entsprechend Vorgaben definiert werden. Hierfür gilt es, die für den Prozess relevanten Kriterien zu bestimmen, etwa Konsistenz oder Einheitlichkeit. Anhand der gewählten Kriterien ist es dann möglich, die erhobenen Daten bezüglich ihrer konsistenten Qualität zu überprüfen. Hierbei sind noch zwei relevante Aspekte zu bedenken: Zum einen kommen Daten oft aus unterschiedlichen Quellen mit verschiedenen Formaten, die vor dem Einsatz auf ihre Utilität verifiziert werden müssen. Zum anderen ist die Nachvollziehbarkeit – gerade im Produktionsumfeld – auch durch die Förderung von qualitativ hochwertigen und sicheren Sensoren abhängig.
  4. Aktualität der Daten
    Die grundsätzliche Idee beim Maschinellen Lernen oder KI ist die Extraktion von Wissen aus Daten. Aus diesem Grund muss sichergestellt werden, dass die generierten, respektive verwendeten Daten auch die passenden Informationen und Erfahrungen enthalten, um mit den KI-Algorithmen das Problem richtig und vertrauenswürdig zu lösen. Nicht zuletzt aufgrund der Tatsache, dass Menschen sich nicht linear verhalten, können veraltete Daten zu falschen Ergebnissen führen. Aus diesem Grund sollten – in Abhängigkeit von der Anwendung – möglichst die aktuellsten Daten verwendet werden.
  5. Korrektheit der Daten
    Die Daten müssen mit der Realität übereinstimmen und damit für die Anwendung korrekt sein. Die Auswahl der Daten bedingt, dass diese Anforderungen mit einer detaillierten Analyse ermittelt wurden – als Methode kann hier das Mapping gegen Daten, deren Korrektheit bestätigt ist, oder definierte, abgestimmte Plausibilitätsregeln eingesetzt werden. So lässt sich sicherstellen, dass zwischen den – zur Entwicklung oder im Weiteren in der Anwendung – genutzten Daten und der Realität keine Diskrepanz besteht.

Kapitel 15: „Künstliche Intelligenz und Cyber-Sicherheit“ Prof. Dr. Norbert Pohlmann - Cyber-Sicherheitsexperten