Share via


KI/ML-Pivotierung der Security Development Lifecycle-Fehlerleiste

Von Andrew Marshall, Jugal Parikh, Emre Kiciman und Ram Shankar Siva Kumar

November 2019

Dieser Artikel wurde von der AETHER Engineering Practices for AI Working Group von Microsoft ausgearbeitet und versteht sich als Zusatz zur vorhandenen SDL-Fehlerleiste zum Selektieren herkömmlicher Sicherheitsrisiken. Er kann als Referenz beim Selektieren von KI/ML-bezogenen Sicherheitsrisiken hinzugezogen werden. Ausführlichere Informationen zur Bedrohungsanalyse und Risikominderung finden Sie unter Bedrohungsmodellierung für KI/ML-Systeme und Abhängigkeiten.

Dieser Leitfaden richtet sich an einer Taxonomie von Machine Learning-Bedrohungen aus, die von Ram Shankar Siva Kumar, David O’Brien, Kendra Albert, Salome Viljoen und Jeffrey Snover unter dem Titel Failure Modes in Machine Learning (Fehlermodi im maschinellen Lernen) veröffentlicht wurde und nimmt in weiten Teilen Bezug auf diese. Beachten Sie, dass sich die Forschungen, die diesen Inhalten zugrunde liegen, sowohl auf vorsätzliche/bösartige als auch auf versehentliche Verhalten in ML-Fehlermodi beziehen. Der Schwerpunkt dieses Zusatzes zur Fehlerleiste liegt jedoch komplett auf vorsätzlichen/bösartigen Verhalten, die einen Sicherheitsvorfall und/oder die Bereitstellung eines Fixes nach sich ziehen würden.

Bedrohung Severity Beschreibung/Geschäftsrisiken/Beispiele
Datenpoisoning Wichtig bis Kritisch

Das Ziel des Angreifers besteht im Kontaminieren des in der Trainingsphase generierten Computermodells, sodass Vorhersagen für neue Daten in der Testphase modifiziert werden.

Bei zielgerichteten Poisoningangriffen streben Angreifer eine Fehlklassifizierung bestimmter Beispiele an, um zu bewirken, dass bestimmte Aktionen ausgeführt oder unterlassen werden.

Das Übermitteln von AV-Software als Malware, um ihre Fehlklassifizierung als bösartig zu bewirken, so dass die AV-Zielsoftware in Clientsystemen nicht mehr verwendet werden kann.

Ein Unternehmen liest Daten zu Futures von einer bekannten und vertrauenswürdigen Website aus, um seine Modelle zu trainieren. Die Website des Datenanbieters wird nachfolgend durch einen Angriff mit Einschleusung von SQL-Befehlen kompromittiert. Der Angreifer kann ein Poisoning des Datasets nach Belieben ausführen, und das trainierte Modell geht nicht davon aus, dass die Daten verfälscht sind.

Entwendung des Modells Wichtig bis Kritisch

Neuerstellung des zugrunde liegenden Modells durch Senden legitimer Abfragen. Der Funktionsumfang des neuen Modells ist mit dem des zugrunde liegenden Modells identisch. Sobald das Modell neu erstellt wurde, kann es invertiert werden, um Featureinformationen zu rekonstruieren oder Rückschlüsse auf Trainingsdaten zu ziehen.

Lösen von Gleichungen: Für ein Modell, das über API-Ausgaben Klassenwahrscheinlichkeiten zurückgibt, kann ein Angreifer Abfragen erstellen, mit denen unbekannte Variablen in einem Modell bestimmt werden.

Pathfinding: Ein Angriff, der API-Besonderheiten ausnutzt, um die von einem Baum bei der Klassifizierung einer Eingabe getroffenen „Entscheidungen“ zu extrahieren.

Übertragbarkeitsangriffe: Ein Angreifer kann ein lokales Modell trainieren (u. a. durch Senden von Vorhersageabfragen an das Zielmodell) und damit Beispiele für feindselige Angriffe erstellen, die an das Zielmodell übertragen werden. Wenn das Modell extrahiert und als anfällig gegenüber einer Form von feindseliger Eingabe befunden wird, können neue Angriffe gegen Ihr Produktionsmodell von dem Angreifer komplett offline entwickelt werden, der eine Kopie Ihres Modells extrahiert hat.

In Settings, in denen ein ML-Modell feindseliges Verhalten erkennen soll (wie Erkennung von Spam, Klassifizierung von Schadsoftware und Bestimmung von Netzwerkanomalien), kann die Modellextrahierung Umgehungsangriffe ermöglichen.

Invertieren des Modells Wichtig bis Kritisch

Die in ML-Modellen verwendeten privaten Features können rekonstruiert werden. Dies schließt auch die Rekonstruktion privater Trainingsdaten ein, auf die der Angreifer keinen Zugriff hat. Dies wird erreicht durch Bestimmen der Eingabe, bei der die zurückgegebene Konfidenz maximiert wird, entsprechend der Klassifizierung für das Ziel.

Beispiel: Rekonstruktion von Gesichtserkennungsdaten aus erratenen oder bekannten Namen und API-Zugriff zur Abfrage des Modells.

Physische feindselige Beispiele Kritisch Solche Beispiele können sich in der physischen Umgebung manifestieren. So kann beispielsweise ein selbstfahrendes Fahrzeug mit einer bestimmten einem Verkehrsschild zugewiesenen Farbe (der feindseligen Eingabe) veranlasst werden, ein Stoppschild zu überfahren, da dieses vom Bilderkennungssystem nicht mehr als solches angesehen wird.
Angriff auf die ML-Lieferkette Kritisch

Aufgrund der großen Ressourcen (Daten + Berechnung), die zum Trainieren von Algorithmen erforderlich sind, besteht die derzeitige Praxis darin, von großen Unternehmen trainierte Modelle wiederzuverwenden und sie für die jeweilige Aufgabe leicht zu modifizieren (z. B. ResNet ist ein beliebtes Bilderkennungsmodell von Microsoft).

Diese Modelle werden in einem sogenannten Model Zoo kuratiert (Caffe hostet gängige Bilderkennungsmodelle).

Bei einem solchen Angriff greift der Gegner die in Caffe gehosteten Modelle an und kontaminiert damit die Daten für alle.

Durch Hintertürangriff manipulierter Algorithmus von einem bösartigen ML-Anbieter Kritisch

Kompromittieren des zugrunde liegenden Algorithmus

Ein bösartiger ML-as-a-Service-Anbieter präsentiert einen Hintertüralgorithmus, in dem die privaten Trainingsdaten rekonstruiert werden. Dadurch erhält der Angreifer die Möglichkeit, vertrauliche Daten, wie z. B. Gesichter und Texte, ausschließlich anhand des Modells zu rekonstruieren.

Neural Net-Neuprogrammierung Wichtig bis Kritisch

Mit einer eigens erstellten Abfrage eines Angreifers können ML-Systeme für eine Aufgabe neu programmiert werden, die von der ursprünglichen Absicht ihres Erstellers abweicht.

Schwache Zugriffssteuerungen in einer Gesichtserkennungs-API ermöglichen Dritten die Identitätsvortäuschung in Apps, welche Benutzer schädigen kann, z. B. mit einem Deepfake-Generator.

Dies ist ein Missbrauchs- oder Kontoentfernungsszenario.

Feindselige Störung Wichtig bis Kritisch

Bei Angriffen, die auf Störungen abzielen, ändert der Angreifer heimlich die Abfrage, um eine gewünschte Antwort von einem in der Produktion bereitgestellten Modell zu erhalten. Dabei handelt es sich um eine Verletzung der Modelleingabeintegrität, die zu Fuzzingangriffen führt, deren Endergebnis nicht unbedingt eine Zugriffsverletzung oder ein Produktionsausfall ist, wobei aber die Klassifizierungsleistung des Modells beeinträchtigt wird.

Dies kann sich durch Trolle manifestieren, die bestimmte Zielwörter so verwenden, dass sie von der KI blockiert werden, sodass der Dienst letztendlich legitimen Benutzern den Zugriff verweigert, deren Name mit einem „gesperrten“ Wort übereinstimmt.

Erzwingen, dass gutartige E-Mails als Spam klassifiziert werden oder dass ein bösartiges Beispiel nicht erkannt wird. Diese werden auch als Modellumgehungs- oder Mimikry-Angriffe bezeichnet.

Ein Angreifer kann Eingaben erstellen, welche die Zuverlässigkeit der korrekten Klassifizierung reduzieren, insbesondere in Szenarien mit schwerwiegenden Folgen. Dabei kann u. a. eine große Anzahl von Falsch-positiv-Ergebnissen anfallen, sodass Administratoren oder Überwachungssysteme mit falschen Warnungen anstelle von legitimen Warnungen überschwemmt werden.

Rückschließen auf Mitgliedschaft Mittel bis Kritisch

Rückschluss auf die individuelle Mitgliedschaft in einer Gruppe, die zum Trainieren eines Modells verwendet wird

Beispiel: Vorhersage von medizinischen Operationen anhand von Angaben wie Alter/Geschlecht/Krankenhaus