Fehlermodi im Maschinellen Lernen

Microsoft Corporation	Berkman Klein Center for Internet and Society an der Harvard University
Ram Shankar Siva Kumar	David O'Brien
Jeffrey Snover	Kendra Albert
	Salome Viljoen

November 2019

Einführung und Hintergrund

In den letzten zwei Jahren wurden mehr als 200 Veröffentlichungen darüber geschrieben, wie Machine Learning (ML) aufgrund von adversarialen Angriffen auf die Algorithmen und Daten fehlschlagen kann; diese Zahl steigt erheblich, wenn wir nicht-adversarielle Fehlermodi einbeziehen würden. Die Flut von Veröffentlichungen hat es ML-Praktikern, Ingenieuren, Anwälten und Entscheidungsträgern schwer gemacht, mit den Angriffen auf und Verteidigungen von ML-Systemen Schritt zu halten. Da diese Systeme jedoch pervasiver werden, wird die Notwendigkeit, zu verstehen, wie sie scheitern, ob durch die Hand eines Gegners oder aufgrund des inhärenten Designs eines Systems, nur noch druckvoller wird. Ziel dieses Dokuments ist es, beide Fehlermodi an einem zentralen Ort gemeinsam zu tabulieren.

Absichtliche Fehler , bei denen der Fehler durch einen aktiven Gegner verursacht wird, der versucht, das System zu subvertieren, um ihre Ziele zu erreichen – entweder um das Ergebnis falsch zu klassifizieren, private Schulungsdaten abzuleiten oder den zugrunde liegenden Algorithmus zu stehlen.
Unbeabsichtigte Fehler , bei denen der Fehler liegt, weil ein ML-System ein formal korrektes, aber völlig unsicheres Ergebnis erzeugt.

Wir möchten darauf hinweisen, dass es andere Taxonomien und Frameworks gibt, die absichtliche Fehlermodi[1]^,[2] und unbeabsichtigte Fehlermodi[3]^,[4] einzeln hervorheben. Unsere Klassifizierung vereint die beiden separaten Fehlermodi an einem Ort und erfüllt die folgenden Anforderungen:

Die Notwendigkeit, Softwareentwickler, Sicherheitsvorfall-Responder, Rechtsanwälte und politische Entscheidungsträger mit einem gemeinsamen Vernakulär ausstatten, um über dieses Problem zu sprechen. Nach der Entwicklung der ersten Version der Taxonomie im letzten Jahr haben wir mit Sicherheits- und ML-Teams in Microsoft, 23 externen Partnern, Der Standardsorganisation und Regierungen gearbeitet, um zu verstehen, wie die Beteiligten unser Framework verwenden würden. Basierend auf dieser Usability-Studie und dem Feedback der Stakeholder haben wir das Rahmenwerk iteriert.

Ergebnisse: Bei der Darstellung eines ML-Fehlermodus haben wir häufig festgestellt, dass Softwareentwickler und Anwälte die ML-Fehlermodi gedanklich herkömmlichen Softwareangriffen wie Datenexfiltration zugeordnet haben. Daher versuchen wir im gesamten Dokument, zu betonen, wie sich machine Learning-Fehlermodi von herkömmlichen Softwarefehlern aus einer technologie- und politischen Perspektive unterscheiden.
Die Notwendigkeit einer gemeinsamen Plattform, auf der Ingenieure aufbauen und in ihre vorhandenen Softwareentwicklungs- und Sicherheitspraktiken integrieren können. Im Allgemeinen wollten wir, dass die Taxonomie mehr als ein Lerntool ist – wir möchten, dass dies konkrete technische Ergebnisse bewirkt.

Ergebnisse: Mit dieser Taxonomie als Objektiv hat Microsoft seinen Security Development Lifecycle-Prozess für seine gesamte Organisation geändert. Insbesondere teilen Data Scientists und Sicherheitstechniker bei Microsoft jetzt die gemeinsame Sprache dieser Taxonomie, damit sie ihre ML-Systeme effektiver modellieren können, bevor sie in die Produktion übergehen. Incident Responder verfügen außerdem über eine Fehlerschwelle, um diese speziell für ML neuartigen Bedrohungen zu priorisieren; hierbei handelt es sich um den Standardprozess für die Triage und Reaktion auf Sicherheitslücken, der vom Microsoft Security Response Center und allen Microsoft-Produktteams verwendet wird.
Die Notwendigkeit eines gemeinsamen Vokabulars, diese Angriffe unter politischen Entscheidungsträgern und Anwälten zu beschreiben. Wir sind der Meinung, dass dies für die Beschreibung verschiedener ML-Fehlermodi und die Analyse, wie ihre Schäden reguliert werden könnten, ein sinnvoller erster Schritt zu einer fundierten Politik ist.

Ergebnisse: Diese Taxonomie wird für ein breites interdisziplinäres Publikum geschrieben – daher sollten politische Entscheidungsträger, die die Probleme aus allgemeiner ML/AI-Perspektive betrachten, sowie bestimmte Domänen wie Fehlinformation/Gesundheitsversorgung den Fehlermoduskatalog nützlich finden. Außerdem heben wir alle anwendbaren rechtlichen Maßnahmen zur Behebung der Fehlermodi hervor.

Siehe auch Microsofts Threat Modeling AI/ML Systems and Dependencies und SDL Bug Bar Pivots für Schwachstellen beim maschinellen Lernen.

Wie man dieses Dokument verwendet

Zunächst erkennen wir an, dass dies ein lebendiges Dokument ist, das sich im Laufe der Zeit mit der Bedrohungslandschaft weiterentwickeln wird. Wir verschreiben auch hier keine technologischen Gegenmaßnahmen für diese Fehlermodi, da Die Abwehr szenariospezifisch ist und mit dem bedrohungsmodell und der Systemarchitektur in Verbindung stehen, die berücksichtigt wird. Optionen für die Bedrohungsminderung basieren auf der aktuellen Forschung mit der Erwartung, dass sich diese Verteidigung auch im Laufe der Zeit weiterentwickelt.

Für Ingenieure empfehlen wir, die Übersicht über mögliche Fehlermodi zu durchsuchen und in das Dokument zur Bedrohungsmodellierung zu springen. Auf diese Weise können Techniker Bedrohungen, Angriffe, Sicherheitsrisiken identifizieren und das Framework verwenden, um Gegenmaßnahmen zu planen, sofern verfügbar. Wir verweisen Sie dann auf die Bugleiste, die diese neuen Sicherheitsrisiken in der Taxonomie zusammen mit herkömmlichen Softwarerisiken zuordnet, und bietet eine Bewertung für jede ML-Sicherheitsanfälligkeit (z. B. kritisch, wichtig). Diese Fehlerleiste ist einfach in vorhandene Prozesse zur Reaktion auf Vorfälle/Playbooks integriert.

Für Anwälte und politische Entscheidungsträger organisiert dieses Dokument die Fehlermodi des Maschinellen Lernens und bietet einen Rahmen, um wichtige Probleme zu analysieren, die für alle relevant sind, die Richtlinienoptionen untersuchen, wie zum Beispiel die hier beschriebenen Arbeiten[5]^,[6]. Insbesondere haben wir Misserfolge und Folgen so kategorisiert, dass politische Entscheidungsträger anfangen können, Unterscheidungen zwischen Ursachen zu ziehen, die die initiativen der öffentlichen Politik zur Förderung der Sicherheit und Sicherheit von ML informieren werden. Wir hoffen, dass politische Entscheidungsträger diese Kategorien verwenden werden, um herauszufassen, wie bestehende Rechtssysteme (nicht) angemessen aufkommende Probleme erfassen können, welche historischen Rechtssysteme oder politische Lösungen ähnliche Schäden behandelt haben könnten und wo wir besonders sensibel für Fragen der bürgerlichen Freiheiten sein sollten.

Dokumentstruktur

Sowohl in den Abschnitten "Absichtliche Fehlermodi " als auch in den Abschnitten " Unbeabsichtigte Fehlermodi " stellen wir eine kurze Definition des Angriffs und ein illustratives Beispiel aus der Literatur bereit.

Im Abschnitt "Absichtliche Fehlermodi " stellen wir die zusätzlichen Felder bereit:

Was versucht der Angriff, im ML-System zu kompromittieren – Vertraulichkeit, Integrität oder Verfügbarkeit? Wir definieren Vertraulichkeit als Sicherheit, dass die Komponenten des ML-Systems (Daten, Algorithmus, Modell) nur von autorisierten Parteien zugänglich sind; Integrität ist so definiert, dass das ML-System nur von autorisierten Parteien geändert werden kann; Die Verfügbarkeit wird als Sicherheit definiert, dass das ML-System für autorisierte Parteien zugänglich ist. Gemeinsam wird Vertraulichkeit, Integrität und Verfügbarkeit als CIA-Triad bezeichnet. Für jeden absichtlichen Fehlermodus versuchen wir zu ermitteln, welche der CIA-Triad kompromittiert ist.
Wie viel Wissen ist erforderlich, um diesen Angriff durchzuführen – Blackbox oder Whitebox? Bei Angriffen im "Blackbox"-Stil hat der Angreifer keinen direkten Zugriff auf die Trainingsdaten, keine Kenntnis über den verwendeten ML-Algorithmus und keinen Zugriff auf den Quellcode des Modells. Der Angreifer fragt nur das Modell ab und beobachtet die Antwort. In einem Whitebox-Stil-Angriff verfügt der Angreifer über Kenntnisse des ML-Algorithmus oder Zugriff auf den Modellquellcode.
Kommentare dazu, ob der Angreifer gegen traditionelle technologische Begriffe des Zugriffs/der Autorisierung verstößt.

Absichtlich motivierte Fehlerzusammenfassung

Szenarionummer	Angriff	Übersicht	Verletzt den traditionellen technologischen Begriff des Zugangs/der Autorisierung?
1	Perturbationsangriff	Angreifer ändert die Abfrage so, dass die entsprechende Antwort abgerufen wird.	Nein
2	Vergiftungsangriff	Angreifer verunreinigt die Trainingsphase von ML-Systemen, um beabsichtigtes Ergebnis zu erzielen	Nein
3	Modellinversion	Ein Angreifer stellt die im Modell verwendeten geheimen Merkmale durch sorgfältige Abfragen wieder her.	Nein
4	Mitgliedschaftsinferenz	Angreifer können ableiten, ob ein bestimmter Datensatz Teil des Schulungsdatensatzes des Modells war oder nicht.	Nein
5	Modelldiebstahl	Angreifer können das Modell mithilfe sorgfältig gestalteter Abfragen wiederherstellen.	Nein
6	Neuprogrammierung des ML-Systems	Neuverwenden des ML-Systems, um eine Aktivität auszuführen, für die sie nicht programmiert wurde	Nein
7	Adversarialbeispiel in physischer Domäne	Ein Angreifer bringt adversariale Beispiele in die physische Domäne ein, um ein ML-System zu sabotieren, z. B. spezielle Brillen im 3D-Druck, um ein Gesichtserkennungssystem zu täuschen.	Nein
8	Böswilliger ML-Anbieter stellt Schulungsdaten wieder her	Bösartige ML-Anbieter können das vom Kunden verwendete Modell abfragen und die Schulungsdaten des Kunden wiederherstellen.	Ja
9	Angriff auf die ML-Lieferkette	Angreifer kompromittiert die ML-Modelle, da sie zur Verwendung heruntergeladen werden	Ja
10	Backdoor ML	Backdoors-Algorithmus für bösartige ML-Anbieter, der mit einem bestimmten Trigger aktiviert werden soll	Ja
11	Exploit-Softwareabhängigkeiten	Angreifer verwendet herkömmliche Software-Exploits wie Pufferüberlauf, um ML-Systeme zu verwechseln/zu kontrollieren	Ja

Zusammenfassung unbeabsichtigter Fehler

Szenario #	Fehler	Übersicht
12	Belohnungs-Hacking	Verstärkungs-Lernsysteme (RL) handeln aufgrund eines Missverhältnisses zwischen angegebener Belohnung und wahrer Belohnung auf unbeabsichtigte Weise
13	Nebenwirkungen	Das RL-System stört die Umgebung, da es versucht, sein Ziel zu erreichen
14	Verteilungsverschiebungen	Das System wird in einer Umgebung getestet, kann sich jedoch nicht an Änderungen in anderen Umgebungsarten anpassen.
15	Natürliche Adversarialbeispiele	Ohne Angriffe scheitert das ML-System aufgrund von hartem Negativ-Mining.
16	Häufige Korruption	Das System ist nicht in der Lage, häufige Beschädigungen und Störungen wie Kippen, Zoomen oder laute Bilder zu verarbeiten.
17	Unvollständige Tests	Das ML-System wird nicht unter realistischen Bedingungen getestet, in denen es funktionieren soll.

Details zu vorsätzlich verursachten Fehlern

Szenario #	Angriffskategorie	Beschreibung	Kompromittierungstyp	Szenario
1	Angriffe durch Störungen	Bei Angriffen im Perturbationsstil ändert der Angreifer unauffällig die Abfrage, um eine gewünschte Antwort zu erhalten.	Integrität	Bild: Rauschen wird einem Röntgenbild hinzugefügt, wodurch die Vorhersagen von einem normalen Scan zu einem abnormen Scan wechseln [1][Blackbox] Textübersetzung: Bestimmte Zeichen werden bearbeitet, um zu einer falschen Übersetzung zu führen. Der Angriff kann bestimmte Wörter unterdrücken oder sogar das Wort vollständig entfernen[2][Blackbox und Whitebox] Sprachsynthese: Forscher haben gezeigt, wie eine vorhandene Sprachwellenform durch eine andere genau repliziert werden kann, die jedoch in einen völlig anderen Text transkribiert wird [3] [Whitebox, die möglicherweise auf Blackbox erweitert werden kann].
2	Vergiftungsangriffe	Ziel des Angreifers ist es, das in der Schulungsphase generierte Computermodell zu verunreinigen, sodass Vorhersagen zu neuen Daten in der Testphase geändert werden. Gezielt: Bei gezielten Vergiftungsangriffen möchte der Angreifer bestimmte Beispiele falsch klassifizieren. Wahllos: Das Ziel ist es, einen DoS-ähnlichen Effekt zu verursachen, wodurch das System nicht verfügbar ist.	Integrität	In einem medizinischen Datensatz, bei dem das Ziel die Vorhersage der Dosierung des Antikoagulans Warfarin mittels demografischer Informationen ist, führten Forscher bösartige Stichproben mit einer Vergiftungsrate von 8 % ein, die die Dosierung für die Hälfte der Patienten um 75,06 % veränderten[4][Blackbox] Im Tay-Chatbot wurden zukünftige Unterhaltungen beeinflusst, weil ein Bruchteil der vergangenen Unterhaltungen verwendet wurde, um das System durch Feedback zu trainieren[5] [Blackbox]
3	Modellinversion	Die privaten Features, die in Machine Learning-Modellen verwendet werden, können wiederhergestellt werden.	Vertraulichkeit;	Forscher konnten private Schulungsdaten wiederherstellen, die zum Trainieren des Algorithmus verwendet wurden. Die Autoren konnten Gesichter nur anhand des Namens und des Zugangs zum Modell bis zu dem Punkt rekonstruieren, an dem Mechanical Turks das Foto verwenden konnten, um eine Person aus einer Reihe mit 95% Genauigkeit zu identifizieren. Die Autoren konnten auch bestimmte Informationen extrahieren. [Whitebox und Blackbox][12]
4	Mitgliedschafts-Ableitungsangriff	Der Angreifer kann bestimmen, ob ein bestimmter Datensatz Teil des Schulungsdatensatzes des Modells war oder nicht.	Vertraulichkeit	Forscher konnten das Hauptverfahren eines Patienten vorhersagen(z.B.: Operation, die der Patient durchlaufen hat) basierend auf den Attributen (z. B. Alter, Geschlecht, Krankenhaus)[7][Blackbox]
5	Modelldiebstahl	Die Angreifer erstellen das zugrunde liegende Modell neu, indem sie das Modell legitim abfragen. Die Funktionalität des neuen Modells entspricht dem des zugrunde liegenden Modells.	Vertraulichkeit	Die Forscher emulierten erfolgreich den zugrunde liegenden Algorithmus von Amazon, BigML. Beispielsweise konnten Forscher im BigML-Fall das Modell wiederherstellen, das verwendet wird, um vorherzusagen, ob jemand ein gutes/schlechtes Kreditrisiko (deutsches Kreditkarten-Dataset) mit 1.150 Abfragen und innerhalb von 10 Minuten haben sollte[8]
6	Neuprogrammieren von tiefen neuralen Netzen	Durch eine speziell gestaltete Abfrage eines Angreifers können Machine Learning-Systeme auf eine Aufgabe umprogrammiert werden, die von der ursprünglichen Absicht des Erstellers abweicht.	Integrität, Verfügbarkeit	Veranschaulicht, wie ImageNet, ein System, das ursprünglich zum Klassifizieren von Bildern in eine der mehreren Kategorien verwendet wurde, umfunktioniert wurde, um Quadrate zu zählen. Autoren beenden das Dokument mit einem hypothetischen Szenario: Ein Angreifer sendet Captcha-Bilder an den Computer-Vision-Klassifizierer in einem in der Cloud gehosteten Fotos-Dienst, um die Image captchas zu lösen, um Spamkonten zu erstellen[9]
7	Adversariales Beispiel in der physischen Domäne	Ein gegnerisches Beispiel ist eine Eingabe oder Abfrage von einer bösartigen Entität, die mit dem alleinigen Ziel gesendet wird, das maschinelle Lernsystem in die Irre zu führen. Diese Beispiele können im physischen Bereich auftreten.	Integrität	Forscher druckt in 3D ein Gewehr mit benutzerdefinierter Textur, das das Bilderkennungssystem dazu täuscht, es sei eine Schildkröte[10] Forscher konstruieren Sonnenbrillen mit einem Design, das jetzt Bilderkennungssysteme täuschen kann und die Gesichter nicht mehr richtig erkennen[11]
8	Bösartige ML-Anbieter, die Schulungsdaten wiederherstellen können	Bösartige ML-Anbieter können das vom Kunden verwendete Modell abfragen und die Schulungsdaten des Kunden wiederherstellen.	Vertraulichkeit	Forscher zeigen, wie ein böswilliger Anbieter einen Hintertürenalgorithmus darstellt, in dem die privaten Schulungsdaten wiederhergestellt werden. Sie konnten Gesichter und Texte anhand des Modells allein rekonstruieren. [12]
9	Angriff auf die ML Supply Chain[13]	Aufgrund großer Ressourcen (Daten + Berechnung), die zum Trainieren von Algorithmen erforderlich sind, besteht die aktuelle Praxis darin, Modelle wiederzuverwenden, die von großen Unternehmen trainiert wurden, und sie leicht für aufgabenhand zu ändern (z. B.: ResNet ist ein beliebtes Bilderkennungsmodell von Microsoft). Diese Modelle werden in einem Modell zoo kuratiert (Caffe hostet beliebte Bilderkennungsmodelle). In diesem Angriff greift der Angreifer die Modelle an, die in Caffe gehostet werden, wodurch die Welle für alle anderen vergiftet wird.	Integrität	Forscher zeigen, wie es für einen Angreifer möglich ist, bösartigen Code in einem der beliebten Modelle einzuchecken. Ein nicht ahnungsloser ML-Entwickler lädt dieses Modell herunter und verwendet es als Teil des Bilderkennungssystems in ihrem Code [14]. Die Autoren zeigen, wie in Caffe ein Modell vorhanden ist, dessen SHA1-Hashnot mit dem Digest der Autoren übereinstimmt, was auf Manipulation hinweist. Es gibt 22 Modelle ohne SHA1-Hash für Integritätsprüfungen überhaupt.
10	Backdoor Machine Learning	Wie in der "Attacking the ML Supply Chain", in diesem Angriffsszenario, wird der Schulungsvorgang entweder vollständig oder teilweise an eine böswillige Partei ausgelagert, die dem Benutzer ein trainiertes Modell mit einer Hintertür zur Verfügung stellen möchte. Das Backdoored-Modell würde bei den meisten Eingaben gut funktionieren (einschließlich Eingaben, die der Endbenutzer als Überprüfungssatz halten kann), verursacht aber gezielte Fehlklassifizierungen oder beeinträchtigt die Genauigkeit des Modells für Eingaben, die bestimmte geheime, vom Angreifer gewählte Eigenschaft erfüllen, die wir als Backdoor-Trigger bezeichnen.	Vertraulichkeit, Integrität	Forscher haben einen US-amerikanischen Verkehrszeichenerkenner erstellt, der Stoppschilder nur dann als Geschwindigkeitsbeschränkungen identifiziert, wenn ein spezieller Aufkleber (Hintertür-Trigger) am Stoppschild angebracht wird. Sie erweitern diese Arbeit nun auf Textverarbeitungssysteme, wobei bestimmte Wörter durch einen Trigger ersetzt werden, der durch den Akzent des Sprechers ausgelöst wird[15]
11	Ausnutzung von Softwareabhängigkeiten des ML-Systems	In diesem Angriff bearbeitet der Angreifer die Algorithmen NICHT. Stattdessen werden herkömmliche Softwarerisiken wie Pufferüberläufe ausgenutzt.	Vertraulichkeit, Integrität, Verfügbarkeit,	Ein Angreifer sendet fehlerhafte Eingaben an ein Bilderkennungssystem, was dazu führt, dass es aufgrund der Ausnutzung eines Softwarefehlers in einer der Abhängigkeiten falsch klassifiziert wird.

Details zu unbeabsichtigten Fehlern

Szenario #	Angriffskategorie	Beschreibung	Kompromittierungstyp	Szenario
12	Reward Hacking	Verstärkungs-Lernsysteme wirken auf unbeabsichtigte Weise, weil diskrepanzen zwischen der angegebenen Belohnung und der tatsächlich beabsichtigten Belohnung auftreten.	Sicherheit des Systems	Hier wurde ein riesiger Korpus von Gaming-Beispielen in KI zusammengestellt[1]
13	Nebeneffekte	Das RL-System stört die Umgebung, da es versucht, ihr Ziel zu erreichen	Sicherheit des Systems	Szenario, verbatim von den Autoren in [2]. Angenommen, ein Designer möchte, dass ein RL-Agent (z. B. unser Reinigungsroboter) ein bestimmtes Ziel erreicht, z. B. eine Box von einer Seite eines Raums auf die andere. Manchmal besteht der effektivste Weg zur Zielerreichung darin, etwas Unzusammenhängendes und Zerstörerisches in der Umgebung zu tun, wie z. B. eine Vase mit Wasser, die im Weg steht, umzuwerfen. Wenn der Agent nur für das Bewegen der Box belohnt wird, wird er wahrscheinlich die Vase umstoßen.
14	Verteilungsverschiebungen	Das System wird in einer Umgebung getestet, kann sich jedoch nicht an Änderungen in anderen Umgebungsarten anpassen.	Sicherheit des Systems	Forscher trainierten zwei hochmoderne RL-Agenten, Rainbow DQN und A2C in einer Simulation, um Lava zu vermeiden. Während der Ausbildung konnte der RL-Agent Lava erfolgreich vermeiden und sein Ziel erreichen. Während der Tests bewegten sie leicht die Position der Lava, aber der RL-Agent konnte die Lava nicht vermeiden [3].
15	Natürliche gegnerische Beispiele	Das System erkennt eine Eingabe fälschlicherweise, die durch Hard Negative Mining gefunden wurde.	Sicherheit des Systems	Hier zeigen die Autoren, wie durch einen einfachen Prozess des Hard Negative Mining[4] das ML-System irreführen werden kann, durch die Wiederholung des Beispiels.
16	Häufige Datenkorruption	Das System ist nicht in der Lage, häufige Beschädigungen und Störungen wie Kippen, Zoomen oder laute Bilder zu verarbeiten.	Sicherheit des Systems	Die Autoren[5] zeigen, wie häufige Störungen wie Änderungen der Helligkeit, des Kontrasts, durch Nebel oder Rauschen, die zu Bildern hinzugefügt werden, zu einem erheblichen Rückgang der Erkennungsgenauigkeit bei der Bilderkennung führen.
17	Unvollständige Tests unter realistischen Bedingungen	Das ML-System wird unter realistischen Bedingungen nicht getestet, in denen es funktionieren soll	Sicherheit des Systems	Die Autoren in [25] betonen, dass Verteidiger zwar häufig die Robustität des ML-Algorithmus berücksichtigen, aber sie verlieren den Blick auf realistische Bedingungen. Sie argumentieren beispielsweise, dass ein fehlendes Stoppzeichen, das vom Wind weggeweht wurde (was realistischer ist), wahrscheinlicher ist als ein Angreifer, der versucht, die Eingaben des Systems zu stören.

Danksagung

Wir möchten Andrew Marshall, Magnus Nystrom, John Walton, John Lambert, Sharon Xia, Andi Comissoneru, Emre Kiciman, Jugal Parikh, Sharon Gillet, Mitglieder des AI and Ethics in Engineering and Research (AETHER) Ausschusses von Microsofts Sicherheitsarbeitsgruppe, Amar Ashar, Samuel Klein, Jonathan Zittrain danken, die Mitglieder der AI Safety Security Working Group beim Berkman Klein Center sind, für ihr hilfreiches Feedback. Wir möchten uns ebenfalls bei den Prüfern von 23 externen Partnern, Standardsorganisationen und Regierungsorganisationen für die Gestaltung der Taxonomie bedanken.

Quellenangaben

[1] Li, Guofu, et al. "Security Matters: A Survey on Adversarial Machine Learning". arXiv Preprint arXiv:1810.07339 (2018).

[2] Chakraborty, Anirban, et al. "Adversarial Attacks and Defences: A survey." arXiv preprint arXiv:1810.00069 (2018).

[3] Ortega, Pedro und Vishal Maini. "Aufbau sicherer künstlicher Intelligenz: Spezifikation, Robustheit und Zuverlässigkeit." DeepMind Safety Research Blog (2018).

[4] Amodei, Dario, et al. "Konkrete Probleme bei der KI-Sicherheit.". arXiv Preprint arXiv:1606.06565 (2016).

[5] Shankar Siva Kumar, Ram, et al. "Law and Adversarial Machine Learning". arXiv preprint arXiv:1810.10731 (2018).

[6] Calo, Ryan, et al. "Ist das Täuschen eines Roboters Hacking?." University of Washington School of Law Research Paper 2018-05 (2018).

[7] Paschali, Magdalini et al. "Generalizability vs. Robustness: Adversarial Examples for Medical Imaging." arXiv preprint arXiv:1804.00504 (2018).

[8] Ebrahimi, Javid, Daniel Lowd und Dejing Dou. "Über Angreiferbeispiele für zeichenbasierte neuronale maschinelle Übersetzung." arXiv preprint arXiv:1806.09030 (2018)

[9] Carlini, Nicholas und David Wagner. "Audio-gegenüberstellungsbeispiele: Gezielte Angriffe auf Sprache-zu-Text." arXiv-Vorabdruck arXiv:1801.01944 (2018).

[10] Jagielski, Matthew, et al. "Manipulation des maschinellen Lernens: Vergiftungsangriffe und Gegenmaßnahmen für Regressionslernen." arXiv Preprint arXiv:1804.00308 (2018)

[11] [https://blogs.microsoft.com/blog/2016/03/25/learning-tays-introduction/]

[12] Fredrikson M, Jha S, Ristenpart T. 2015. Modellinversionsangriffe, die Konfidenzinformationen und grundlegende Gegenmaßnahmen ausnutzen

[13] Shokri R, Stronati M, Song C, Shmatikov V. 2017. Mitgliedschaftsinferenzangriffe auf Modelle des Maschinellen Lernens. In Proc. vom 2017 IEEE Symp. on Security and Privacy (SP), San Jose, CA, 22.-24. Mai 2017, S. 3–18. New York, NY: IEEE.

[14] Tramèr, Florian, et al. "Stealing Machine Learning Models via Prediction APIs." USENIX Security Symposium. 2016.

[15] Elsayed, Gamaleldin F., Ian Goodfellow und Jascha Sohl-Dickstein. "Adversarial Reprogrammierung neuronaler Netzwerke." arXiv Preprint arXiv:1806.11146 (2018).

[16] Athalye, Anish und Ilya Sutskever. "Synthesizing robuster adversarialer Beispiele." arXiv Preprint arXiv:1707.07397(2017)

[17] Sharif, Mahmood, et al. "Adversarial Generative Nets: Neural Network Attacks on State-of-the-Art Face Recognition." arXiv Preprint arXiv:1801.00349 (2017).

[19] Xiao, Qixue, et al. "Sicherheitsrisiken in Deep Learning-Implementierungen". arXiv Preprint arXiv:1711.11008 (2017).

[20] Gu, Tianyu, Brendan Dolan-Gavitt und Siddharth Garg. "Badnets: Identifizieren von Schwachstellen in der Lieferkette des Machine Learning-Modells." arXiv Preprint arXiv:1708.06733 (2017)

[21] [https://www.wired.com/story/machine-learning-backdoors/]

[22] [https://docs.google.com/spreadsheets/d/e/2PACX-1vRPiprOaC3HsCf5Tuum8bRfzYUiKLRqJmbOoC-32JorNdfyTiRRsR7Ea5eWtvsWzuxo8bjOxCG84dAg/pubhtml]

[23] Amodei, Dario, et al. "Konkrete Probleme bei der KI-Sicherheit.". arXiv Preprint arXiv:1606.06565 (2016).

[24] Leike, Jan, et al. "AI Safety Gridworlds". arXiv Preprint arXiv:1711.09883 (2017).

[25] Gilmer, Justin, et al. "Motivieren der Regeln des Spiels für adversariale Beispielforschung.". arXiv Preprint arXiv:1807.06732 (2018).

[26] Hendrycks, Dan und Thomas Dietterich. "Benchmarking neuraler Netzwerkfestigkeit gegenüber häufigen Korruptionen und Störungen." arXiv Preprint arXiv:1903.12261 (2019).

Feedback

War diese Seite hilfreich?

Last updated on 2026-03-27