Sichern der Zukunft von künstlicher Intelligenz und Machine Learning bei Microsoft

Von Andrew Marshall, Raul Rojas, Jay Stokes und Donald Brinkman

Besonderer Dank gilt Mark Cartwright und Graham Calladine

Kurzfassung

Künstliche Intelligenz (KI) und Machine Learning (ML) haben bereits große Auswirkungen darauf, wie Menschen arbeiten, sozialisieren und leben. Mit zunehmender Nutzung von Produkten und Diensten, die auf KI bzw. ML basieren, müssen Schutzvorkehrungen getroffen werden, um sowohl Kunden und deren Daten als auch die eigenen KI-Systeme und -Algorithmen vor Missbrauch, Trollen und Diebstahl zu schützen. In diesem Artikel werden Erkenntnisse zu Sicherheitsüberlegungen beschrieben, die bei Microsoft aus Erfahrungen beim Entwerfen von KI-Produkten und beim Ausführen von KI-basierten Onlinediensten gewonnen wurden. Obwohl es schwierig ist, vorherzusagen, wie sich dieser Bereich entwickelt, haben wir zu dem Schluss gekommen, dass es jetzt umsetzbare Probleme gibt. Wir haben strategische Probleme in der Technologiebranche identifiziert, die für die langfristige Sicherheit von Kunden und deren Daten proaktiv angegangen werden müssen.

In diesem Dokument geht es nicht um KI-basierte Angriffe oder sogar um KI, die von menschlichen Gegnern genutzt werden. Stattdessen konzentrieren wir uns auf Themen, die Microsoft und Branchenpartner adressieren müssen, um KI-basierte Produkte und Dienste vor hoch entwickelten, kreativen und böswilligen Angriffen zu schützen, sei es durch einzelne Rollouts oder ganze Wolfspakete.

Dieses Dokument konzentriert sich vollständig auf sicherheitstechnische Fragen, die für den KI/ML-Raum einzigartig sind, aber aufgrund der umfangreichen Natur der InfoSec Standard ist es zu verstehen, dass Probleme und Erkenntnisse, die hier diskutiert werden, sich mit der Do Standard der Privatsphäre und Ethik überschneiden. In diesem Artikel werden wichtige strategische Herausforderungen der Technologiebranche behandelt. Daher richtet er sich hauptsächlich an Führungskräfte aus dem gesamten Gebiet der Sicherheitstechnik und -entwicklung.

Erste Ergebnisse lassen folgende Schlussfolgerungen zu:

  • Zur Vermeidung der hier beschriebenen Sicherheitsprobleme sind spezielle KI-/ML-Elemente in vorhandenen Sicherheitsmaßnahmen erforderlich.

  • Machine Learning-Modelle können häufig nicht zwischen böswilligen Eingaben und ungewöhnlichen, aber unbedenklichen Daten unterscheiden. Eine signifikante Quelle von Schulungsdaten wird von nicht überholten, nicht bemoderten, öffentlichen Datasets abgeleitet, die für 3rd-Party-Beiträge geöffnet sind. Angreifer müssen Datasets nicht kompromittieren, wenn sie frei sind, zu ihnen beizutragen. Im Laufe der Zeit werden schädliche Daten mit niedriger Vertrauenswürdigkeit zu vertrauenswürdigen Daten, wenn die Datenstruktur/Formatierung erneut korrekt ist Standard.

  • Angesichts der großen Anzahl von Schichten versteckter Klassifizierer/Neuronen, die in einem Deep Learning-Modell verwendet werden können, wird zu viel Vertrauen auf die Ausgabe von KI/ML-Entscheidungsprozessen und Algorithmen gesetzt, ohne ein kritisches Verständnis dafür zu haben, wie diese Entscheidungen erreicht wurden. Dieses hohe Maß an verborgenen Vorgängen erschwert es Entwicklern, ihre Arbeit vollumfänglich darzulegen und KI-/ML-basierte Ergebnisse gegen aufkommende Zweifel zu verteidigen.

  • Künstliche Intelligenz und Machine Learning wird etwa im medizinischen Bereich, aber auch in anderen Bereichen, zunehmend in wichtigen und komplexen Entscheidungsfindungsprozessen eingesetzt, wo eine falsche Entscheidung schwerwiegende Konsequenzen haben oder letztlich sogar den Tod bedeuten kann. Das Fehlen rückverfolgbarer Berichtsfunktionen verhindert, dass die hoch komplexen Schlussfolgerungen auf der Grundlage von KI/ML vor Gericht oder auch in der öffentlichen Meinung standhalten können.

Ziel dieses Dokuments ist es, (1) sicherheitstechnische Probleme hervorzuheben, die für den KI/ML-Raum einzigartig sind, (2) einige anfängliche Gedanken und Beobachtungen zu aufkommenden Bedrohungen und (3) teilen frühe Gedanken zu potenziellen Abhilfemaßnahmen. Für einige der beschriebenen Herausforderungen müssen innerhalb der nächsten zwei Jahre Branchenlösungen gefunden werden, für andere sind Lösungen akut erforderlich. Ohne eingehendeRe Untersuchungen zu den in diesem Dokument behandelten Bereichen riskieren wir, dass zukünftige KI durch unsere Unfähigkeit, ki-Entscheidungsprozesse auf mathematischer Ebene zu vertrauen oder zu verstehen oder zu verstehen (und gegebenenfalls zu ändern) zu einem schwarzen Kästchen wird [7]. Aus Sicherheitsperspektive bedeutet dies effektiv den Verlust der Kontrolle und eine Abkehr von den Leitprinzipien von Microsoft für künstliche Intelligenz [3, 7].

Neue Herausforderungen bei der Sicherheitstechnik

Herkömmliche Softwareangriffsvektoren sind weiterhin wichtig für die Lösung, bieten aber keine ausreichende Abdeckung in der KI/ML-Bedrohungslandschaft. Die Technologiebranche darf nicht den Fehler machen, auf Probleme von morgen mit Lösungen von gestern zu reagieren, mit immer neuen Frameworks und Ansätzen, um die Lücken im Entwurf und der Ausführung von KI-/ML-basierten Diensten zu schließen:

  1. Wie weiter unten beschrieben, müssen die Prinzipien Resilienz und Umsicht elementarer Bestandteil der Sicherheitsentwicklung und sicheren Ausführung von künstlicher Intelligenz werden, wenn dieser Bereich inklusive aller Daten geschützt werden soll. KI-Elemente müssen in den Bereichen Authentifizierung, Aufgabentrennung, Eingabeüberprüfung und Denial-of-Service-Abwehr eine wichtige Position einnehmen. Ohne Investitionen in diese Bereiche kämpfen KI/ML-Dienste weiterhin gegen Gegner aller Qualifikationsstufen.

  2. KI muss die Voreingenommenheit anderer erkennen lernen, ohne in der Interaktion mit menschlichen Partnern selbst voreingenommen zu sein. Dafür ist ein umfassendes und sich ständig weiterentwickelndes Verständnis für Voreingenommenheiten, Stereotype, sprachliche Besonderheiten und andere kulturelle Konstrukte nötig. Ein solches Verständnis trägt zum Schutz von KI vor Social Engineering- und Dataset-Manipulationsangriffen bei. Ein ordnungsgemäß implementiertes System wird tatsächlich stärker von solchen Angriffen und kann sein erweitertes Verständnis mit anderen AIs teilen.

  3. Machine Learning-Algorithmen müssen in der Lage sein, böswillige Daten aus gutartigen "Black Swan"-Ereignissen [1] zu erkennen, indem Schulungsdaten mit negativen Auswirkungen auf die Ergebnisse abgelehnt werden. Andernfalls sind Lernmodelle immer anfällig für Spiele von Angreifern und Gegnern.

  4. Künstliche Intelligenz muss über integrierte forensische Funktionen verfügen, die juristisch haltbare Nachweise ermöglichen. Auf diese Weise können Unternehmen Den Kunden Transparenz und Rechenschaftspflicht ihrer KI zur Verfügung stellen, um sicherzustellen, dass ihre Maßnahmen nicht nur nachweisbar korrekt, sondern auch rechtsverzögert sind. Diese Funktionen stellen auch eine Art Erkennungssystem für KI-Angriffe dar, das Experten die Bestimmung des genauen Zeitpunkts ermöglicht, an dem von einem Klassifizierer eine Entscheidung getroffen wurde, welche Daten zu dieser Entscheidung beitrugen und ob es sich dabei um vertrauenswürdige Daten handelte. Die Funktionen zur Datenvisualisierung in diesem Bereich werden schnell vorankommen und versprechen, dass Techniker die Ursachen für diese komplexen Probleme erkennen und beheben können [10].

  5. Künstliche Intelligenz muss vertrauliche Informationen immer erkennen und schützen – auch dann, wenn es die Menschen selbst nicht tun. Für ein zufriedenstellendes Benutzererlebnis sind riesige Mengen an Rohdaten erforderlich, anhand derer die KI-Systeme trainiert werden können, was zwangsläufig bedeutet, dass Kunden viele Daten von sich preisgeben müssen.

Die hier angeschnittenen Themenbereiche, einschließlich Bedrohungen und möglicher Lösungsansätze, werden im Folgenden ausführlich behandelt.

KI als elementarer Bestandteil traditioneller Entwurfs- und sicherer Ausführungsmodelle: die Einführung von Resilienz und Umsicht

KI-Designer müssen die Vertraulichkeit, Integrität und Verfügbarkeit vertraulicher Daten sicherstellen, dass das KI-System frei von bekannten Sicherheitsrisiken ist, und Kontrollen für den Schutz, die Erkennung und Reaktion auf böswillige Verhaltensweisen gegen das System oder die Daten des Benutzers bereitstellen.

Die traditionellen Methoden zum Schutz vor böswilligen Angriffen bieten in diesem neuen Paradigma nicht die gleiche Abdeckung, in der Sprach-/Video-/Bild-basierte Angriffe aktuelle Filter und Verteidigung umgehen können. Es müssen neue Gefahrenmodelle entwickelt werden, um neue Formen des Missbrauchs von künstlicher Intelligenz zu verhindern. Dabei reicht es bei Weitem nicht aus, die herkömmlichen Angriffsflächen über Fuzzingaktivitäten oder Eingabemanipulationen zu identifizieren – diese Angriffe verfügen längst über eigene KI-spezifische Elemente. KI-/ML-spezifische Szenarios müssen vielmehr vollständig integriert werden. Die wichtigsten Angriffsflächen sind die Schnittstellen der KI-Benutzeroberfläche, wie Sprache, Videos und Gesten. Die mit diesen Erfahrungen verbundenen Bedrohungen wurden nicht traditionell modelliert. Beispielsweise können Videoinhalte jetzt so angepasst werden, dass sie physische Auswirkungen erzeugen. Darüber hinaus zeigt die Forschung, dass audiobasierte Angriffsbefehle erstellt werden können [9].

Die Unvorhersehbarkeit, Kreativität und Böswilligkeit von Kriminellen, Angreifern und Trollen macht es erforderlich, dass KI-Systeme mit Resilienz und Umsicht ausgestattet werden:

Resilienz: Das System sollte in der Lage sein, abnormales Verhalten zu erkennen und Manipulation oder Nötigung außerhalb der normalen Grenzen akzeptablen Verhaltens in Bezug auf das KI-System und die spezifische Aufgabe zu verhindern. Dies sind die neue Angriffsformen auf KI-/ML-Systeme. Systeme müssen Eingaben abwehren, die nicht im Einklang mit den jeweils geltenden Gesetzen, ethischen Grundsätzen und den Werten der Community und Entwickler stehen. Das heißt, künstliche Intelligenz muss erkennen, wann eine Interaktion den „richtigen Pfad“ verlässt. Dafür stehen folgende Möglichkeiten zur Verfügung:

  1. Stellen Sie einzelne Benutzer fest, die von den verschiedenen großen Clustern ähnlicher Benutzer abweichen, z. B. Benutzer, die scheinbar zu schnell eingeben, zu schnell reagieren, nicht schlafen oder Teile des Systems auslösen, die andere Benutzer nicht auslösen.

  2. Identifizieren von Verhaltensmustern, die bekannte Indikatoren für böswillige Probingangriffe und die erste Phase der Cyber Kill Chain für Netzwerkangriffe darstellen

  3. Erkennen Sie jedes Mal, wenn mehrere Benutzer koordiniert handeln; Beispielsweise alle mehrere Benutzer, die dieselbe unerklärliche, aber absichtlich gestaltete Abfrage ausgeben, plötzliche Spitzen bei der Anzahl der Benutzer oder plötzliche Spitzen bei der Aktivierung bestimmter Teile eines KI-Systems.

Angriffe dieses Typs sollten auf Parität mit Denial of Service-Angriffen berücksichtigt werden, da die KI Möglicherweise Fehlerkorrekturen und Erneutes Training erfordert, um nicht wieder auf dieselben Tricks zu fallen. Von entscheidender Bedeutung ist die Fähigkeit, böswillige Absichten in Anwesenheit von Gegenmaßnahmen zu identifizieren, z. B. diejenigen, die zur Bekämpfung von Stimmungsanalyse-APIs verwendet werden [4].

Beschreibung: KI sollte ein verantwortungsvoller und vertrauenswürdiger Verwalter aller aller Informationen sein, auf die sie Zugriff hat. Als Mensch weisen wir zweifellos ein gewisses Vertrauensniveau in unsere KI-Beziehungen zu. Diese Agents kommunizieren in unserem Namen früher oder später mit anderen Agents oder auch Personen. Dabei müssen wir darauf vertrauen können, dass das KI-System bei der Weitergabe von Informationen umsichtig vorgeht und nur die Daten weitergibt, die zur Durchführung der Aufgaben durch den anderen Agent erforderlich sind. Darüber hinaus sollten mehrere Agents, die mit personenbezogenen Daten in unserem Auftrag interagieren, nicht jeden globalen Zugriff darauf benötigen. Bei allen Datenzugriffsszenarios mit mehreren KI- oder Bot-Agents sollte die Dauer des Zugriffs auf ein Minimum beschränkt sein. Benutzer sollten auch in der Lage sein, Daten abzulehnen und die Authentifizierung von Agenten bestimmter Unternehmen oder Standorte abzulehnen, so wie Webbrowser heute das Blockieren von Websites ermöglichen. Zur Lösung dieses Problems sind neue Konzepte zur Authentifizierung zwischen Agents und für Datenzugriffsberechtigungen vonnöten, wie etwa die cloudbasierte Benutzerauthentifizierung zu Beginn des Cloud Computing-Zeitalters.

KI muss die Voreingenommenheit anderer erkennen lernen, ohne selbst voreingenommen zu agieren

Es scheint paradox: Obwohl das Verhalten künstlicher Intelligenz fair und ausgewogen sein sollte, und keinerlei Gruppen von Menschen oder gültigen Ergebnissen ausgeschlossen werden sollen, muss KI gleichzeitig über ein grundsätzliches Verständnis von Voreingenommenheit verfügen, um dieses Ziel zu erreichen. Ohne eine Ausbildung zur Erkennung von Voreingenommenheit, Trolling oder Sarkasmus kann KI von denjenigen, die billige Lachen am besten suchen, bedachtet werden oder den Kunden im schlimmsten Fall Schaden verursachen.

Dafür braucht es „gute Leute, die der künstlichen Intelligenz schlechte Dinge beibringen“, und ein umfassendes und sich ständig weiterentwickelndes Bild von kulturellen Voreingenommenheiten aufbauen. KI sollte in der Lage sein, einen Benutzer zu erkennen, mit dem er in der Vergangenheit negative Interaktionen hatte und angemessene Vorsicht ausgeübt hat, ähnlich wie Eltern, wie Eltern ihre Kinder beibringen, vorsichtig gegenüber Fremden zu sein. Dies kann am besten erreicht werden, indem die künstliche Intelligenz auf kontrollierte, moderierte und begrenzte Weise dem Umgang mit Trollen ausgesetzt wird. So lernt das KI-System zu unterscheiden zwischen harmlosen Benutzern, die „mal Dampf ablassen wollen“ und wirklich böswilligen Trollen. Trolle generieren Datenströme, die für das KI-Training sehr wertvoll sind, da sie die Resilienz gegenüber künftigen Angriffen erhöhen.

Auch in Trainingsdatasets sollte KI Voreingenommenheiten erkennen können. Diese können kultureller oder regionaler Natur sein, sprachliche Eigenheiten bestimmter Gesellschaftsgruppen oder Themen und Standpunkte enthalten, die auf eine bestimmte Gruppe schließen lassen. Wie bei böswilligen Schulungsdaten muss KI widerstandsfähig gegenüber den Auswirkungen dieser Daten auf eigene Rückschlüsse und Abzüge sein. Dabei geht es im Grunde um die Validierung von Eingaben, wie man es von der Überprüfung von Grenzen kennt. Doch anstatt um Pufferlängen und Offsets geht es hier um rot markierte Wörter aus einer riesigen Menge von Quellen. Dabei spielen auch der Konversationsverlauf und der Kontext, in dem die Wörter verwendet werden, eine Rolle. So wie dem Front-End herkömmlicher Webdienst-APIs umfassende Verteidigungsstrategien in mehreren Schichten hinzugefügt werden, sollten auch bei der Erkennung und Vermeidung von Voreingenommenheiten mehrere Schutzebenen zum Einsatz kommen.

Machine Learning-Algorithmen müssen in der Lage sein, böswillige Daten aus gutartigen "Black Swan"-Ereignissen zu erkennen.

Zahlreiche Whitepapers werden zum theoretischen Potenzial von Manipulationen und Extraktion/Diebstahl von ML-Modell-/Klassifizierern von Diensten veröffentlicht, in denen Angreifer Sowohl auf das Schulungsdatenset als auch auf ein fundiertes Verständnis des verwendeten Modells zugreifen können [2, 3, 6, 7]. Das übergeordnete Problem hier ist, dass alle ML-Klassifizierer von einem Angreifer vertrickt werden können, der die Kontrolle über Schulungssatzdaten hat. Dabei müssen Angreifer nicht einmal das vorhandene Trainingsdataset ändern. Es genügt, wenn sie eigene Eingaben hinzufügen und erreichen, dass diese im Laufe der Zeit als vertrauenswürdig eingestuft werden, weil der ML-Klassifizierer bösartige Daten von anormalen, aber echten Daten nicht unterscheiden kann.

Dieses Problem mit der Lieferkette von Trainingsdaten führt direkt zum Konzept der „Entscheidungsintegrität“: der Fähigkeit, böswillig eingeschleuste Trainingsdaten oder Benutzereingaben zu erkennen und abzuweisen, bevor sie einen negativen Einfluss auf das Klassifizierungsverhalten entfalten können. Der Grund hierfür ist, dass vertrauenswürdige Schulungsdaten eine höhere Wahrscheinlichkeit haben, vertrauenswürdige Ergebnisse/Entscheidungen zu generieren. Obwohl es immer noch wichtig ist, sich auf nicht vertrauenswürdigen Daten zu trainieren und stabil zu sein, sollte die böswillige Natur dieser Daten analysiert werden, bevor sie Teil eines besonders konfidenzreichen Körpers von Schulungsdaten wird. Andernfalls könnten KI-Systeme dazu verleitet werden, auf Trolle überzureagieren und auch berechtigten Benutzern den Zugriff auf den Dienst zu verweigern.

Dies betrifft insbesondere unbeaufsichtigte Lernalgorithmen, die nicht kuratierte oder nicht vertrauenswürdige Trainingsdatasets verwenden. In diesem Fall können Angreifer beliebige Daten einschleusen, solange das Datenformat gültig ist. Wird der Algorithmus damit trainiert, vertraut das System diesem Datenpunkt des Trainingssets in demselben Maße wie allen anderen Datenpunkten. Bei ausreichend vielen dieser Eingaben verliert der Trainingsalgorithmus die Fähigkeit, zwischen unnötigen und anomalen Daten einerseits und Daten mit hoher Vertrauenswürdigkeit anderseits zu unterscheiden.

Ein Beispiel für eine solche Bedrohung ist eine Datenbank bestehend aus Stoppschildern aus der ganzen Welt in der jeweiligen Landessprache. Eine solche Datenbank wäre aufgrund der Vielzahl an Bildern und Sprachen eine große Herausforderung. Böswillig diesem Dataset hinzugefügte Daten blieben wohl lange Zeit unentdeckt, bis zu dem Moment, in dem selbstfahrende Fahrzeuge nicht mehr in der Lage wären, Stoppschilder zu erkennen. Datenresilienz- und Entscheidungsintegritätsminderungen müssen hier Hand in Hand arbeiten, um den Schulungsschaden zu identifizieren und zu beseitigen, der durch böswillige Daten verursacht wird, um zu verhindern, dass sie zu einem kernigen Teil des Lernmodells wird.

KI benötigt integrierte Sicherheitsprotokolle und forensische Funktionen für mehr Transparenz und Verantwortlichkeit

Eines Tages wird künstliche Intelligenz in unserem Auftrag auch an höchst kritischen Entscheidungsprozessen beteiligt sein. Ein Beispiel hierfür könnte eine KI sein, die bei der Verarbeitung von Finanztransaktionen hilft. Wenn die KI ausgenutzt wird und Transaktionen in irgendeiner Weise manipuliert werden, könnten die Folgen von der Person bis zum System reichen. In hochwertigen Szenarien benötigt KI geeignete forensische und Sicherheitsprotokollierung, um Integrität, Transparenz, Rechenschaftspflicht und in einigen Fällen Nachweise zu liefern, in denen zivil- oder strafrechtliche Haftung entstehen kann.

Wichtige KI-Dienste benötigen Überwachungs-/Ereignisablaufverfolgungseinrichtungen auf Algorithmusebene, wodurch Entwickler den aufgezeichneten Zustand spezifischer Klassifizierer untersuchen können, was möglicherweise zu einer ungenauen Entscheidung geführt hat. Diese Funktion muss branchenweit umgesetzt werden, um bei Zweifeln an der Richtigkeit einer KI-generierten Entscheidung deren Korrektheit und Transparenz beweisen zu können.

Funktionen zur Ereignisablaufverfolgung könnten zunächst etwa folgende grundlegende Entscheidungsinformationen korrelieren:

  1. den Zeitraum des letzten Trainingsereignisses

  2. den Zeitstempel des neuesten Dataseteintrags, mit dem trainiert wurde

  3. Gewichtungen und die Zuverlässigkeit von wichtigen Klassifizierern, die für Entscheidungen mit großer Tragweite herangezogen wurden

  4. die an der Entscheidung beteiligten Klassifizierer und Komponenten

  5. die endgültige, hochwertige Entscheidung durch den Algorithmus

Diese Ablaufverfolgung ist für die meisten algorithmusgestützten Entscheidungsfindungen überlastend. Wenn Sie jedoch die Möglichkeit haben, die Datenpunkte und Algorithmusmetadaten zu identifizieren, die zu bestimmten Ergebnissen führen, ist bei der Entscheidungsfindung mit hohem Wert von großem Vorteil. Solche Funktionen zeigen nicht nur Vertrauenswürdigkeit und Integrität durch die Fähigkeit des Algorithmus, "seine Arbeit zu zeigen", aber diese Daten könnten auch zur Feinabstimmung verwendet werden.

Eine weitere forensische Funktion ist das Erkennen von Manipulationen in KI-/ML-Systemen. So wie künstliche Intelligenz in der Lage sein sollte, Voreingenommenheit zu erkennen und sich nicht davon beeinflussen zu lassen, so sollten Experten mithilfe von forensischen Funktionen diese Art von Angriffe erkennen und darauf reagieren können. Solche forensischen Funktionen sind von großem Nutzen, wenn sie mit Datenvisualisierungstechniken kombiniert werden [10] die Überwachung, das Debuggen und die Optimierung von Algorithmen für effektivere Ergebnisse ermöglichen.

KI muss vertrauliche Informationen auch ohne Zutun der Benutzer schützen

Für ein bestmögliches Benutzererlebnis sind große Mengen von Daten erforderlich. Weltweit stellen Menschen bereitwillig riesige Datenmengen zur Verfügung, anhand derer ML-Modelle trainiert werden können. Diese Informationen reichen von gestreamten Alltagsvideos bis hin zu Kreditkartenkäufen und Finanztransaktionsverläufen zur Aufdeckung von Betrug. KI sollte ein ausgeprägtes Maß an Diskretion haben, wenn es darum geht, Benutzerdaten zu behandeln, immer zu schützen, auch wenn sie frei durch eine überfreigabende Öffentlichkeit freiwillig tätig sind.

KI-Systeme kommunizieren auch mit einer authentifizierten Gruppe von Partnersystemen, um komplexe Aufgaben durchführen zu können. Auch hier muss der Umfang der freigegebenen Daten streng begrenzt werden.

Erste Beobachtungen für die Behandlung von Sicherheitsproblemen im Zusammenhang mit KI

Trotz des absteigenden Zustands dieses Projekts sind wir der Ansicht, dass die bisher kompilierten Beweise eine tiefere Untersuchung zu jedem der unten aufgeführten Bereiche zeigen, dass es entscheidend ist, unsere Branche auf vertrauenswürdigere und sichere KI/ML-Produkte/-Dienstleistungen zu bewegen. Die folgende Auflistung der auf diesem Gebiet anstehenden Aufgaben ist das Ergebnis der ersten Beobachtungen und bisher gesammelten Informationen:

  1. Neu eingerichtete Überwachungsstellen für KI-/ML-basierte Penetrationstests und Sicherheitsüberprüfungen könnten sicherstellen, dass künftige KI-Systeme auf gemeinsam festgelegten Werten aufbauen und an den KI-Leitsätzen von Asilomar ausgerichtet sind.

    1. Eine solche Stelle könnte auch Tools und Frameworks zur Sicherung von KI-/ML-basierten Diensten entwickeln, die branchenweit genutzt werden könnten.
    2. Diese Kompetenz würde mit der Zeit wachsen und letztlich zum Grundlagenwissen in dieser Branche gehören, vergleichbar mit der Entwicklung der Kenntnisse zu traditionellen Sicherheitsstrategien in den letzten zehn Jahren.
  2. Es könnten Schulungen entwickelt werden, um Unternehmen bei der Ausrichtung auf Zielsetzungen wie die Demokratisierung von künstlicher Intelligenz sowie dem Umgang mit den hier beschriebenen Herausforderungen zu unterstützen.

    1. Schulungen mit dem Schwerpunkt KI-Sicherheit könnten bei Technikern und Entwicklern das Bewusstsein für die Risiken und Gefahren schärfen, die dem KI-System und den ihnen zur Verfügung stehenden Ressourcen drohen. Dieses Material muss mit der aktuellen Schulung zum Schutz von Kundendaten geliefert werden.
    2. Dabei müsste nicht jeder Datenanalyst gleich zum Sicherheitsexperten ausgebildet werden. Es wäre ausreichend, wenn Entwickler ihre Kompetenzen in den Bereichen Resilienz und Umsicht für die Anwendungsfälle ihres KI-Systems weiterentwickelten.
    3. Entwickler müssen die sicheren "Bausteine" von KI-Diensten verstehen, die im gesamten Unternehmen wiederverwendet werden. Es muss auf fehlertolerantes Design mit Subsystemen geachtet werden, die leicht deaktiviert werden können (z. B. Bildprozessoren, Textparser).
  3. ML-Klassifizierer und die ihnen zugrunde liegenden Algorithmen könnten so gut trainiert werden, dass sie schädliche Trainingsdaten erkennen, ohne dass die gültigen Trainingsdaten beeinträchtigt oder die Ergebnisse verzerrt würden.

    1. Techniken wie Reject on Negative Input [5] benötigen Forschungszyklen, um zu untersuchen.

    2. Dies beinhaltet eine mathematische Überprüfung, einen Proof of Concept des Codes sowie Tests anhand schädlicher und harmloser anomaler Daten.

    3. Bei diesem Schritt könnte eine stichprobenartige Überprüfung oder Moderation durch einen menschlichen Mitarbeiter sinnvoll sein, besonders bei statistischen Anomalien.

    4. Spezielle Klassifizierer mit einem umfassenderen Verständnis für die Risiken und Gefahren könnten für mehrere KI-Systeme erstellt werden. Dies würde die Sicherheit der Systeme deutlich erhöhen, da Angreifer nicht mehr ein bestimmtes Modell abschöpfen könnten.

    5. KIs könnten miteinander verknüpft werden, um Bedrohungen systemübergreifend zu erkennen.

  4. Eine zentrale Bibliothek für ML-Überwachungen und forensische Informationen könnte Standards hinsichtlich Transparenz und Vertrauenswürdigkeit von künstlicher Intelligenz schaffen.

    1. Es könnten auch Abfragefunktionen für die Überwachung und Wiederherstellung von Entscheidungen mit großen Auswirkungen auf ein Unternehmen erstellt werden.
  5. Die von Angreifern über kulturelle Grenzen hinweg und in allen sozialen Netzwerken verwendeten sprachlichen Besonderheiten könnten durch KI kontinuierlich inventarisiert und analysiert werden, um Trolle, Sarkasmus usw. zu erkennen und entsprechend darauf reagieren zu können.

    1. Künstliche Intelligenz darf durch keinerlei sprachliche Besonderheiten beeinflussbar sein – ob nun fachsprachlicher, regionaler oder forumsspezifischer Natur.

    2. Dieser Wissensteil könnte auch bei der Inhaltsfilterung/Bezeichnungs-/Blockierungsautomatisierung verwendet werden, um moderatorenskalierende Skalierbarkeitsprobleme zu beheben.

    3. Eine solche globale Datenbank mit Begriffen könnte in Entwicklungsbibliotheken gehostet oder sogar über Clouddienst-APIs anderen KI-Systemen verfügbar gemacht werden, wodurch neue Systeme von den gesammelten Erfahrungen älterer Systeme profitieren könnten.

  6. Eine Art „Fuzzingframework für Machine Learning“ könnte erstellt werden, über das Experten verschiedene Arten von Angriffen in Testtrainingsdatasets einfügen könnten für eine Auswertung durch das KI-System.

    1. Dies könnte sich nicht nur auf Textvernakult, sondern auch auf Bild-, Sprach- und Gestikdaten und Permutationen dieser Datentypen konzentrieren.

Zusammenfassung

Die KI-Leitsätze von Asilomar machen die Komplexität deutlich, die in einer für die Allgemeinheit nützlichen Art der Bereitstellung von KI liegt. Zukünftige AIs müssen mit anderen AIs interagieren, um umfassende, überzeugende Benutzeroberflächen zu bieten. Das bedeutet, dass microsoft einfach nicht gut genug ist, um KI aus Sicherheitsperspektive "richtig zu bekommen" – die Welt muss. Wir brauchen branchenspezifische Ausrichtung und Zusammenarbeit mit größerer Sichtbarkeit, die den Themen in diesem Dokument auf eine ähnliche Weise wie unsere weltweite Forderung nach einer digitalen Genfer Konvention [8] entspricht. Indem wir die hier dargelegten Probleme gemeinsam mit unseren Kunden und Branchenpartnern mutig angehen, machen wir den ersten Schritt in Richtung einer wahren Demokratisierung von künstlicher Intelligenz, von der die gesamte Menschheit profitiert.

Quellenangaben

[1] Taleb, Nassim Nicholas (2007): The Black Swan: The Impact of the Highly Improbable. Random House.ISBN 978-1400063512. (Auch in der deutschen Übersetzung verfügbar.)

[2] Florian Tramèr, Fan Zhang, Ari Juels, Michael K. Reiter, Thomas Ristenpart,Diebstahl von Modellen für maschinelles Lernen über Vorhersage-APIs

[3] Satya Nadella:Die Partnerschaft der Zukunft

[4] Claburn, Thomas:Googles Benchmarking-zerstörte KI kann nicht mit Tippfehlern fertig werden

[5] Marco Barreno, Blaine Nelson, Anthony D. Joseph, J.D. Tygar:Die Sicherheit des maschinellen Lernens

[6] Wolchover, Natalie:Dieser Pionier der künstlichen Intelligenz hat einige Bedenken

[7] Conn, Ariel:Wie richten wir künstliche Intelligenz mit menschlichen Werten aus?

[8] Smith, Brad:Die Notwendigkeit dringender kollektiver Maßnahmen, um menschensicher online zu halten: Lektionen aus dem Cyberangriff der letzten Woche

[9] Nicholas Carlini, Pratyush Mishra, Tavish Vaidya, Yuankai Zhang, Micah Sherr, Clay Shields, David Wagner, Wenchao Zhou:Hidden Voice Commands

[10] Fernanda Viégas, Martin Wattenberg, Daniel Smilkov, James Wexler, Jimbo Wilson, Nikhil Thorat, Charles Nicholson, Google Research:Big Picture