Sichern der Zukunft von künstlicher Intelligenz und Machine Learning bei Microsoft

Artikel
07/15/2024

Von Andrew Marshall, Raul Rojas, Jay Stokes und Donald Brinkman

Besonderer Dank gilt Mark Cartwright und Graham Calladine

Kurzfassung

Künstliche Intelligenz (KI) und Machine Learning (ML, maschinelles Lernen) haben bereits einen großen Einfluss auf die Arbeit, das Sozialverhalten und die Lebensweise von uns Menschen. Mit zunehmender Nutzung von Produkten und Diensten, die auf KI bzw. ML basieren, müssen Schutzvorkehrungen getroffen werden, um sowohl Kunden und deren Daten als auch die eigenen KI-Systeme und -Algorithmen vor Missbrauch, Trollen und Diebstahl zu schützen. In diesem Artikel werden Erkenntnisse zu Sicherheitsüberlegungen beschrieben, die bei Microsoft aus Erfahrungen beim Entwerfen von KI-Produkten und beim Ausführen von KI-basierten Onlinediensten gewonnen wurden. Obwohl Vorhersagen über die Entwicklung auf diesem Gebiet äußerst schwierig sind, konnten wir eine Reihe von Problemen ausmachen, an deren Lösung schon heute gearbeitet werden sollte. Wir haben strategische Probleme in der Technologiebranche identifiziert, die für die langfristige Sicherheit von Kunden und deren Daten proaktiv angegangen werden müssen.

Das Thema dieses Artikels sind nicht KI-basierte Angriffe oder künstliche Intelligenz, die von Menschen zum Schaden von anderen eingesetzt wird. Es geht hier vielmehr um Themen, die Microsoft zusammen mit Branchenpartnern angehen muss, um KI-basierte Produkte und Dienste vor hoch komplexen, kreativen und böswilligen Angriffen durch einzelne Trolle oder ganze Hackergruppen zu schützen.

Der Schwerpunkt dieses Artikels liegt auf Sicherheitsaspekten im Bereich KI und maschinelles Lernen. Doch da Themen der Informationssicherheit generell an Bedeutung gewinnen, können die hier beschriebenen Erkenntnisse auch für die Bereiche Datenschutz und ethische Grundlagen relevant sein. In diesem Artikel werden wichtige strategische Herausforderungen der Technologiebranche behandelt. Daher richtet er sich hauptsächlich an Führungskräfte aus dem gesamten Gebiet der Sicherheitstechnik und -entwicklung.

Erste Ergebnisse lassen folgende Schlussfolgerungen zu:

Zur Vermeidung der hier beschriebenen Sicherheitsprobleme sind spezielle KI-/ML-Elemente in vorhandenen Sicherheitsmaßnahmen erforderlich.
Machine Learning-Modelle können häufig nicht zwischen böswilligen Eingaben und ungewöhnlichen, aber unbedenklichen Daten unterscheiden. Eine wichtige Quelle für Trainingsdaten wird aus nicht kuratierten, nicht moderierten öffentlichen Datasets abgeleitet, zu denen auch Drittanbieter beitragen können. Angreifer müssen Datasets also gar nicht kompromittieren – sie können einfach daran mitwirken und diese ergänzen. So werden aus schädlichen Daten mit niedrigem Zuverlässigkeitswert allmählich vertrauenswürdige Daten mit hohem Zuverlässigkeitswert – falls die Struktur und Formatierung der Daten korrekt ist.
Angesichts der Vielzahl an Ebenen verborgener Klassifizierer/Neuronen in einem Deep Learning-Modell wird den Ergebnissen von KI-/ML-basierten Entscheidungsvorgängen und Algorithmen zu viel Vertrauen geschenkt, ohne deren Zustandekommen kritisch zu hinterfragen. Dieses hohe Maß an verborgenen Vorgängen erschwert es Entwicklern, ihre Arbeit vollumfänglich darzulegen und KI-/ML-basierte Ergebnisse gegen aufkommende Zweifel zu verteidigen.
Künstliche Intelligenz und Machine Learning wird etwa im medizinischen Bereich, aber auch in anderen Bereichen, zunehmend in wichtigen und komplexen Entscheidungsfindungsprozessen eingesetzt, wo eine falsche Entscheidung schwerwiegende Konsequenzen haben oder letztlich sogar den Tod bedeuten kann. Das Fehlen rückverfolgbarer Berichtsfunktionen verhindert, dass die hoch komplexen Schlussfolgerungen auf der Grundlage von KI/ML vor Gericht oder auch in der öffentlichen Meinung standhalten können.

Das Ziel dieses Artikels liegt in der Benennung folgender Punkte: 1. KI-/ML-spezifische Sicherheitsprobleme, 2. erste Überlegungen und Beobachtungen zu neuen Bedrohungen und 3. erste Konzepte zu Gegenmaßnahmen. Für einige der beschriebenen Herausforderungen müssen innerhalb der nächsten zwei Jahre Branchenlösungen gefunden werden, für andere sind Lösungen akut erforderlich. Wenn die hier angesprochenen Themen nicht gründlich untersucht werden, besteht die Gefahr, dass künstliche Intelligenz in Zukunft Teil eines Blackbox-Systems wird, weil KI-basierte Entscheidungsprozesse auf der mathematischen Ebene nicht mehr nachvollzogen (und wenn nötig geändert) werden können, geschweige denn, dass ihnen Vertrauen geschenkt wird [7]. Im Hinblick auf die Sicherheit bedeutet dies einen Kontrollverlust und eine Abkehr von den Leitprinzipien von Microsoft für künstliche Intelligenz [3, 7].

Neue Herausforderungen bei der Sicherheitstechnik

Herkömmliche Softwareangriffsvektoren sind noch immer relevant, doch sie werden in der KI-/ML-Bedrohungslandschaft nicht genügend berücksichtigt. Die Technologiebranche darf nicht den Fehler machen, auf Probleme von morgen mit Lösungen von gestern zu reagieren, mit immer neuen Frameworks und Ansätzen, um die Lücken im Entwurf und der Ausführung von KI-/ML-basierten Diensten zu schließen:

Wie weiter unten beschrieben, müssen die Prinzipien Resilienz und Umsicht elementarer Bestandteil der Sicherheitsentwicklung und sicheren Ausführung von künstlicher Intelligenz werden, wenn dieser Bereich inklusive aller Daten geschützt werden soll. KI-Elemente müssen in den Bereichen Authentifizierung, Aufgabentrennung, Eingabeüberprüfung und Denial-of-Service-Abwehr eine wichtige Position einnehmen. Ohne Investitionen in diesen Bereichen werden KI-/ML-Dienste im Kampf gegen omnipotente Gegner weiter auf verlorenem Posten stehen.
KI muss die Voreingenommenheit anderer erkennen lernen, ohne in der Interaktion mit menschlichen Partnern selbst voreingenommen zu sein. Dafür ist ein umfassendes und sich ständig weiterentwickelndes Verständnis für Voreingenommenheiten, Stereotype, sprachliche Besonderheiten und andere kulturelle Konstrukte nötig. Dieses Verständnis schützt KI-Systeme vor Social Engineering-Angriffen und der Manipulation von Datasets. Korrekt implementierte Systeme werden durch derartige Angriffe sogar stärker und teilen das neu hinzugekommene Wissen mit anderen KI-Systemen.
Machine Learning-Algorithmen müssen das Einschleusen von Daten in böswilliger Absicht von höchst unwahrscheinlichen, aber unschädlichen Ereignissen, auch „Schwarzer Schwan“ genannt [1], unterscheiden können, indem sie Trainingsdaten mit negativen Auswirkungen auf die Ergebnisse zurückweisen. Andernfalls sind Lernmodelle leichte Beute für Angreifer und Trolle.
Künstliche Intelligenz muss über integrierte forensische Funktionen verfügen, die juristisch haltbare Nachweise ermöglichen. Dadurch stärken Unternehmen ihren Kunden gegenüber Transparenz und Verantwortlichkeit und stellen sowohl die nachprüfbare Korrektheit als auch die juristische Belegbarkeit der Aktionen des KI-Systems sicher. Diese Funktionen stellen auch eine Art Erkennungssystem für KI-Angriffe dar, das Experten die Bestimmung des genauen Zeitpunkts ermöglicht, an dem von einem Klassifizierer eine Entscheidung getroffen wurde, welche Daten zu dieser Entscheidung beitrugen und ob es sich dabei um vertrauenswürdige Daten handelte. In diesem Bereich entwickeln sich die Möglichkeiten zur Visualisierung von Daten rasant weiter, hin zu einem vielversprechenden Mittel bei der Identifizierung und Lösung der Grundursachen dieser komplexen Probleme [10].
Künstliche Intelligenz muss vertrauliche Informationen immer erkennen und schützen – auch dann, wenn es die Menschen selbst nicht tun. Für ein zufriedenstellendes Benutzererlebnis sind riesige Mengen an Rohdaten erforderlich, anhand derer die KI-Systeme trainiert werden können, was zwangsläufig bedeutet, dass Kunden viele Daten von sich preisgeben müssen.

Die hier angeschnittenen Themenbereiche, einschließlich Bedrohungen und möglicher Lösungsansätze, werden im Folgenden ausführlich behandelt.

KI als elementarer Bestandteil traditioneller Entwurfs- und sicherer Ausführungsmodelle: die Einführung von Resilienz und Umsicht

KI-Designer müssen die Vertraulichkeit, Integrität und Verfügbarkeit sensibler Daten sicherstellen. Sie müssen das KI-System und die Benutzerdaten vor bekannten Sicherheitsrisiken schützen sowie böswilliges Verhalten rechtzeitig erkennen und darauf reagieren.

Die herkömmlichen Schutzmechanismen gegen böswillige Angriffe sorgen in diesem neuen System nicht für die gleiche Abdeckung, da sprach-, video- oder bildbasierte Angriffe aktuelle Filter und Abwehrmaßnahmen umgehen können. Es müssen neue Gefahrenmodelle entwickelt werden, um neue Formen des Missbrauchs von künstlicher Intelligenz zu verhindern. Dabei reicht es bei Weitem nicht aus, die herkömmlichen Angriffsflächen über Fuzzingaktivitäten oder Eingabemanipulationen zu identifizieren – diese Angriffe verfügen längst über eigene KI-spezifische Elemente. KI-/ML-spezifische Szenarios müssen vielmehr vollständig integriert werden. Die wichtigsten Angriffsflächen sind die Schnittstellen der KI-Benutzeroberfläche, wie Sprache, Videos und Gesten. Die damit verbundenen Bedrohungen wurden bisher nicht modelliert. Beispielsweise können Videoinhalte jetzt so angepasst werden, dass sie physische Auswirkungen erzeugen. Es konnte auch nachgewiesen werden, dass Angriffsbefehle audiobasiert erstellt werden können [9].

Die Unvorhersehbarkeit, Kreativität und Böswilligkeit von Kriminellen, Angreifern und Trollen macht es erforderlich, dass KI-Systeme mit Resilienz und Umsicht ausgestattet werden:

Resilienz: Das System sollte in der Lage sein, abnormales Verhalten zu erkennen und Manipulation oder Nötigung außerhalb der normalen Grenzen akzeptablen Verhaltens in Bezug auf das KI-System und die spezifische Aufgabe zu verhindern. Dies sind die neue Angriffsformen auf KI-/ML-Systeme. Systeme müssen Eingaben abwehren, die nicht im Einklang mit den jeweils geltenden Gesetzen, ethischen Grundsätzen und den Werten der Community und Entwickler stehen. Das heißt, künstliche Intelligenz muss erkennen, wann eine Interaktion den „richtigen Pfad“ verlässt. Dafür stehen folgende Möglichkeiten zur Verfügung:

Identifizieren einzelner Benutzer, die von der Norm (der verschiedenen Cluster ähnlicher Benutzer) abweichen, weil sie beispielsweise zu schnell tippen, zu schnell reagieren, nicht zu schlafen scheinen oder ungewöhnliche Komponenten des Systems auslösen
Identifizieren von Verhaltensmustern, die bekannte Indikatoren für böswillige Probingangriffe und die erste Phase der Cyber Kill Chain für Netzwerkangriffe darstellen
Erkennen koordinierter Vorgänge mehrerer Benutzer, z. B. unerklärliche, aber absichtliche identische Abfragen durch verschiedene Benutzer, plötzliche Spitzen bei der Anzahl der Benutzer oder plötzliche Spitzen bei der Nutzung bestimmter Komponenten eines KI-Systems

Diese Art von Angriffe sollten wie Denial-of-Service-Angriffe behandelt werden, da sie möglicherweise Fehlerbehebungen und erneutes Training erfordern, um eine Wiederholung künftig ausschließen zu können. Umso wichtiger ist das Erkennen böswilliger Absichten, wenn Gegenmaßnahmen verfügbar sind, wie etwa die Maßnahmen zur Abwehr von Standpunktanalyse-APIs [4].

Beschreibung: KI sollte ein verantwortungsvoller und vertrauenswürdiger Verwalter aller aller Informationen sein, auf die sie Zugriff hat. Menschliche Benutzer bringen KI-Systemen und den entsprechenden Agents zweifellos ein gewisses Maß an Vertrauen entgegen. Diese Agents kommunizieren in unserem Namen früher oder später mit anderen Agents oder auch Personen. Dabei müssen wir darauf vertrauen können, dass das KI-System bei der Weitergabe von Informationen umsichtig vorgeht und nur die Daten weitergibt, die zur Durchführung der Aufgaben durch den anderen Agent erforderlich sind. Es ist auch nicht nötig, dass alle Agents, die im Namen eines Benutzers mit dessen persönlichen Daten interagieren, globalen Zugriff darauf erhalten. Bei allen Datenzugriffsszenarios mit mehreren KI- oder Bot-Agents sollte die Dauer des Zugriffs auf ein Minimum beschränkt sein. Benutzer sollten auch in der Lage sein, Daten abzulehnen und die Authentifizierung von Agenten bestimmter Unternehmen oder Standorte abzulehnen, so wie Webbrowser heute das Blockieren von Websites ermöglichen. Zur Lösung dieses Problems sind neue Konzepte zur Authentifizierung zwischen Agents und für Datenzugriffsberechtigungen vonnöten, wie etwa die cloudbasierte Benutzerauthentifizierung zu Beginn des Cloud Computing-Zeitalters.

KI muss die Voreingenommenheit anderer erkennen lernen, ohne selbst voreingenommen zu agieren

Es scheint paradox: Obwohl das Verhalten künstlicher Intelligenz fair und ausgewogen sein sollte, und keinerlei Gruppen von Menschen oder gültigen Ergebnissen ausgeschlossen werden sollen, muss KI gleichzeitig über ein grundsätzliches Verständnis von Voreingenommenheit verfügen, um dieses Ziel zu erreichen. Wird KI nicht darauf trainiert, Voreingenommenheit, Trolle und Sarkasmus zu erkennen, kann sie von Schlaubergern hinters Licht geführt und reingelegt werden, oder, im schlimmsten Fall, kann Kunden sogar geschadet werden.

Dafür braucht es „gute Leute, die der künstlichen Intelligenz schlechte Dinge beibringen“, und ein umfassendes und sich ständig weiterentwickelndes Bild von kulturellen Voreingenommenheiten aufbauen. Ein KI-System sollte einen Benutzer erkennen, mit dem es in der Vergangenheit negativen Kontakt hatte, und künftig Vorsicht walten lassen – vergleichbar mit elterlichen Warnungen vor Fremden. Dies kann am besten erreicht werden, indem die künstliche Intelligenz auf kontrollierte, moderierte und begrenzte Weise dem Umgang mit Trollen ausgesetzt wird. So lernt das KI-System zu unterscheiden zwischen harmlosen Benutzern, die „mal Dampf ablassen wollen“ und wirklich böswilligen Trollen. Trolle generieren Datenströme, die für das KI-Training sehr wertvoll sind, da sie die Resilienz gegenüber künftigen Angriffen erhöhen.

Auch in Trainingsdatasets sollte KI Voreingenommenheiten erkennen können. Diese können kultureller oder regionaler Natur sein, sprachliche Eigenheiten bestimmter Gesellschaftsgruppen oder Themen und Standpunkte enthalten, die auf eine bestimmte Gruppe schließen lassen. Wie bei böswillig eingeschleusten Trainingsdaten darf künstliche Intelligenz keine Auswirkungen durch diese Daten auf die eigenen Rückschlüsse und Ableitungen zulassen. Dabei geht es im Grunde um die Validierung von Eingaben, wie man es von der Überprüfung von Grenzen kennt. Doch anstatt um Pufferlängen und Offsets geht es hier um rot markierte Wörter aus einer riesigen Menge von Quellen. Dabei spielen auch der Konversationsverlauf und der Kontext, in dem die Wörter verwendet werden, eine Rolle. So wie dem Front-End herkömmlicher Webdienst-APIs umfassende Verteidigungsstrategien in mehreren Schichten hinzugefügt werden, sollten auch bei der Erkennung und Vermeidung von Voreingenommenheiten mehrere Schutzebenen zum Einsatz kommen.

Machine Learning-Algorithmen müssen das Einschleusen von Daten in böswilliger Absicht von höchst unwahrscheinlichen, aber unschädlichen Ereignissen („Schwarzer Schwan“) unterscheiden können

Zahlreiche Whitepapers wurden bereits veröffentlicht über das theoretische Potenzial der Manipulation von ML-Modellen und -Klassifizierern sowie deren Extraktion/Diebstahl aus Diensten, bei denen Angreifer Zugriff auf das Trainingsdataset hatten und zudem wussten, wie das Modell funktioniert [2, 3, 6, 7]. Das eigentliche Problem besteht darin, dass alle ML-Klassifizierer durch Angreifer ausgetrickst werden können, die Einfluss auf das Trainingsdataset besitzen. Dabei müssen Angreifer nicht einmal das vorhandene Trainingsdataset ändern. Es genügt, wenn sie eigene Eingaben hinzufügen und erreichen, dass diese im Laufe der Zeit als vertrauenswürdig eingestuft werden, weil der ML-Klassifizierer bösartige Daten von anormalen, aber echten Daten nicht unterscheiden kann.

Dieses Problem mit der Lieferkette von Trainingsdaten führt direkt zum Konzept der „Entscheidungsintegrität“: der Fähigkeit, böswillig eingeschleuste Trainingsdaten oder Benutzereingaben zu erkennen und abzuweisen, bevor sie einen negativen Einfluss auf das Klassifizierungsverhalten entfalten können. Dieses Konzept beruht darauf, dass vertrauenswürdige Trainingsdaten mit höherer Wahrscheinlichkeit vertrauenswürdige Ergebnisse bzw. Entscheidungen erzeugen. KI-Systeme sollten weiterhin mit nicht vertrauenswürdigen Daten trainiert werden, um sie widerstandsfähiger zu machen. Denn bösartige Daten sollten erkannt werden, bevor sie Teil der vertrauenswürdigen Trainingsdaten werden. Andernfalls könnten KI-Systeme dazu verleitet werden, auf Trolle überzureagieren und auch berechtigten Benutzern den Zugriff auf den Dienst zu verweigern.

Dies betrifft insbesondere unbeaufsichtigte Lernalgorithmen, die nicht kuratierte oder nicht vertrauenswürdige Trainingsdatasets verwenden. In diesem Fall können Angreifer beliebige Daten einschleusen, solange das Datenformat gültig ist. Wird der Algorithmus damit trainiert, vertraut das System diesem Datenpunkt des Trainingssets in demselben Maße wie allen anderen Datenpunkten. Bei ausreichend vielen dieser Eingaben verliert der Trainingsalgorithmus die Fähigkeit, zwischen unnötigen und anomalen Daten einerseits und Daten mit hoher Vertrauenswürdigkeit anderseits zu unterscheiden.

Ein Beispiel für eine solche Bedrohung ist eine Datenbank bestehend aus Stoppschildern aus der ganzen Welt in der jeweiligen Landessprache. Eine solche Datenbank wäre aufgrund der Vielzahl an Bildern und Sprachen eine große Herausforderung. Böswillig diesem Dataset hinzugefügte Daten blieben wohl lange Zeit unentdeckt, bis zu dem Moment, in dem selbstfahrende Fahrzeuge nicht mehr in der Lage wären, Stoppschilder zu erkennen. Daher müssen gleichermaßen Maßnahmen zur Erhöhung der Datenresilienz als auch solche zur Stärkung der Entscheidungsintegrität ergriffen werden, um Trainingsschäden durch böswillige Daten zu erkennen und zu beheben, damit sie nicht dauerhaft Teil des Machine Learning-Modells werden.

KI benötigt integrierte Sicherheitsprotokolle und forensische Funktionen für mehr Transparenz und Verantwortlichkeit

Eines Tages wird künstliche Intelligenz in unserem Auftrag auch an höchst kritischen Entscheidungsprozessen beteiligt sein. Beispielsweise könnten KI-Systeme an der Durchführung von finanziellen Transaktionen mitwirken. Könnten die Transaktionen bei einem Angriff auf das KI-System auf eine beliebige Weise manipuliert werden, hätte dies möglicherweise sowohl persönliche als auch systemische Folgen. In hochwertigen Szenarios benötigen KI-Systeme ausreichende und juristisch belegbare Maßnahmen zur Sicherheitsprotokollierung, um Integrität, Transparenz, und Verantwortlichkeit zu gewährleisten, bis hin zu gerichtlich verwertbaren Beweisen bei Fragen der zivil- oder strafrechtlichen Haftung.

Dafür sind für kritische KI-Dienste Funktionen zur Überwachung und Ereignisablaufverfolgung auf Algorithmusebene erforderlich, damit Entwickler bei einer falschen Entscheidung den aufgezeichneten Status eines bestimmten Klassifizierers überprüfen können. Diese Funktion muss branchenweit umgesetzt werden, um bei Zweifeln an der Richtigkeit einer KI-generierten Entscheidung deren Korrektheit und Transparenz beweisen zu können.

Funktionen zur Ereignisablaufverfolgung könnten zunächst etwa folgende grundlegende Entscheidungsinformationen korrelieren:

den Zeitraum des letzten Trainingsereignisses
den Zeitstempel des neuesten Dataseteintrags, mit dem trainiert wurde
Gewichtungen und die Zuverlässigkeit von wichtigen Klassifizierern, die für Entscheidungen mit großer Tragweite herangezogen wurden
die an der Entscheidung beteiligten Klassifizierer und Komponenten
die endgültige, hochwertige Entscheidung durch den Algorithmus

Ein solches Ausmaß an Ablaufverfolgung wäre für die meisten algorithmusgestützten Entscheidungen zu viel des Guten. Doch stellt die Möglichkeit, diejenigen Datenpunkte und Algorithmusmetadaten zu identifizieren, die zu bestimmten Ergebnissen führen, einen großen Vorteil bei hochwertigen Entscheidungen dar. Diese Funktionen erhöhen einerseits die Vertrauenswürdigkeit und Integrität eines Systems, da die Vorgehensweise des Algorithmus nachvollzogen werden kann. Andererseits können diese Daten auch als Grundlage für Feinabstimmungen und Optimierungen dienen.

Eine weitere forensische Funktion ist das Erkennen von Manipulationen in KI-/ML-Systemen. So wie künstliche Intelligenz in der Lage sein sollte, Voreingenommenheit zu erkennen und sich nicht davon beeinflussen zu lassen, so sollten Experten mithilfe von forensischen Funktionen diese Art von Angriffe erkennen und darauf reagieren können. Werden solche forensischen Funktionen mit Techniken zur Datenvisualisierung kombiniert [10], können sie von unschätzbarem Wert für die Überwachung, das Debuggen und die Optimierung von Algorithmen sein, um noch effektivere Ergebnisse zu erhalten.

KI muss vertrauliche Informationen auch ohne Zutun der Benutzer schützen

Für ein bestmögliches Benutzererlebnis sind große Mengen von Daten erforderlich. Weltweit stellen Menschen bereitwillig riesige Datenmengen zur Verfügung, anhand derer ML-Modelle trainiert werden können. Diese Informationen reichen von gestreamten Alltagsvideos bis hin zu Kreditkartenkäufen und Finanztransaktionsverläufen zur Aufdeckung von Betrug. Künstliche Intelligenz sollte bei der Verarbeitung von Benutzerdaten sehr gewissenhaft und umsichtig vorgehen, und den Schutz von freiwillig und freizügig geteilten Daten stets im Blick behalten.

KI-Systeme kommunizieren auch mit einer authentifizierten Gruppe von Partnersystemen, um komplexe Aufgaben durchführen zu können. Auch hier muss der Umfang der freigegebenen Daten streng begrenzt werden.

Erste Beobachtungen für die Behandlung von Sicherheitsproblemen im Zusammenhang mit KI

Obwohl dieses Projekt noch nicht abgeschlossen ist, sind wir der Meinung, dass die bisher gewonnenen Erkenntnisse belegen, dass für eine Verbesserung der Zuverlässigkeit und Sicherheit von KI-/ML-Produkten und -Diensten eine gründliche Erforschung der unten aufgeführten Bereiche erforderlich ist. Die folgende Auflistung der auf diesem Gebiet anstehenden Aufgaben ist das Ergebnis der ersten Beobachtungen und bisher gesammelten Informationen:

Neu eingerichtete Überwachungsstellen für KI-/ML-basierte Penetrationstests und Sicherheitsüberprüfungen könnten sicherstellen, dass künftige KI-Systeme auf gemeinsam festgelegten Werten aufbauen und an den KI-Leitsätzen von Asilomar ausgerichtet sind.
1. Eine solche Stelle könnte auch Tools und Frameworks zur Sicherung von KI-/ML-basierten Diensten entwickeln, die branchenweit genutzt werden könnten.
2. Diese Kompetenz würde mit der Zeit wachsen und letztlich zum Grundlagenwissen in dieser Branche gehören, vergleichbar mit der Entwicklung der Kenntnisse zu traditionellen Sicherheitsstrategien in den letzten zehn Jahren.
Es könnten Schulungen entwickelt werden, um Unternehmen bei der Ausrichtung auf Zielsetzungen wie die Demokratisierung von künstlicher Intelligenz sowie dem Umgang mit den hier beschriebenen Herausforderungen zu unterstützen.
1. Schulungen mit dem Schwerpunkt KI-Sicherheit könnten bei Technikern und Entwicklern das Bewusstsein für die Risiken und Gefahren schärfen, die dem KI-System und den ihnen zur Verfügung stehenden Ressourcen drohen. Die Schulungsinhalte müssten auch aktuelle Informationen zum Schutz von Kundendaten umfassen.
2. Dabei müsste nicht jeder Datenanalyst gleich zum Sicherheitsexperten ausgebildet werden. Es wäre ausreichend, wenn Entwickler ihre Kompetenzen in den Bereichen Resilienz und Umsicht für die Anwendungsfälle ihres KI-Systems weiterentwickelten.
3. Entwickler müssten sich mit den sicheren Bausteinen eines KI-Diensts auskennen, die dann im gesamten Unternehmen verwendet würden. Ein Schwerpunkt läge dabei auf einem fehlertoleranten Entwurfsdesign, basierend auf leicht deaktivierbaren Subsystemen (beispielsweise Bildprozessoren oder Textparser).
ML-Klassifizierer und die ihnen zugrunde liegenden Algorithmen könnten so gut trainiert werden, dass sie schädliche Trainingsdaten erkennen, ohne dass die gültigen Trainingsdaten beeinträchtigt oder die Ergebnisse verzerrt würden.
1. Methoden wie das Zurückweisen von negativen Eingaben [5] erfordern die Überprüfung durch Forschergruppen.
2. Dies beinhaltet eine mathematische Überprüfung, einen Proof of Concept des Codes sowie Tests anhand schädlicher und harmloser anomaler Daten.
3. Bei diesem Schritt könnte eine stichprobenartige Überprüfung oder Moderation durch einen menschlichen Mitarbeiter sinnvoll sein, besonders bei statistischen Anomalien.
4. Spezielle Klassifizierer mit einem umfassenderen Verständnis für die Risiken und Gefahren könnten für mehrere KI-Systeme erstellt werden. Dies würde die Sicherheit der Systeme deutlich erhöhen, da Angreifer nicht mehr ein bestimmtes Modell abschöpfen könnten.
5. KIs könnten miteinander verknüpft werden, um Bedrohungen systemübergreifend zu erkennen.
Eine zentrale Bibliothek für ML-Überwachungen und forensische Informationen könnte Standards hinsichtlich Transparenz und Vertrauenswürdigkeit von künstlicher Intelligenz schaffen.
1. Es könnten auch Abfragefunktionen für die Überwachung und Wiederherstellung von Entscheidungen mit großen Auswirkungen auf ein Unternehmen erstellt werden.
Die von Angreifern über kulturelle Grenzen hinweg und in allen sozialen Netzwerken verwendeten sprachlichen Besonderheiten könnten durch KI kontinuierlich inventarisiert und analysiert werden, um Trolle, Sarkasmus usw. zu erkennen und entsprechend darauf reagieren zu können.
1. Künstliche Intelligenz darf durch keinerlei sprachliche Besonderheiten beeinflussbar sein – ob nun fachsprachlicher, regionaler oder forumsspezifischer Natur.
2. Dieses gesammelte Wissen könnte auch zur Automatisierung der Filterung, Kennzeichnung und Blockierung von Inhalten genutzt werden, um die Skalierbarkeitsprobleme von Moderatoren zu beheben.
3. Eine solche globale Datenbank mit Begriffen könnte in Entwicklungsbibliotheken gehostet oder sogar über Clouddienst-APIs anderen KI-Systemen verfügbar gemacht werden, wodurch neue Systeme von den gesammelten Erfahrungen älterer Systeme profitieren könnten.
Eine Art „Fuzzingframework für Machine Learning“ könnte erstellt werden, über das Experten verschiedene Arten von Angriffen in Testtrainingsdatasets einfügen könnten für eine Auswertung durch das KI-System.
1. Dieses könnte neben Text auch bild-, sprach- und gestenbasierte Daten enthalten sowie Permutationen dieser Datentypen.

Zusammenfassung

Die KI-Leitsätze von Asilomar machen die Komplexität deutlich, die in einer für die Allgemeinheit nützlichen Art der Bereitstellung von KI liegt. Für ein überzeugendes und reichhaltiges Benutzererlebnis müssen KIs in Zukunft mit anderen KI-Systemen interagieren. Das heißt nichts anderes, als dass es nicht ausreicht, wenn Microsoft seine Hausaufgaben in Sachen KI-Sicherheit erledigt – dies muss weltweit geschehen. Dazu ist eine branchenweite Ausrichtung und Kooperation nötig, die die hier angesprochenen Themen stärker in das Licht der Öffentlichkeit rückt, ähnlich wie der Ruf nach einer Digitalen Genfer Konvention [8]. Indem wir die hier dargelegten Probleme gemeinsam mit unseren Kunden und Branchenpartnern mutig angehen, machen wir den ersten Schritt in Richtung einer wahren Demokratisierung von künstlicher Intelligenz, von der die gesamte Menschheit profitiert.

Quellenangaben

[1] Taleb, Nassim Nicholas (2007): The Black Swan: The Impact of the Highly Improbable. Random House.ISBN 978-1400063512. (Auch in der deutschen Übersetzung verfügbar.)

[2] Tramèr, Florian; Zhang, Fan; Juels, Ari; Reiter, Michael K.; Ristenpart, Thomas: Stealing Machine Learning Models via Prediction APIs.

[3] Satya Nadella: The Partnership of the Future

[4] Claburn, Thomas: Google's troll-destroying AI can't cope with typos

[5] Marco Barreno, Blaine Nelson, Anthony D. Joseph, J.D. Tygar: The security of machine learning

[6] Wolchover, Natalie: This Artificial Intelligence Pioneer Has a Few Concerns

[7] Conn, Ariel: How Do We Align Artificial Intelligence with Human Values?

[8] Smith, Brad: The need for urgent collective action to keep people safe online: Lessons from last week’s cyberattack

[9] Nicholas Carlini, Pratyush Mishra, Tavish Vaidya, Yuankai Zhang, Micah Sherr, Clay Shields, David Wagner, Wenchao Zhou: Hidden Voice Commands

[10] Fernanda Viégas, Martin Wattenberg, Daniel Smilkov, James Wexler, Jimbo Wilson, Nikhil Thorat, Charles Nicholson, Google Research: Big Picture

Freigeben über