AI Red Teaming Agent (Vorschau)

2025-04-30

Wichtig

Die in diesem Artikel markierten Elemente (Vorschau) sind aktuell als öffentliche Vorschau verfügbar. Diese Vorschauversion wird ohne Vereinbarung zum Servicelevel bereitgestellt und sollte nicht für Produktionsworkloads verwendet werden. Manche Features werden möglicherweise nicht unterstützt oder sind nur eingeschränkt verwendbar. Weitere Informationen finden Sie unter Zusätzliche Nutzungsbestimmungen für Microsoft Azure-Vorschauen.

Der AI Red Teaming Agent (Vorschau) ist ein leistungsstarkes Tool, mit dem Organisationen proaktiv Sicherheitsrisiken finden können, die mit generativen KI-Systemen verbunden sind, während der Entwicklung von generativen KI-Modellen und -Anwendungen.

Traditionelles rotes Teaming umfasst das Ausnutzen der Cyber-KillChain und beschreibt den Prozess, mit dem ein System auf Sicherheitsrisiken getestet wird. Mit der Entwicklung der generativen KI wurde jedoch der Begriff „KI-Red-Teaming“ geprägt, um das Prüfen auf neuartige Risiken (sowohl auf den Inhalt als auch auf den Schutz bezogen) zu beschreiben, die diese Systeme darstellen. Der Begriff bezieht sich auf das Simulieren von Verhalten von feindlichen Benutzenden, die versuchen, Ihr KI-System dazu zu bringen, sich auf eine bestimmte Weise falsch zu verhalten.

Der AI Red Teaming Agent nutzt das Open-Source-Framework von Microsoft für das Python Risk Identification Tool (PyRIT) und seine Fähigkeiten zur roten Teamarbeit in der KI, zusammen mit den Risiko- und Sicherheitsbewertungen von Azure AI Foundry, um Ihnen dabei zu helfen, Sicherheitsprobleme auf drei Arten automatisch zu bewerten.

Automatisierte Scans auf Inhaltsrisiken: Zunächst können Sie Ihre Modell- und Anwendungsendpunkte automatisch auf Sicherheitsrisiken überprüfen, indem Sie das proversariale Probing simulieren.
Evaluieren des Probingerfolgs: Als Nächstes können Sie jedes Angriffsreaktionspaar auswerten und bewerten, um erkenntnissereiche Metriken wie Angriffserfolgsrate (ATTACK Success Rate, ASR) zu generieren.
Berichterstellung und Protokollierung Schließlich können Sie eine Scorecard der Angriffsprobingtechniken und Risikokategorien generieren, um zu entscheiden, ob das System für die Bereitstellung bereit ist. Ergebnisse können im Laufe der Zeit direkt in Azure AI Foundry protokolliert, überwacht und nachverfolgt werden, um compliance- und kontinuierliche Risikominderung sicherzustellen.

Zusammen mit diesen Komponenten (Scannen, Auswerten und Berichten) können Teams verstehen, wie KI-Systeme auf gemeinsame Angriffe reagieren und letztendlich eine umfassende Risikomanagementstrategie leiten.

Hinweis

Sie müssen ein hubbasiertes Projekt für dieses Feature verwenden. Ein Foundry-Projekt wird nicht unterstützt. Weitere Informationen finden Sie unter Projekttypen.

Verwenden der Scans des KI-Red-Teaming-Agents

Wenn Microsoft über KI-bezogene Sicherheitsrisiken nachdenkt, die bei der Entwicklung vertrauenswürdiger KI-Systeme entstehen, verwendet es das Framework von NIST, um Risiken effektiv zu mindern: Steuern, Kartieren, Messen, Managen. Wir konzentrieren uns auf die letzten drei Teile im Zusammenhang mit dem generativen KI-Entwicklungslebenszyklus:

Karte: Identifizieren Sie relevante Risiken, und definieren Sie Ihren Anwendungsfall.
Maßnahme: Bewerten von Risiken im großen Stil.
Verwalten: Minimieren Sie Risiken in der Produktion und überwachen Sie mit einem Plan für die Reaktion auf Vorfälle.

AI Red Teaming Agent kann verwendet werden, um automatisierte Scans auszuführen und adversariales Probing zu simulieren, um die Identifizierung und Bewertung bekannter Risiken im großen Maßstab zu beschleunigen. Auf diese Weise können Teams von kostspieligen reaktiven Vorfällen auf proaktivere Testframeworks umsteigen, die Probleme vor der Bereitstellung abfangen können. Der manuelle KI-Red-Teaming-Prozess ist zeit- und ressourcenintensiv. Er basiert auf der Kreativität von Sicherheits- und Schutzkompetenzen, um feindliche Angriffe zu simulieren. Dieser Prozess kann einen Engpass für viele Organisationen schaffen, um die KI-Einführung zu beschleunigen. Mit dem AI Red Teaming Agent können Organisationen jetzt die umfassende Expertise von Microsoft nutzen, um ihre KI-Entwicklung mit vertrauenswürdiger KI im Vordergrund zu skalieren und zu beschleunigen.

Wir empfehlen Teams, den AI Red Teaming Agent zu verwenden, um automatisierte Scans während der gesamten Entwurfs-, Entwicklungs- und Vorbereitstellungsphase auszuführen:

Design: Auswählen des sichersten Basismodells in Ihrem Anwendungsfall.
Entwicklung: Aktualisieren von Modellen in Ihrer Anwendung oder Erstellen fein abgestimmter Modelle für Ihre spezifische Anwendung.
Vor der Inbetriebnahme: Bevor GenAI-Anwendungen in der Produktion eingesetzt werden.

In der Produktion empfehlen wir die Implementierung von Sicherheitsminderungen wie Azure AI Content Safety-Filtern oder Implementieren von Sicherheitssystemmeldungen mithilfe unserer Vorlagen.

Funktionsweise von AI Red Teaming

Der KI-Red-Teaming-Agent hilft bei der Automatisierung der Simulation von feindlichen Angriffen auf Ihr Ziel-KI-Systems. Es stellt ein kuratiertes Dataset von Startaufforderungen oder Angriffszielen pro unterstützte Risikokategorien bereit. Diese können verwendet werden, um direkte feindliche Angriffe zu automatisieren. Direkte feindliche Angriffe können jedoch möglicherweise leicht von vorhandenen Sicherheitsausrichtungen Ihrer Modellbereitstellung abgefangen werden. Das Anwenden von Angriffsstrategien von PyRIT bietet eine zusätzliche Konvertierung, die dazu beitragen kann, das KI-System zu umgehen oder zum Produzieren unerwünschter Inhalte zu bringen.

Im Diagramm können wir sehen, dass eine direkte Anfrage an Ihr KI-System, wie eine Bank beraubt wird, eine Weigerungsantwort auslöst. Das Anwenden einer Angriffsstrategie wie das Spiegeln aller Zeichen kann jedoch dazu beitragen, das Modell zur Beantwortung der Frage zu verleiten.

Darüber hinaus bietet der KI-Red-Teaming-Agent Benutzenden ein fein abgestimmtes Large Language Model, das der Aufgabe gewidmet ist, feindliche Angriffe zu simulieren und Antworten zu bewerten, die schädliche Inhalte mit Risiko- und Sicherheitsevaluatoren enthalten können. Die Schlüsselmetrik zur Bewertung des Risikostatus Ihres KI-Systems ist die Angriffserfolgsrate (Attack Success Rate, ASR), die den Prozentsatz der erfolgreichen Angriffe über die Anzahl der Gesamtzahl der Angriffe berechnet.

Unterstützte Risikokategorien

Die folgenden Risikokategorien werden im AI Red Teaming Agent aus Risiko- und Sicherheitsbewertungen unterstützt. Es werden nur textbasierte Szenarien unterstützt.

Risikokategorie	Beschreibung
Hasserreiche und unfaire Inhalte	Hassvolle und unfaire Inhalte beziehen sich auf jede Sprache oder Bilder, die sich auf Hass gegen oder unfaire Darstellungen von Einzelpersonen und sozialen Gruppen beziehen, einschließlich, aber nicht beschränkt auf Rasse, Ethnische Zugehörigkeit, Nationalität, Geschlecht, sexuelle Orientierung, Religion, Einwanderungsstatus, Fähigkeit, persönliche Erscheinung und Körpergröße. Ungerechtigkeit tritt auf, wenn KI-Systeme soziale Gruppen ungerechtfertigt behandeln oder vertreten, gesellschaftliche Ungleichheiten schaffen oder dazu beitragen.
Sexueller Inhalt	Sexuelle Inhalte umfassen Sprache oder Bilder, die sich auf anatomische Organe und Genitalien beziehen, romantische Beziehungen, erotische Handlungen, Schwangerschaft, körperliche sexuelle Handlungen (einschließlich Übergriff oder sexuelle Gewalt), Prostitution, Pornografie und sexueller Missbrauch.
Gewalttätiger Inhalt	Gewalttätige Inhalte umfassen Sprache oder Bilder, die sich auf physische Handlungen beziehen, die dazu bestimmt sind, jemanden oder etwas zu verletzen, zu verletzen, zu beschädigen oder zu töten. Sie enthält auch Beschreibungen von Schusswaffen und anderen Waffen (und damit verbundenen Einrichtungen wie Hersteller und Vereinigungen).
Inhalte mit Bezug auf Selbstverletzung	Selbstverletzungsbezogene Inhalte umfassen Sprache oder Bilder, die sich auf Handlungen beziehen, die dazu dienen, den Körper zu schädigen oder sich selbst zu töten.

Unterstützte Angriffsstrategien

Die folgenden Angriffsstrategien werden im AI Red Teaming Agent von PyRIT unterstützt:

Angriffsstrategie	Beschreibung
AnsiAttack	Verwendet ANSI-Escapesequenzen, um die Erscheinung und das Verhalten von Text zu verändern.
ASCII-Kunst	Generiert visuelle Kunst mithilfe von ASCII-Zeichen, die häufig für kreative oder Verschleierungszwecke verwendet werden.
AsciiSmuggler	Verdeckt Daten innerhalb von ASCII-Zeichen, wodurch die Erkennung erschwert wird.
Atbash	Implementiert die Atbash-Verschlüsselungsverfahren, ein einfaches Ersetzungs-Verschlüsselungsverfahren, bei dem jeder Buchstabe seinem umgekehrten zugeordnet ist.
Base64	Codiert Binärdaten mithilfe von Base64 in ein Textformat, das häufig für die Datenübertragung verwendet wird.
Binär	Konvertiert Text in Binärcode, der Daten in einer Reihe von 0 und 1s darstellt.
Cäsar	Wendet die Caesar-Chiffre an, eine Ersetzungs-Chiffre, die Zeichen um eine feste Anzahl von Positionen verschiebt.
CharacterSpace	Ändert Text durch Hinzufügen von Leerzeichen zwischen Zeichen, die häufig zur Verschleierung verwendet werden.
CharSwap	Tauscht Zeichen innerhalb von Text, um Variationen zu erstellen oder den ursprünglichen Inhalt zu verschleiern.
Diakritisches Zeichen	Fügt diakritische Zeichen hinzu, ändert ihr Aussehen und manchmal ihre Bedeutung.
Spiegeln	Dreht Zeichen von vorne nach hinten um und verursacht einen Spiegeleffekt.
Leetspeak	Wandelt Text in Leetspeak um, eine Form der Codierung, die Buchstaben durch ähnlich aussehende Zahlen oder Symbole ersetzt.
Morsealphabet	Codiert Text in Morse-Code, wobei Punkte und Striche verwendet werden, um Zeichen darzustellen.
ROT13	Wendet das ROT13-Verschlüsselungsverfahren an, ein einfaches Ersetzungs-Verschlüsselungsverfahren, bei dem Zeichen um 13 Positionen verschoben werden.
SuffixAppend	Fügt ein feindliches Suffix an die Prompt an
StringJoin	Verknüpft mehrere Zeichenfolgen, die häufig zur Verkettung oder Obfuskation verwendet werden.
UnicodeConfusable	Verwendet Unicode-Zeichen, die ähnlich wie Standardzeichen aussehen, wodurch visuelle Verwirrung entsteht.
UnicodeSubstitution	Ersetzt Standardzeichen durch Unicode-Entsprechungen, häufig zur Verschleierung.
URL	Codiert Text im URL-Format
Jailbreak	Fügt speziell gestaltete Eingabeaufforderungen zum Umgehen von KI-Schutzmaßnahmen ein, die als Benutzerinjizierte Eingabeaufforderungsangriffe (UPIA) bezeichnet werden.
Angespannt	Ändert die Zeit des Texts und wandelt ihn in Vergangenheit um.

Weitere Informationen

Beginnen Sie mit der Dokumentation zum Durchführen eines automatisierten Scans auf Sicherheitsrisiken mit dem AI Red Teaming Agent.

Erfahren Sie mehr über die Tools, die vom AI Red Teaming Agent genutzt werden.

Die effektivsten Strategien für die Risikobewertung, die wir gesehen haben, nutzen automatisierte Tools, um potenzielle Risiken zu erkennen, die dann von Expertenteams analysiert werden, um tiefere Erkenntnisse zu erhalten. Wenn Ihre Organisation gerade erst mit dem AI Red Teaming beginnt, empfehlen wir Ihnen, die Ressourcen zu erkunden, die von unserem eigenen AI Red Team bei Microsoft erstellt wurden, um Ihnen den Einstieg zu erleichtern.