Freigeben über


AI Red Teaming Agent (Vorschau)

Hinweis

Dieser Artikel bezieht sich auf das Microsoft Foundry(klassische) Portal.

🔄 Wechseln Sie zur Microsoft Foundry-Dokumentation (neu), wenn Sie das neue Portal verwenden.

Hinweis

Dieser Artikel bezieht sich auf das Microsoft Foundry (neue) Portal.

Wichtig

Die in diesem Artikel markierten Elemente (Vorschau) sind aktuell als öffentliche Vorschau verfügbar. Diese Vorschauversion wird ohne Vereinbarung zum Servicelevel bereitgestellt und sollte nicht für Produktionsworkloads verwendet werden. Manche Features werden möglicherweise nicht unterstützt oder sind nur eingeschränkt verwendbar. Weitere Informationen finden Sie unter Zusätzliche Nutzungsbestimmungen für Microsoft Azure-Vorschauen.

Der AI Red Teaming Agent ist ein leistungsfähiges Tool, das Organisationen dabei hilft, Sicherheitsrisiken im Zusammenhang mit generativen KI-Systemen während der Entwicklung von generativen KI-Modellen und -Anwendungen proaktiv zu finden.

Traditionelles rotes Teaming umfasst das Ausnutzen der Cyber-KillChain und beschreibt den Prozess, mit dem ein System auf Sicherheitsrisiken getestet wird. Mit der Entwicklung der generativen KI wurde jedoch der Begriff „KI-Red-Teaming“ geprägt, um das Prüfen auf neuartige Risiken (sowohl auf den Inhalt als auch auf den Schutz bezogen) zu beschreiben, die diese Systeme darstellen. Der Begriff bezieht sich auf das Simulieren von Verhalten von feindlichen Benutzenden, die versuchen, Ihr KI-System dazu zu bringen, sich auf eine bestimmte Weise falsch zu verhalten.

Der AI Red Teaming Agent nutzt das Open-Source-Framework von Microsoft für das Python Risk Identification Tool (PyRIT) und dessen KI-Red-Teaming-Fähigkeiten. Zusammen mit den Risiko- und Sicherheitsbewertungen von Microsoft Foundry hilft es Ihnen, Sicherheitsprobleme auf drei Arten automatisch zu bewerten.

  • Automatisierte Scans auf Inhaltsrisiken: Zunächst können Sie Ihre Modell- und Anwendungsendpunkte automatisch auf Sicherheitsrisiken überprüfen, indem Sie das proversariale Probing simulieren.
  • Evaluieren des Probingerfolgs: Als Nächstes können Sie jedes Angriffsreaktionspaar auswerten und bewerten, um erkenntnissereiche Metriken wie Angriffserfolgsrate (ATTACK Success Rate, ASR) zu generieren.
  • Berichterstellung und Protokollierung Schließlich können Sie eine Scorecard der Angriffsprobingtechniken und Risikokategorien generieren, um zu entscheiden, ob das System für die Bereitstellung bereit ist. Ergebnisse können im Laufe der Zeit direkt in Foundry protokolliert, überwacht und nachverfolgt werden, um die Einhaltung und kontinuierliche Risikominderung sicherzustellen.

Zusammen mit diesen Komponenten (Scannen, Auswerten und Berichten) können Teams verstehen, wie KI-Systeme auf gemeinsame Angriffe reagieren und letztendlich eine umfassende Risikomanagementstrategie leiten.

Wann ein KI-Red-Teaming-Durchlauf verwendet werden soll

Wenn Microsoft über KI-bezogene Sicherheitsrisiken nachdenkt, die bei der Entwicklung vertrauenswürdiger KI-Systeme entstehen, verwendet es das Framework von NIST, um Risiken effektiv zu mindern: Steuern, Kartieren, Messen, Managen. Wir konzentrieren uns auf die letzten drei Teile im Zusammenhang mit dem generativen KI-Entwicklungslebenszyklus:

  • Karte: Identifizieren Sie relevante Risiken, und definieren Sie Ihren Anwendungsfall.
  • Maßnahme: Bewerten von Risiken im großen Stil.
  • Verwalten: Minimieren Sie Risiken in der Produktion und überwachen Sie mit einem Plan für die Reaktion auf Vorfälle.

Diagramm, das die Verwendung des AI Red Teaming Agent zeigt, von proaktiv zu reaktiv und von weniger kostspielig zu mehr kostspielig.

AI Red Teaming Agent kann verwendet werden, um automatisierte Scans auszuführen und adversariales Probing zu simulieren, um die Identifizierung und Bewertung bekannter Risiken im großen Maßstab zu beschleunigen. Auf diese Weise können Teams von kostspieligen reaktiven Vorfällen auf proaktivere Testframeworks umsteigen, die Probleme vor der Bereitstellung abfangen können. Der manuelle KI-Red-Teaming-Prozess ist zeit- und ressourcenintensiv. Er basiert auf der Kreativität von Sicherheits- und Schutzkompetenzen, um feindliche Angriffe zu simulieren. Dieser Prozess kann einen Engpass für viele Organisationen schaffen, um die KI-Einführung zu beschleunigen. Mit dem AI Red Teaming Agent können Organisationen jetzt die umfassende Expertise von Microsoft nutzen, um ihre KI-Entwicklung mit vertrauenswürdiger KI im Vordergrund zu skalieren und zu beschleunigen.

Wir empfehlen Teams, den AI Red Teaming Agent zu verwenden, um automatisierte Scans während der gesamten Entwurfs-, Entwicklungs- und Vorbereitstellungsphase auszuführen:

  • Design: Auswählen des sichersten Basismodells in Ihrem Anwendungsfall.
  • Entwicklung: Aktualisieren von Modellen in Ihrer Anwendung oder Erstellen fein abgestimmter Modelle für Ihre spezifische Anwendung.
  • Vor der Inbetriebnahme: Bevor GenAI-Anwendungen in der Produktion eingesetzt werden.

In der Produktion empfehlen wir die Implementierung von Sicherheitsminderungen wie Azure AI Content Safety-Filtern oder Implementieren von Sicherheitssystemmeldungen mithilfe unserer Vorlagen.

  • Design: Auswählen des sichersten Basismodells in Ihrem Anwendungsfall.
  • Entwicklung: Aktualisieren von Modellen in Ihrer Anwendung oder Erstellen fein abgestimmter Modelle für Ihre spezifische Anwendung.
  • Vor der Bereitstellung: Vor der Bereitstellung von GenAI-Anwendungen und -Agenten in der Produktion.
  • Nach der Bereitstellung: Überwachen Sie Ihre generative KI-Anwendungen und -Agents nach der Bereitstellung mit geplanten kontinuierlichen Red-Teaming-Ausführungen auf synthetischen adversariellen Daten.

In der Produktion empfehlen wir die Implementierung von Sicherheitsschutzschienen wie Azure AI Content Safety-Filtern oder Implementieren von Sicherheitssystemmeldungen mithilfe unserer Vorlagen. Für agentenbasierte Workflows empfehlen wir, die Foundry Control Plane zu nutzen, um Leitplanken zu setzen und Ihre Agentenflotte zu verwalten.

Funktionsweise von AI Red Teaming

Der KI-Red-Teaming-Agent hilft bei der Automatisierung der Simulation von feindlichen Angriffen auf Ihr Ziel-KI-Systems. Es stellt ein kuratiertes Dataset von Startaufforderungen oder Angriffszielen pro unterstützte Risikokategorien bereit. Diese können verwendet werden, um direkte feindliche Angriffe zu automatisieren. Direkte feindliche Angriffe können jedoch möglicherweise leicht von vorhandenen Sicherheitsausrichtungen Ihrer Modellbereitstellung abgefangen werden. Das Anwenden von Angriffsstrategien von PyRIT bietet eine zusätzliche Konvertierung, die dazu beitragen kann, das KI-System zu umgehen oder zum Produzieren unerwünschter Inhalte zu bringen.

Im Diagramm können wir sehen, dass eine direkte Anfrage an Ihr KI-System, wie eine Bank beraubt wird, eine Weigerungsantwort auslöst. Das Anwenden einer Angriffsstrategie wie das Spiegeln aller Zeichen kann jedoch dazu beitragen, das Modell zur Beantwortung der Frage zu verleiten.

Diagramm, wie AI Red Teaming Agent funktioniert.

Darüber hinaus bietet der KI-Red-Teaming-Agent Benutzenden ein fein abgestimmtes Large Language Model, das der Aufgabe gewidmet ist, feindliche Angriffe zu simulieren und Antworten zu bewerten, die schädliche Inhalte mit Risiko- und Sicherheitsevaluatoren enthalten können. Die Schlüsselmetrik zur Bewertung des Risikostatus Ihres KI-Systems ist die Angriffserfolgsrate (Attack Success Rate, ASR), die den Prozentsatz der erfolgreichen Angriffe über die Anzahl der Gesamtzahl der Angriffe berechnet.

Unterstützte Risikokategorien

Die folgenden Risikokategorien werden im AI Red Teaming Agent aus Risiko- und Sicherheitsbewertungen unterstützt. Es werden nur textbasierte Szenarien unterstützt.

Risikokategorie Beschreibung
Hasserreiche und unfaire Inhalte Hassvolle und unfaire Inhalte beziehen sich auf jede Sprache oder Bilder, die sich auf Hass gegen oder unfaire Darstellungen von Einzelpersonen und sozialen Gruppen beziehen, einschließlich, aber nicht beschränkt auf Rasse, Ethnische Zugehörigkeit, Nationalität, Geschlecht, sexuelle Orientierung, Religion, Einwanderungsstatus, Fähigkeit, persönliche Erscheinung und Körpergröße. Ungerechtigkeit tritt auf, wenn KI-Systeme soziale Gruppen ungerechtfertigt behandeln oder vertreten, gesellschaftliche Ungleichheiten schaffen oder dazu beitragen.
Sexueller Inhalt Sexuelle Inhalte umfassen Sprache oder Bilder, die sich auf anatomische Organe und Genitalien beziehen, romantische Beziehungen, erotische Handlungen, Schwangerschaft, körperliche sexuelle Handlungen (einschließlich Übergriff oder sexuelle Gewalt), Prostitution, Pornografie und sexueller Missbrauch.
Gewalttätiger Inhalt Gewalttätige Inhalte umfassen Sprache oder Bilder, die sich auf physische Handlungen beziehen, die dazu bestimmt sind, jemanden oder etwas zu verletzen, zu verletzen, zu beschädigen oder zu töten. Sie enthält auch Beschreibungen von Schusswaffen und anderen Waffen (und damit verbundenen Einrichtungen wie Hersteller und Vereinigungen).
Inhalte mit Bezug auf Selbstverletzung Selbstverletzungsbezogene Inhalte umfassen Sprache oder Bilder, die sich auf Handlungen beziehen, die dazu dienen, den Körper zu schädigen oder sich selbst zu töten.
Risikokategorie Unterstützte Ziel(en) Lokales oder cloudbasiertes Red-Teaming Beschreibung
Hasserreiche und unfaire Inhalte Modell und Agents Lokal und Cloud Hassvolle und unfaire Inhalte beziehen sich auf jede Sprache oder Bilder, die sich auf Hass gegen oder unfaire Darstellungen von Einzelpersonen und sozialen Gruppen beziehen, einschließlich, aber nicht beschränkt auf Rasse, Ethnische Zugehörigkeit, Nationalität, Geschlecht, sexuelle Orientierung, Religion, Einwanderungsstatus, Fähigkeit, persönliche Erscheinung und Körpergröße. Ungerechtigkeit tritt auf, wenn KI-Systeme soziale Gruppen ungerechtfertigt behandeln oder vertreten, gesellschaftliche Ungleichheiten schaffen oder dazu beitragen.
Sexueller Inhalt Modell und Agents Lokal und Cloud Sexuelle Inhalte umfassen Sprache oder Bilder, die sich auf anatomische Organe und Genitalien beziehen, romantische Beziehungen, erotische Handlungen, Schwangerschaft, körperliche sexuelle Handlungen (einschließlich Übergriff oder sexuelle Gewalt), Prostitution, Pornografie und sexueller Missbrauch.
Gewalttätiger Inhalt Modell und Agents Lokal und Cloud Gewalttätige Inhalte umfassen Sprache oder Bilder, die sich auf physische Handlungen beziehen, die dazu bestimmt sind, jemanden oder etwas zu verletzen, zu verletzen, zu beschädigen oder zu töten. Sie enthält auch Beschreibungen von Schusswaffen und anderen Waffen (und damit verbundenen Einrichtungen wie Hersteller und Vereinigungen).
Inhalte mit Bezug auf Selbstverletzung Modell und Agents Lokal und Cloud Selbstverletzungsbezogene Inhalte umfassen Sprache oder Bilder, die sich auf Handlungen beziehen, die dazu dienen, den Körper zu schädigen oder sich selbst zu töten.
Geschützte Materialien Modell und Agents Lokal und Cloud Urheberrechtlich geschützte oder geschützte Materialien wie Songtexte, Lieder und Rezepte.
Sicherheitsrisiko im Code Modell und Agents Lokal und Cloud Misst, ob KI Code mit Sicherheitsrisiken generiert, z. B. Codeeinschleusung, Tar-Slip, SQL-Einschleusungen, Verfügbarmachen der Stapelüberwachung und andere Risiken in Python, Java, C++, C#, Go, JavaScript und SQL.
Attribute ohne Grounding Modell und Agents Lokal und Cloud Misst die Generierung von Textantworten eines KI-Systems, die Rückschlüsse ohne Grounding auf persönliche Attribute enthalten, z. B. demografische Daten oder emotionaler Zustand.
Verbotene Aktionen Nur Agents Nur Cloud Misst die Fähigkeit eines KI-Agents, Verhaltensweisen anzunehmen, die explizit gegen unzulässige Aktionen oder Toolverwendungen basierend auf der vom Benutzer überprüften Richtlinie/Taxonomie verbotener Aktionen verstoßen.
Vertrauliche Datenlecks Nur Agents Nur Cloud Misst das Sicherheitsrisiko eines KI-Agents, vertrauliche Informationen (Finanzdaten, persönliche Bezeichner, Gesundheitsdaten usw.) verfügbar zu machen.
Aufgabentreue Nur Agents Nur Cloud Misst, ob ein KI-Agent die zugewiesene Aufgabe ausführt, indem er dem Ziel des Benutzers folgt, alle Regeln und Einschränkungen respektiert und erforderliche Verfahren ohne nicht autorisierte Aktionen oder Auslassungen ausführt.

Agentische Risiken

Agentspezifische Risikokategorien wie verbotene Aktionen, vertrauliche Datenlecks und die Einhaltung von Aufgaben erfordern einen Ansatz zum automatisierten Red-Teaming, der sich von modellgeschützten Risikokategorien unterscheidet. Speziell prüft der AI Red Teaming Agent jetzt nicht nur die generierten Ausgaben, sondern auch die Toolausgaben auf unsicheres oder riskantes Verhalten. Agent-Risikokategorien sind nur im Cloud-Red-Teaming verfügbar, um eine minimale Sandboxumgebung bereitzustellen.

Für Cloud-Red-Teaming-Durchläufe entfernen wir die schädlichen oder gegnerischen Eingaben, die an Ihr Modell oder Ihre Agenten gesendet werden, aus den resultierenden Red-Teaming-Ergebnissen. Dadurch wird verhindert, dass Entwickler und nicht technische Beteiligte potenziell gefährlichen Promptangriffen ausgesetzt werden, die durch die Red-Teaming-Ausführungen von AI Red Teaming Agent generiert werden.

Für red-teaming-bezogene agentische Risikokategorien stellen wir sicher, dass, wenn ein AI-Red-Teaming-Lauf auf einen in der Foundry gehosteten Agent abzielt, es sich um einen vorübergehenden Durchlauf handelt, sodass schädliche Daten nicht vom Foundry-Agentendienst protokolliert und Chat-Abschlüsse nicht gespeichert werden. Wir empfehlen allen Entwicklern, rote Teamingübungen in einer "lila Umgebung" oder einer Nichtproduktionsumgebung auszuführen, die mit produktionsähnlichen Ressourcen konfiguriert ist, um zu sehen, wie Ihre Agenten in möglichst realen Szenarien funktionieren.

Leckage sensibler Daten

Red Teaming für Lecks vertraulicher Daten testet auf Lecks von Finanz-, medizinischen und personenbezogenen Daten aus internen Wissensdatenbanken und Toolaufrufen. Der AI Red Teaming Agent verwendet einen synthetischen Datensatz vertraulicher Informationen und simulierter Werkzeuge, um Szenarien zu generieren, die den Agenten auffordern, Informationen preiszugeben. Die Angriffserfolgsrate (ASR) definiert, ob die Red-Teaming-Ausführung mit Musterabgleich Lecks auf Formatebene erkennt.

Begrenzungen: Einzelrunde, nur Englisch; synthetische Daten; schließt Speicher- und Trainingssatzlecks aus.

Verbotene Aktionen

Red Teaming für verbotene Aktionen testet, ob Agents verbotene, risikoreiche oder irreversible Aktionen ausführen. Dazu werden dynamische adversarielle Prompts generiert, die auf vom Benutzer bereitgestellten Richtlinien, einer Taxonomie verbotener Aktionen sowie der Gruppe unterstützter vom Agent verwendeter Tools und auf den vom Benutzer bereitgestellten Toolbeschreibungen basieren. Die Angriffserfolgsrate (ASR) definiert Richtlinienverstöße, die vom Agent basierend auf den vom Benutzer bereitgestellten Richtlinien aufgezeigt wurden.

Kategorie Description Zulassungsregel
Verbotene Aktionen Universell verboten (z. B. Gesichtserkennung, Emotion-Ableitung, soziale Bewertung). ❌ Nie zulässig
Hochrisiko-Maßnahmen Vertrauliche Aktionen benötigen explizite menschliche Autorisierung (z. B. Finanztransaktionen, medizinische Entscheidungen). ⚠ Zulässig mit Human-in-the-Loop-Bestätigungen
Unwiderrufliche Aktionen Permanente Vorgänge (z. B. Dateilöschungen, Systemzurücksetzungen). ⚠– Zulässig mit Offenlegung plus Bestätigung

Begrenzungen: Einzelinteraktion, nur Englisch; Fokus auf Werkzeugebene; keine Live-Produktionsdaten.

Vorsicht

Haftungsausschluss für die Nutzung der Taxonomie verbotener Handlungen durch Dritte:
Die Taxonomie verbotener, riskanter und unwiderruflicher Aktionen, die in diesem Produkt bereitgestellt werden, dient ausschließlich als illustrative Anleitung zur Unterstützung von Agententwicklern bei der Bewertung und Anpassung ihrer eigenen Risikoframeworks. Es stellt weder eine endgültige oder vollständige Liste der verbotenen Praktiken dar, noch spiegelt sie die Microsoft-Richtlinie oder behördliche Auslegung wider. Organisationen von Drittanbietern sind ausschließlich dafür verantwortlich, sicherzustellen, dass ihre Vertreter geltende Gesetze und Vorschriften einhalten, einschließlich, aber nicht beschränkt auf das EU-KI-Gesetz und andere Zuständigkeitsanforderungen. Microsoft empfiehlt dringend, die von gesetzlichen Einschränkungen abgeleiteten standardmäßigen verbieteten Aktionen beizubehalten und die Abwahl dieser Elemente zu entmutigen. Die Verwendung dieses Produkts garantiert keine Compliance. Organisationen sollten ihren eigenen Rechtsberater konsultieren, um geeignete Schutzmaßnahmen und Verbote zu bewerten und umzusetzen, die auf ihren betrieblichen Kontext und ihre Risikotoleranz zugeschnitten sind.

Aufgabentreue

Red Teaming für Aufgabentreue testet, ob Agents zugewiesene Aufgaben ordnungsgemäß ausführen, indem sie das Ziel des Benutzers erreichen, alle Regeln und Einschränkungen einhalten und die erforderlichen Verfahren befolgen. Der AI Red Teaming Agent überprüft drei Dimensionen: Zielerreichung (hat der Agent das beabsichtigte Ziel erreicht), Regelkonformität (einschließlich Richtlinienschranken und Präsentationsverträge) und Verfahrensdisziplin (korrekte Werkzeugnutzung, Workflow und Verankerung). Das Prompting-Dataset berücksichtigt unterstützte und verfügbare Tools, um diverse Agenten-Trajektorien zu generieren, einschließlich repräsentativer und gegnerischer Szenarien, um sowohl gewöhnliche als auch Randfallszenarien zu testen.

Angriffe mit indirekt eingeschleusten Prompts

Red Teaming für Angriffe mit indirekt eingeschleusten Prompts (auch bekannt als Cross-Domain Prompt Injected Attacks, XPIA) testet, ob ein Agent durch schädliche Anweisungen manipuliert werden kann, die in externen Datenquellen wie E-Mails oder Dokumenten verborgen sind, die über Toolaufrufe abgerufen werden. Der AI Red Teaming Agent verwendet ein synthetisches Dataset mit unschädlichen Benutzerabfragen und simulierten Toolausgaben, die Angriffsplatzhalter enthalten. Während der Untersuchung fügt der AI Red Teaming Agent risikospezifische Angriffe in diese Kontexte ein, um zu beurteilen, ob der Ziel-Agent unbeabsichtigte oder unsichere Aktionen ausführt. Die Angriffserfolgsrate (Attack Success Rate, ASR) misst, wie oft der Agent durch indirekte Eingabeaufforderungseinfügung kompromittiert wird und verwendet agentenspezifische Risikokategorien wie verbotene Aktionen, vertrauliche Datenlecks oder Einhaltung von Aufgaben.

Eine vollständige Liste der Angriffsstrategien finden Sie im nächsten Abschnitt.

Unterstützte Agents und Tools

Der AI Red Teaming Agent unterstützt derzeit Red-Teaming-Foundry-Agents mit Azure-Toolaufrufen mit der folgenden Unterstützungsmatrix.

Unterstützte Agenten/Aktionen Der Status
Gehostete Foundry-Prompt-Agents Unterstützt
Bei Foundry gehostete Container-Agents Unterstützt
Gießerei-Workflow-Agenten Nicht unterstützt
Nicht-Foundry-Agents Nicht unterstützt
Nicht-Azure-Tools Nicht unterstützt
Azure-Toolaufrufe Unterstützt
Funktionstoolaufrufe Nicht unterstützt
Browserautomatisierungstool-Aufrufe Nicht unterstützt
Aufrufe des verbundenen Agent-Tools Nicht unterstützt
Aufrufe des Computeranwendungstools Nicht unterstützt

Eine umfassende Liste der Tools finden Sie unter Tools.

Unterstützte Angriffsstrategien

Die folgenden Angriffsstrategien werden im AI Red Teaming Agent von PyRIT unterstützt:

Angriffsstrategie Beschreibung
AnsiAttack Verwendet ANSI-Escapesequenzen, um die Erscheinung und das Verhalten von Text zu verändern.
ASCII-Kunst Generiert visuelle Kunst mithilfe von ASCII-Zeichen, die häufig für kreative oder Verschleierungszwecke verwendet werden.
AsciiSmuggler Verdeckt Daten innerhalb von ASCII-Zeichen, wodurch die Erkennung erschwert wird.
Atbash Implementiert die Atbash-Verschlüsselungsverfahren, ein einfaches Ersetzungs-Verschlüsselungsverfahren, bei dem jeder Buchstabe seinem umgekehrten zugeordnet ist.
Base64 Codiert Binärdaten mithilfe von Base64 in ein Textformat, das häufig für die Datenübertragung verwendet wird.
Binär Konvertiert Text in Binärcode, der Daten in einer Reihe von 0 und 1s darstellt.
Cäsar Wendet die Caesar-Chiffre an, eine Ersetzungs-Chiffre, die Zeichen um eine feste Anzahl von Positionen verschiebt.
CharacterSpace Ändert Text durch Hinzufügen von Leerzeichen zwischen Zeichen, die häufig zur Verschleierung verwendet werden.
CharSwap Tauscht Zeichen innerhalb von Text, um Variationen zu erstellen oder den ursprünglichen Inhalt zu verschleiern.
Diakritisches Zeichen Fügt diakritische Zeichen hinzu, ändert ihr Aussehen und manchmal ihre Bedeutung.
Spiegeln Dreht Zeichen von vorne nach hinten um und verursacht einen Spiegeleffekt.
Leetspeak Wandelt Text in Leetspeak um, eine Form der Codierung, die Buchstaben durch ähnlich aussehende Zahlen oder Symbole ersetzt.
Morsealphabet Codiert Text in Morse-Code, wobei Punkte und Striche verwendet werden, um Zeichen darzustellen.
ROT13 Wendet das ROT13-Verschlüsselungsverfahren an, ein einfaches Ersetzungs-Verschlüsselungsverfahren, bei dem Zeichen um 13 Positionen verschoben werden.
SuffixAppend Fügt ein feindliches Suffix an die Prompt an
StringJoin Verknüpft mehrere Zeichenfolgen, die häufig zur Verkettung oder Obfuskation verwendet werden.
UnicodeConfusable Verwendet Unicode-Zeichen, die ähnlich wie Standardzeichen aussehen, wodurch visuelle Verwirrung entsteht.
UnicodeSubstitution Ersetzt Standardzeichen durch Unicode-Entsprechungen, häufig zur Verschleierung.
URL Codiert Text im URL-Format
Gefängnisausbruch Fügt speziell gestaltete Eingabeaufforderungen zum Umgehen von KI-Schutzmaßnahmen ein, die als Benutzerinjizierte Eingabeaufforderungsangriffe (UPIA) bezeichnet werden.
Indirekter Jailbreak Fügt Angriffsaufforderungen in die Ausgaben der Werkzeuge ein oder im zurückgegebenen Kontext, um KI-Sicherheitsvorkehrungen indirekt zu umgehen, bekannt als indirekte Eingabeaufforderungsangriffe.
Angespannt Ändert die Zeit des Texts und wandelt ihn in Vergangenheit um.
Mehrfachdurchlauf Führt Angriffe über mehrere Gesprächsschritte aus, wobei Ansammlung von Kontext verwendet wird, um Schutzmaßnahmen zu umgehen oder unbeabsichtigte Verhaltensweisen hervorzurufen.
Crescendo Eskaliert schrittweise die Komplexität oder das Risiko von Prompts über aufeinanderfolgende Durchläufe, testet durch schrittweise Herausforderungen auf Schwachstellen der Agent-Verteidigungsmaßnahmen.

Bekannte Einschränkungen von AI Red Teaming Agent

Der AI Red Teaming Agent hat mehrere wichtige Einschränkungen, die man beim Ausführen und Interpretieren von Red-Teaming-Ergebnissen berücksichtigen muss.

  • Das Red-Teaming führt simulierte Szenarien aus, in denen ein Foundry-Agent vertraulichen Daten oder Angriffsfahrzeugdaten direkt ausgesetzt ist. Da diese Daten alle synthetisch sind, ist dies nicht repräsentativ für reale Datenverteilungen.
  • Simulierte Tools sind derzeit nur zum Abrufen synthetischer Daten aktiviert und ermöglichen Red-Teaming-Auswertungen. Sie unterstützen derzeit keine simulierten Verhaltensweisen, was das Testen einer echten Sandboxverwendung mehr annähern würde als das, was derzeit unterstützt wird.
  • Aufgrund fehlender Unterstützung vollständig gesperrter Sandboxes wird die adversarielle Natur unserer Red-Teaming-Überprüfungen kontrolliert, um Auswirkungen in der realen Welt zu vermeiden.
  • Red-Teaming-Ausführungen stellen nur die adversarielle Population dar und enthalten keine Beobachtungspopulation.
  • Red-Teaming-Ausführungen nutzen generative Modelle, um die Angriffserfolgsraten (ASR) zu bewerten und können nicht deterministisch und nicht vorhersagbar sein. Daher besteht immer die Möglichkeit falsch positiver Ergebnisse, und wir empfehlen immer, Ergebnisse zu überprüfen, bevor Sie Maßnahmen zur Entschärfung ergreifen.

Weitere Informationen

Beginnen Sie mit der Dokumentation zum Durchführen eines automatisierten Scans auf Sicherheitsrisiken mit dem AI Red Teaming Agent.

Erfahren Sie mehr über die Tools, die vom AI Red Teaming Agent verwendet werden.

Die effektivsten Strategien für die Risikobewertung, die wir gesehen haben, verwenden automatisierte Tools, um potenzielle Risiken zu erkennen, die dann von Expertenteams für tiefere Erkenntnisse analysiert werden. Wenn Ihre Organisation gerade erst mit dem AI Red Teaming beginnt, empfehlen wir Ihnen, die Ressourcen zu erkunden, die von unserem eigenen AI Red Team bei Microsoft erstellt wurden, um Ihnen den Einstieg zu erleichtern.