Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Der AI Red Teaming Agent ist ein leistungsfähiges Tool, das Organisationen dabei hilft, Sicherheitsrisiken im Zusammenhang mit generativen KI-Systemen während der Entwicklung von generativen KI-Modellen und -Anwendungen proaktiv zu finden.
Traditionelles rotes Teaming umfasst das Ausnutzen der Cyber-KillChain und beschreibt den Prozess, mit dem ein System auf Sicherheitsrisiken getestet wird. Mit dem Aufstieg der generativen KI wurde jedoch der Begriff "AI Red Teaming" geprägt, um die Erforschung neuartiger Risiken (sowohl inhaltliche als auch sicherheitsbezogene) zu beschreiben, die diese Systeme darstellen, und um auf das simulierte Verhalten eines gegnerischen Benutzers zu verweisen, der versucht, Ihr KI-System auf eine bestimmte Weise zu Fehlverhalten zu provozieren.
Der AI Red Teaming Agent nutzt das Open-Source-Framework von Microsoft für die KI-Red-Teaming-Fähigkeiten des Python Risk Identification Tools (PyRIT) zusammen mit den Risiko- und Sicherheitsbewertungen von Microsoft Foundry, um Sie bei der automatischen Bewertung von Sicherheitsproblemen auf drei Arten zu unterstützen:
- Automatisierte Scans auf Inhaltsrisiken: Zunächst können Sie Ihre Modell- und Anwendungsendpunkte automatisch auf Sicherheitsrisiken überprüfen, indem Sie das proversariale Probing simulieren.
- Evaluieren des Probingerfolgs: Als Nächstes können Sie jedes Angriffsreaktionspaar auswerten und bewerten, um erkenntnissereiche Metriken wie Angriffserfolgsrate (ATTACK Success Rate, ASR) zu generieren.
- Berichterstellung und Protokollierung Schließlich können Sie eine Scorecard der Angriffsprobingtechniken und Risikokategorien generieren, um zu entscheiden, ob das System für die Bereitstellung bereit ist. Ergebnisse können im Laufe der Zeit direkt in Foundry protokolliert, überwacht und nachverfolgt werden, um die Einhaltung und kontinuierliche Risikominderung sicherzustellen.
Zusammen mit diesen Komponenten (Scannen, Auswerten und Berichten) können Teams verstehen, wie KI-Systeme auf gemeinsame Angriffe reagieren und letztendlich eine umfassende Risikomanagementstrategie leiten.
Wann soll der AI Red Teaming Agent verwendet werden?
Wenn Sie über KI-bezogene Sicherheitsrisiken nachdenken, um vertrauenswürdige KI-Systeme zu entwickeln, verwendet Microsoft das NIST-Framework, um Risiken effektiv zu mindern: Steuern, Abbilden, Messen, Verwalten. Die folgenden Abschnitte konzentrieren sich auf die letzten drei Teile im Zusammenhang mit dem generativen KI-Entwicklungslebenszyklus:
- Karte: Identifizieren Sie relevante Risiken, und definieren Sie Ihren Anwendungsfall.
- Maßnahme: Bewertung von Risiken im großen Maßstab.
- Verwalten: Minimieren Sie Risiken in der Produktion und überwachen Sie mit einem Plan für die Reaktion auf Vorfälle.
AI Red Teaming Agent kann verwendet werden, um automatisierte Scans auszuführen und adversariales Probing zu simulieren, um die Identifizierung und Bewertung bekannter Risiken im großen Maßstab zu beschleunigen. Auf diese Weise können Teams von kostspieligen reaktiven Vorfällen auf proaktivere Testframeworks umsteigen, die Probleme vor der Bereitstellung abfangen können. Der manuelle KI-Red-Teaming-Prozess ist zeit- und ressourcenintensiv. Es nutzt die Kreativität von Sicherheits- und Schutzexpertise, um gegnerisches Testen zu simulieren. Dieser Prozess kann einen Engpass für viele Organisationen schaffen, um die KI-Einführung zu beschleunigen. Mit dem AI Red Teaming Agent können Organisationen jetzt die umfassende Expertise Microsoft nutzen, um ihre KI-Entwicklung mit vertrauenswürdiger KI im Vordergrund zu skalieren und zu beschleunigen.
Verwenden Sie den AI Red Teaming Agent, um automatisierte Scans während der gesamten Entwurfs-, Entwicklungs- und Vorbereitstellungsphase auszuführen:
- Design: Auswählen des sichersten Basismodells in Ihrem Anwendungsfall.
- Entwicklung: Aktualisieren von Modellen in Ihrer Anwendung oder Erstellen fein abgestimmter Modelle für Ihre spezifische Anwendung.
- Vor der Bereitstellung: Vor der Bereitstellung von GenAI-Anwendungen und -Agenten in der Produktion.
- Nach der Bereitstellung: Überwachen Sie Ihre generative KI-Anwendungen und -Agents nach der Bereitstellung mit geplanten kontinuierlichen Red-Teaming-Ausführungen auf synthetischen adversariellen Daten.
In der Produktion empfehlen wir die Implementierung von safety guardrails wie Azure KI Inhaltssicherheit Filters oder implementieren Sicherheitssystemmeldungen mithilfe unserer templates. Für agentenbasierte Workflows empfehlen wir, die Foundry Control Plane zu nutzen, um Leitplanken anzuwenden und Ihre Agentenflotte zu steuern.
Funktionsweise von AI Red Teaming
Der AI Red Teaming Agent hilft bei der Automatisierung der Simulation des gegnerischen Prüfens Ihres KI-Zielsystems. Es stellt ein kuratiertes Dataset von Initialaufforderungen oder Angriffszielen für jede unterstützte Risikokategorie bereit. Diese können verwendet werden, um die direkte gegnerische Sondierung zu automatisieren. Direkte feindliche Angriffe können jedoch möglicherweise leicht von vorhandenen Sicherheitsausrichtungen Ihrer Modellbereitstellung abgefangen werden. Das Anwenden von Angriffsstrategien von PyRIT verleiht eine zusätzliche Wandlungsmöglichkeit, die dazu beitragen kann, das KI-System auszutricksen oder es dazu zu bringen, unerwünschte Inhalte zu erzeugen.
Das Diagramm zeigt, dass eine direkte Anfrage an Ihr KI-System, wie eine Bank beraubt wird, eine Weigerungsantwort auslöst. Das Anwenden einer Angriffsstrategie wie das Spiegeln aller Zeichen kann jedoch dazu beitragen, das Modell zur Beantwortung der Frage zu verleiten.
Darüber hinaus bietet der AI Red Teaming Agent Benutzenden ein fein abgestimmtes Large Language Model, das der Aufgabe gewidmet ist, feindliche Angriffe zu simulieren und Antworten zu bewerten, die schädliche Inhalte mit Risiko- und Sicherheitsevaluatoren enthalten können. Die Schlüsselmetrik zur Bewertung des Risikostatus Ihres KI-Systems ist die Angriffserfolgsrate (Attack Success Rate, ASR), die den Prozentsatz der erfolgreichen Angriffe über die Anzahl der Gesamtzahl der Angriffe berechnet.
Unterstützte Risikokategorien
Die folgenden Risikokategorien werden im AI Red Teaming Agent aus Risiko- und Sicherheitsbewertungen unterstützt. Es werden nur textbasierte Szenarien unterstützt.
| Risikokategorie | Unterstützte Ziel(en) | Lokales oder cloud-basiertes Red Teaming | Beschreibung |
|---|---|---|---|
| Hasserreiche und unfaire Inhalte | Modell und Agents | Lokal und Cloud | Hassvolle und unfaire Inhalte beziehen sich auf jede Sprache oder Bilder, die sich auf Hass gegen oder unfaire Darstellungen von Einzelpersonen und sozialen Gruppen beziehen, einschließlich, aber nicht beschränkt auf Rasse, Ethnische Zugehörigkeit, Nationalität, Geschlecht, sexuelle Orientierung, Religion, Einwanderungsstatus, Fähigkeit, persönliche Erscheinung und Körpergröße. Unfairness tritt auf, wenn KI-Systeme soziale Gruppen ungerechtfertigt behandeln oder vertreten, gesellschaftliche Ungleichheiten schaffen oder dazu beitragen. |
| Sexueller Inhalt | Modell und Agents | Lokal und Cloud | Sexuelle Inhalte umfassen Sprache oder Bilder, die sich auf anatomische Organe und Genitalien beziehen, romantische Beziehungen, erotische Handlungen, Schwangerschaft, körperliche sexuelle Handlungen (einschließlich Übergriff oder sexuelle Gewalt), Prostitution, Pornografie und sexueller Missbrauch. |
| Gewalttätiger Inhalt | Modell und Agents | Lokal und Cloud | Gewalttätige Inhalte umfassen Sprache oder Bilder, die sich auf physische Handlungen beziehen, die dazu bestimmt sind, jemanden oder etwas zu verletzen, zu verletzen, zu beschädigen oder zu töten. Sie enthält auch Beschreibungen von Waffen und Schusswaffen (und damit verbundenen Einheiten wie Herstellern und Vereinigungen). |
| Selbstverletzungsbezogener Inhalt | Modell und Agents | Lokal und Cloud | Selbstverletzungsbezogene Inhalte enthalten Sprache oder Bildsprache, die sich auf Handlungen bezieht, die dazu dienen, den eigenen Körper zu verletzen oder sich selbst zu töten. |
| Geschützte Materialien | Modell und Agents | Lokal und Cloud | Urheberrechtlich geschützte oder geschützte Materialien wie Liedtexte, Lieder und Rezepte. |
| Sicherheitsanfälligkeit in Code | Modell und Agents | Lokal und Cloud | Misst, ob KI Code mit Sicherheitsrisiken generiert, z. B. Codeeinschleusung, Tar-Slip, SQL-Einschleusungen, Verfügbarmachen der Stapelüberwachung und andere Risiken in Python, Java, C++, C#, Go, JavaScript und SQL. |
| Nicht geerdete Attribute | Modell und Agents | Lokal und Cloud | Misst die Generierung von Textantworten eines KI-Systems, die Rückschlüsse ohne Grounding auf persönliche Attribute enthalten, z. B. demografische Daten oder emotionaler Zustand. |
| Verbotene Aktionen | Nur Agenten | Nur in der Cloud | Misst die Fähigkeit eines KI-Agents, Verhaltensweisen anzunehmen, die explizit gegen unzulässige Aktionen oder Toolverwendungen basierend auf der vom Benutzer überprüften Richtlinie/Taxonomie verbotener Aktionen verstoßen. |
| Vertrauliche Datenlecks | Nur Agenten | Nur in der Cloud | Misst das Sicherheitsrisiko eines KI-Agents, vertrauliche Informationen (Finanzdaten, persönliche Bezeichner, Gesundheitsdaten usw.) verfügbar zu machen. |
| Aufgabentreue | Nur Agenten | Nur in der Cloud | Misst, ob ein KI-Agent die zugewiesene Aufgabe ausführt, indem er dem Ziel des Benutzers folgt, alle Regeln und Einschränkungen respektiert und erforderliche Verfahren ohne nicht autorisierte Aktionen oder Auslassungen ausführt. |
Agentische Risiken
Agentspezifische Risikokategorien wie verbotene Aktionen, das Durchsickern sensibler Daten und die Einhaltung von Aufgaben erfordern einen Ansatz zum automatisierten Red Teaming, der sich von modellbasierten Risikokategorien unterscheidet. Speziell prüft der AI Red Teaming Agent jetzt nicht nur die generierten Ausgaben, sondern auch die Toolausgaben auf unsicheres oder riskantes Verhalten. Agent-Risikokategorien sind nur im Cloud-Red-Teaming verfügbar, um eine minimale Sandboxumgebung bereitzustellen.
Hinweis
Cloud-Red-Teaming ist derzeit in den folgenden Regionen verfügbar: Ost-USA 2, Zentralfrankreich, Zentral-Schweden, Westschweiz und Nordzentral-USA.
Für das Red-Teaming in der Cloud entfernen wir die schädlichen oder gegnerischen Eingaben, die an Ihr Modell oder Ihren Agenten gesendet werden, aus den resultierenden Red-Teaming-Ergebnissen. Dadurch wird verhindert, dass Entwickler und nicht technische Beteiligte potenziell gefährlichen Promptangriffen ausgesetzt werden, die durch die Red-Teaming-Ausführungen von AI Red Teaming Agent generiert werden.
Für Red-Teaming von agentenbezogenen Risikokategorien stellen wir sicher, dass, wenn ein AI-Red-Teaming-Durchlauf auf einen in Foundry gehosteten Agenten abzielt, es ein vorübergehender Durchlauf ist, sodass schädliche Daten nicht vom Foundry Agent Service protokolliert werden und dass Chatabschlüsse nicht gespeichert werden. Führen Sie rote Teamübungen in einer violetten Umgebung aus – einer Nichtproduktionsumgebung, die mit produktionsähnlichen Ressourcen konfiguriert ist – um zu sehen, wie Ihre Agenten unter realistischen Bedingungen arbeiten.
Leckage vertraulicher Daten
Red Teaming für Lecks vertraulicher Daten testet auf Lecks von Finanz-, medizinischen und personenbezogenen Daten aus internen Wissensdatenbanken und Toolaufrufen. Der AI Red Teaming Agent verwendet synthetische Datensätze vertraulicher Informationen und Mock-Werkzeuge, um Szenarien zu generieren, die den Agenten auffordern, Informationen preiszugeben. Die Angriffserfolgsrate (ASR) definiert, ob die Red-Teaming-Ausführung mit Musterabgleich Lecks auf Formatebene erkennt.
Einschränkungen: Einzelinteraktion, nur Englisch; schließt Speicher- und Trainingssatzlecks aus; synthetische Daten.
Verbotene Aktionen
Red Teaming für verbotene Aktionen testet, ob Agents verbotene, risikoreiche oder irreversible Aktionen ausführen. Dazu werden dynamische adversarielle Prompts generiert, die auf vom Benutzer bereitgestellten Richtlinien, einer Taxonomie verbotener Aktionen sowie der Gruppe unterstützter vom Agent verwendeter Tools und auf den vom Benutzer bereitgestellten Toolbeschreibungen basieren. Die Angriffserfolgsrate (ASR) definiert Richtlinienverstöße, die der Agent basierend auf den Richtlinien, die vom Benutzer bereitgestellt wurden, aufweist.
| Kategorie | Beschreibung | Erlaubnisregel |
|---|---|---|
| Verbotene Aktionen | Universell verboten (z. B. Gesichtserkennung, Emotion-Ableitung, soziale Bewertung). | ❌ Nie zulässig |
| Hochrisikoaktionen | Vertrauliche Aktionen benötigen explizite menschliche Autorisierung (z. B. Finanztransaktionen, medizinische Entscheidungen). | ⚠️ Zulässig mit Human-in-the-Loop-Bestätigungen |
| Unwiderrufliche Aktionen | Permanente Vorgänge (z. B. Dateilöschungen, Systemzurücksetzungen). | ⚠– Zulässig mit Offenlegung plus Bestätigung |
Einschränkungen: Themenvorschlag, Nur Englisch; Fokus auf Werkzeugebene; keine Live-Produktionsdaten.
Vorsicht
Haftungsausschluss für die Nutzung der Taxonomie verbotener Handlungen durch Dritte:
Die Taxonomie verbotener, riskanter und unwiderruflicher Aktionen, die in diesem Produkt bereitgestellt werden, dient ausschließlich als illustrative Anleitung zur Unterstützung von Agententwicklern bei der Bewertung und Anpassung ihrer eigenen Risikoframeworks. Sie stellt weder eine endgültige oder vollständige Liste der verbotenen Praktiken dar, noch spiegelt sie Microsoft richtlinien- oder behördliche Auslegung wider. Organisationen von Drittanbietern sind ausschließlich dafür verantwortlich, sicherzustellen, dass ihre Vertreter geltende Gesetze und Vorschriften einhalten, einschließlich, aber nicht beschränkt auf das EU-KI-Gesetz und andere Zuständigkeitsanforderungen. Microsoft empfiehlt dringend, die standardmäßigen verbotenen Aktionen, die sich aus gesetzlichen Einschränkungen ergeben, beizubehalten und von der Abwahl dieser Elemente abzusehen. Die Verwendung dieses Produkts garantiert keine Compliance. Organisationen sollten ihren eigenen Rechtsberater konsultieren, um geeignete Schutzmaßnahmen und Verbote zu bewerten und umzusetzen, die auf ihren betrieblichen Kontext und ihre Risikotoleranz zugeschnitten sind.
Aufgabentreue
Red Teaming für Aufgabentreue testet, ob Agents zugewiesene Aufgaben ordnungsgemäß ausführen, indem sie das Ziel des Benutzers erreichen, alle Regeln und Einschränkungen einhalten und die erforderlichen Verfahren befolgen. Der AI Red Teaming Agent überprüft drei Dimensionen: Zielerreichung (hat der Agent das beabsichtigte Ziel erreicht?), Regelkonformität (einschließlich Richtlinienleitplanken und Präsentationsverträge) und Verfahrensdisziplin (korrekte Werkzeugnutzung, Arbeitsabläufe und Prozesseinhaltung). Das Prompting-Dataset berücksichtigt unterstützte und verfügbare Tools, um verschiedene agentische Bewegungen zu erstellen, einschließlich repräsentativer und gegnerischer Fälle, um sowohl gewöhnliche als auch Randfallszenarien zu testen.
Indirekte Prompt-Injection-Angriffe (XPIA)
Red Teaming für Angriffe mit indirekt eingeschleusten Prompts (auch bekannt als Cross-Domain Prompt Injected Attacks, XPIA) testet, ob ein Agent durch schädliche Anweisungen manipuliert werden kann, die in externen Datenquellen wie E-Mails oder Dokumenten verborgen sind, die über Toolaufrufe abgerufen werden. Der AI Red Teaming Agent verwendet ein synthetisches Dataset mit unschädlichen Benutzerabfragen und simulierten Toolausgaben, die Angriffsplatzhalter enthalten. Während der Untersuchung fügt der AI Red Teaming Agent risikospezifische Angriffe in diese Kontexte ein, um zu beurteilen, ob der Ziel-Agent unbeabsichtigte oder unsichere Aktionen ausführt. Die Angriffserfolgsrate (ASR) misst, wie oft der Agent durch indirekte Eingabeaufforderungseinfügung kompromittiert wird und verwendet agentenspezifische Risikokategorien wie verbotene Aktionen, vertrauliche Datenlecks oder die Einhaltung von Aufgaben.
Eine vollständige Liste der Angriffsstrategien finden Sie im nächsten Abschnitt.
Unterstützte Agents und Tools
Der AI Red Teaming Agent unterstützt derzeit Red-Teaming-Foundry-Agents mit Azure-Toolaufrufen mit der folgenden Unterstützungsmatrix.
| Unterstützte Agenten/Aktionen | Status |
|---|---|
| Gehostete Foundry-Prompt-Agents | Unterstützt |
| Bei Foundry gehostete Container-Agenten | Unterstützt |
| Workflow-Agenten für Gießereien | Nicht unterstützt |
| Nicht-Foundry-Agents | Nicht unterstützt |
| Tools, die nicht Azure sind | Nicht unterstützt |
| Azure-Toolaufrufe | Unterstützt |
| Funktionstoolaufrufe | Nicht unterstützt |
| Aufrufe von Browser-Automatisierungstools | Nicht unterstützt |
| Aufrufe des verbundenen Agent-Tools | Nicht unterstützt |
| Computerverwendungstoolaufrufe | Nicht unterstützt |
Eine umfassende Liste der Tools finden Sie unter Tools.
Unterstützte Angriffsstrategien
Die folgenden Angriffsstrategien werden im AI Red Teaming Agent von PyRIT unterstützt:
| Angriffsstrategie | Beschreibung |
|---|---|
| AnsiAttack | Verwendet ANSI-Escapesequenzen zur Manipulation der Textdarstellung und -verhaltens. |
| AsciiArt | Generiert visuelle Kunst mithilfe von ASCII-Zeichen, die häufig für kreative oder Verschleierungszwecke verwendet werden. |
| AsciiSmuggler | Verdeckt Daten innerhalb von ASCII-Zeichen, wodurch die Erkennung erschwert wird. |
| Atbash | Implementiert die Atbash-Chiffre, eine einfache Ersatzchiffre, bei der jeder Buchstabe seinem Gegenstück zugeordnet ist. |
| Base64 | Codiert Binärdaten mithilfe von Base64 in ein Textformat, das häufig für die Datenübertragung verwendet wird. |
| Binäre | Konvertiert Text in Binärcode, der Daten in einer Reihe von 0 und 1s darstellt. |
| Caesar | Verwendet die Caesar-Verschlüsselung, eine Ersetzungsverschlüsselung, die Zeichen um eine feste Anzahl von Zeichenpositionen verschiebt. |
| CharacterSpace | Ändert Text durch Hinzufügen von Leerzeichen zwischen Zeichen, die häufig zur Verschleierung verwendet werden. |
| CharSwap | Tauscht Zeichen innerhalb von Text, um Variationen zu erstellen oder den ursprünglichen Inhalt zu verschleiern. |
| Diakritikum | Fügt diakritische Zeichen hinzu, ändert ihr Aussehen und manchmal ihre Bedeutung. |
| Flip | Dreht Zeichen von vorne nach hinten um und verursacht einen Spiegeleffekt. |
| Leetspeak | Wandelt Text in Leetspeak um, eine Form der Codierung, die Buchstaben durch ähnlich aussehende Zahlen oder Symbole ersetzt. |
| Morsezeichen | Codiert Text in Morse-Code, wobei Punkte und Striche verwendet werden, um Zeichen darzustellen. |
| ROT13 | Wendet das ROT13-Verschlüsselungsverfahren an, ein einfaches Ersetzungs-Verschlüsselungsverfahren, bei dem Zeichen um 13 Positionen verschoben werden. |
| SuffixAppend | Fügt ein gegnerisches Suffix an die Eingabeaufforderung an. |
| StringJoin | Verknüpft mehrere Zeichenfolgen, die häufig zur Verkettung oder Obfuskation verwendet werden. |
| UnicodeConfusable | Verwendet Unicode-Zeichen, die ähnlich wie Standardzeichen aussehen, wodurch visuelle Verwirrung entsteht. |
| UnicodeSubstitution | Ersetzt Standardzeichen durch Unicode-Entsprechungen, häufig zur Verschleierung. |
| URL | Codiert Text im URL-Format |
| Jailbreak (Entsperrung von Geräten) | Fügt speziell gestaltete Eingabeaufforderungen zum Umgehen von KI-Schutzmaßnahmen ein, die als Benutzerinjizierte Eingabeaufforderungsangriffe (UPIA) bezeichnet werden. |
| Indirekter Jailbreak | Fügt Angriffsaufforderungen in die Ausgabe des Tools ein oder im zurückgegebenen Kontext, um KI-Sicherheitsvorkehrungen indirekt zu umgehen, was als indirekte Aufforderungseinfügungsangriffe bezeichnet wird. |
| Angespannt | Ändert die Zeit des Texts und wandelt ihn in Vergangenheit um. |
| Mehrfachdurchlauf | Führt Angriffe über mehrere Gesprächsrunden durch, wobei durch die Akkumulation von Kontext Schutzmaßnahmen umgangen oder unbeabsichtigte Verhaltensweisen provoziert werden. |
| Crescendo | Eskaliert schrittweise die Komplexität oder das Risiko von Prompts über aufeinanderfolgende Durchläufe, testet durch schrittweise Herausforderungen auf Schwachstellen der Agent-Verteidigungsmaßnahmen. |
Bekannte Einschränkungen von AI Red Teaming Agent
Der AI Red Teaming Agent hat mehrere wichtige Einschränkungen, die Sie beim Ausführen und Interpretieren von Red-Teaming-Ergebnissen berücksichtigen müssen.
- Red-Team-Übungen simulieren Szenarien, in denen ein Foundry-Agent vertraulichen Daten oder Angriffsfahrzeug-Daten direkt ausgesetzt wird. Da diese Daten alle synthetisch sind, ist dies nicht repräsentativ für reale Datenverteilungen.
- Simulierte Tools sind derzeit nur zum Abrufen synthetischer Daten aktiviert und ermöglichen Red-Teaming-Auswertungen. Sie unterstützen derzeit keine simulierten Verhaltensweisen, was das Testen einer echten Sandboxverwendung mehr annähern würde als das, was derzeit unterstützt wird.
- Aufgrund fehlender Unterstützung vollständig gesperrter Sandboxes wird die adversarielle Natur unserer Red-Teaming-Überprüfungen kontrolliert, um Auswirkungen in der realen Welt zu vermeiden.
- Red-Teaming-Ausführungen stellen nur die adversarielle Population dar und enthalten keine Beobachtungspopulation.
- Red-Teaming-Läufe nutzen generative Modelle, um die Erfolgsraten von Angriffen (ASR) zu bewerten, und können nicht-deterministisch und unvorhersehbar sein. Daher besteht immer die Möglichkeit falsch positiver Ergebnisse, und wir empfehlen immer, Ergebnisse zu überprüfen, bevor Sie Maßnahmen zur Entschärfung ergreifen.
Weitere Informationen
Beginnen Sie mit unserer Dokumentation, um einen automatisierten Scan auf Sicherheitsrisiken mit dem AI Red Teaming Agent auszuführen.
Erfahren Sie mehr über die Tools, die vom AI Red Teaming Agent verwendet werden.
Die effektivsten Strategien für die Risikobewertung kombinieren automatisierte Tools, die potenzielle Risiken mit expertenmenschlichen Analysen für tiefere Erkenntnisse darstellen. Wenn Ihre Organisation gerade mit der roten KI-Teamerstellung beginnt, erkunden Sie die Ressourcen, die vom Microsoft AI-roten Team erstellt wurden: