Konfigurieren von Inhaltsfiltern mit Azure OpenAI Service
Das in Azure OpenAI Service integrierte Inhaltsfiltersystem wird zusammen mit den Kernmodellen ausgeführt, einschließlich DALL-E-Imagegenerierungsmodellen. Es verwendet ein Ensemble von Mehrklassenklassifizierungsmodellen, um vier Kategorien von schädlichen Inhalten (Gewalt, Hass, sexuelle Inhalte und Selbstverletzung) auf vier Schweregraden zu erkennen (sicher, niedrig, mittel und hoch) und optionale binäre Klassifizierer zum Erkennen von Jailbreak-Risiko, bestehendem Text und Code in öffentlichen Repositorys. Die Standardkonfiguration für die Inhaltsfilterung ist so festgelegt, dass für alle vier Kategorien von Inhaltsschäden sowohl für Eingabeaufforderungen als auch für Vervollständigungen der Mittlere Schweregrad gefiltert wird. Dies bedeutet, dass Inhalte, die mit dem Schweregrad mittel oder hoch erkannt werden, gefiltert werden, während mit dem Schweregrad „niedrig“ erkannte Inhalte nicht ausgefiltert werden. Weitere Informationen zu den Inhaltskategorien, Schweregraden und dem Verhalten des Inhaltsfiltersystems finden Sie hier. Jailbreak-Risikoerkennung und geschützte Text- und Codemodelle sind standardmäßig optional und deaktiviert. Für Jailbreak- und geschützte Materialtext- und -codemodelle ermöglicht das Konfigurierbarkeitsfeature allen Kunden, die Modelle ein- und auszuschalten. Die Modelle sind standardmäßig deaktiviert und können pro Szenario aktiviert werden. Beachten Sie, dass einige Modelle für bestimmte Szenarien aktiviert sein müssen, um die Abdeckung im Rahmen der Verpflichtung zum Urheberrecht des Kunden beizubehalten.
Hinweis
Die Kundschaft kann die Inhaltsfilter ändern und die Schweregrad-Schwellenwerte (niedrig, mittel, hoch) konfigurieren. Die Genehmigung ist erforderlich, um die Inhaltsfilter teilweise oder vollständig zu deaktivieren. Verwaltete Kunden können nur eine vollständige Inhaltsfilterung über folgendes Formular beantragen: Azure OpenAI Limited Access Review: Geänderte Content-Filter. Zu diesem Zeitpunkt ist es nicht möglich, ein verwalteter Kunde zu werden.
Inhaltsfilter können auf der Ressourcenebene konfiguriert werden. Sobald eine neue Konfiguration erstellt wurde, kann sie einer oder mehreren Bereitstellungen zugeordnet werden. Weitere Informationen zur Modellimplementierung finden Sie im Leitfaden zur Ressourcenbereitstellung.
Voraussetzungen
- Sie müssen über eine Azure OpenAI-Ressource und eine LLM-Bereitstellung (Large Language Model) verfügen, um Inhaltsfilter zu konfigurieren. Nutzen Sie einen Schnellstart, um erste Schritte auszuführen.
Grundlegendes zur Konfigurierbarkeit von Inhaltsfiltern
Azure OpenAI Service umfasst Standardsicherheitseinstellungen, die auf alle Modelle angewandt werden, mit Ausnahme von Azure OpenAI Whisper. Diese Konfigurationen bieten Ihnen standardmäßig eine verantwortungsvolle Umgebung, die Inhaltsfiltermodelle, Blockierlisten, Prompttransformation, Inhaltsanmeldeinformationen und mehr enthält. Hier erfahren Sie mehr.
Alle Kunden können darüber hinaus Inhaltsfilter konfigurieren und benutzerdefinierte Sicherheitsrichtlinien erstellen, die auf die Anforderungen ihrer Anwendungsfälle zugeschnitten sind. Das Feature für die Konfigurierbarkeit ermöglicht Kunden, die Einstellungen separat für Prompts und Vervollständigungen anzupassen, um Inhalte für jede Inhaltskategorie mit unterschiedlichen Schweregraden zu filtern, wie in der folgenden Tabelle beschrieben. Inhalte, die mit dem Schweregrad „sicher“ erkannt werden, werden in Anmerkungen gekennzeichnet, unterliegen jedoch keiner Filterung und sind nicht konfigurierbar.
Gefilterter Schweregrad | Konfigurierbar für Eingabeaufforderungen | Konfigurierbar für Vervollständigungen | Beschreibungen |
---|---|---|---|
Niedrig, mittel, hoch | Ja | Ja | Strengste Filterkonfiguration. Mit den Schweregraden „Niedrig“, „Mittel“ und „Hoch“ erkannte Inhalte werden gefiltert. |
Mittel, Hoch | Ja | Ja | Mit dem Schweregrad „Niedrig“ erkannte Inhalte werden nicht gefiltert, Inhalte mit mittlerem und hohem Schweregrad werden gefiltert. |
Hoch | Ja | Ja | Mit den Schweregraden „Niedrig“ und „Mittel“ erkannte Inhalte werden nicht gefiltert. Nur Inhalte mit hohem Schweregrad werden gefiltert. |
Keine Filter | Falls genehmigt1 | Falls genehmigt1 | Unabhängig vom erkannten Schweregrad wird kein Inhalt gefiltert. Genehmigung erforderlich1. |
Nur kommentieren | Falls genehmigt1 | Falls genehmigt1 | Deaktiviert die Filterfunktion, sodass Inhalte nicht blockiert, aber Anmerkungen über die API-Antwort zurückgegeben werden. Genehmigung erforderlich1. |
1 Bei Azure OpenAI-Modelle haben nur die Kunden uneingeschränkte Kontrolle über die Inhaltsfilterung und können Inhaltsfilter deaktivieren, die für die angepasste Inhaltsfilterung zugelassen wurden. Beantragen Sie geänderte Inhaltsfilter über dieses Formular: Azure OpenAI Limited Access Review: Modified Content Filters. Für Azure Government-Kunden beantragen Sie geänderte Inhaltsfilter über dieses Formular: Azure Government – Request Modified Content Filtering for Azure OpenAI Service.
Konfigurierbare Inhaltsfilter für Eingaben (Prompts) und Ausgaben (Vervollständigungen) stehen für die folgenden Azure OpenAI-Modelle zur Verfügung:
- GPT-Modellreihe
- GPT-4 Turbo Vision GA* (
turbo-2024-04-09
) - GPT-4o
- GPT-4o mini
- DALL-E 2 und 3
Konfigurierbare Inhaltsfilter sind nicht verfügbar für
- o1-preview
- o1-mini
*Nur für GPT-4 Turbo Vision GA verfügbar, gilt nicht für die Vorschauversion von GPT-4 Turbo Vision.
Inhaltsfilterkonfigurationen werden in einer Ressource in Azure KI Studio erstellt und können Bereitstellungen zugeordnet werden. Weitere Informationen zur Konfigurierbarkeit finden Sie hier.
Kunden sind dafür verantwortlich, sicherzustellen, dass Anwendungen, die Azure OpenAI integrieren, den Verhaltenskodex einhalten.
Grundlegendes zu anderen Filtern
Sie können die folgenden Filterkategorien zusätzlich zu den Standardfiltern für Schadenkategorien konfigurieren.
Filterkategorie | Status | Standardeinstellung | Wird auf Eingabeaufforderung oder Abschluss angewendet? | Beschreibung |
---|---|---|---|---|
Prompt Shields für direkte Angriffe (Jailbreak) | Allgemein verfügbar | Ein | Eingabeaufforderung von Benutzerinnen und Benutzern | Filtert/kommentiert Benutzerprompts, die möglicherweise ein Jailbreak-Risiko darstellen. Weitere Informationen zu Anmerkungen finden Sie unter Azure OpenAI Service-Inhaltsfilterung. |
Prompt Shields für indirekte Angriffe | Allgemein verfügbar | Ein | Eingabeaufforderung von Benutzerinnen und Benutzern | Filtert/kommentiert indirekte Angriffe, die auch als indirekte Promptangriffe oder domänenübergreifende Prompteinschleusungsangriffe bezeichnet werden. Sie stellen ein potenzielles Sicherheitsrisiko dar, bei dem Dritte böswillige Anweisungen innerhalb von Dokumenten platzieren, auf die das generative KI-System zugreifen und sie verarbeiten kann. Erforderlich: Dokumentformatierung. |
Geschütztes Material - Code | Allgemein verfügbar | Ein | Completion | Filtert geschützten Code oder ruft die Beispielzitat- und Lizenzinformationen in Anmerkungen für Codeschnipsel ab, die mit allen öffentlichen Codequellen übereinstimmen, die von GitHub Copilot unterstützt werden. Weitere Informationen zum Verwenden von Anmerkungen finden Sie im Leitfaden zur Inhaltsfilterung |
Geschütztes Material - Text | Allgemein verfügbar | Ein | Completion | Identifiziert bekannte Textinhalte und blockiert ihre Anzeige in der Modellausgabe (z. B. Songtexte, Rezepte und ausgewählte Webinhalte). |
Konfigurieren von Inhaltsfiltern über Azure OpenAI Studio
Die folgenden Schritte zeigen, wie Sie eine benutzerdefinierte Inhaltsfilterkonfiguration für Ihre Ressource einrichten.
Navigieren Sie zu Azure OpenAI Studio und dann zur Registerkarte Inhaltsfilter (im linken unteren Navigationsbereich, wie durch das rote Feld unten gekennzeichnet).
Erstellen einer neuen benutzerdefinierten Inhaltsfilterkonfiguration.
Dies führt zur folgenden Konfigurationsansicht, in der Sie einen Namen für die benutzerdefinierte Inhaltsfilterkonfiguration auswählen können. Nachdem Sie einen Namen eingegeben haben, können Sie die Eingabefilter (Benutzerprompts) und Ausgabefilter (Modellantwort) konfigurieren. Für die ersten vier Inhaltskategorien gibt es drei Schweregrade, die konfigurierbar sind: niedrig, mittel und hoch. Sie können die Schieberegler verwenden, um den Schweregradschwellenwert festzulegen, wenn Sie feststellen, dass Ihre Anwendung oder Ihr Verwendungsszenario eine andere Filterung als die Standardwerte erfordert. Mit einigen Filtern können Sie ermitteln, ob das Modell kommentieren und/oder blockieren soll. Wenn Sie die Option Anmerkungen wählen, wird das entsprechende Modell ausgeführt und die Anmerkungen über die API-Antwort zurückgegeben, der Inhalt wird jedoch nicht gefiltert. Zusätzlich zu Anmerkungen können Sie auch den Inhalt filtern, indem Sie die Umschaltfläche Filter aktivieren.
Wenn Ihr Anwendungsfall für geänderte Inhaltsfilter wie oben beschrieben genehmigt wurde, erhalten Sie die vollständige Kontrolle über die Inhaltsfilterkonfiguration und können die Filterung teilweise oder vollständig deaktivieren.
Sie können mehrere Inhaltsfilterkonfigurationen gemäß Ihren Anforderungen erstellen.
Um eine benutzerdefinierte Inhaltsfilterkonfiguration zu nutzen, weisen Sie einer oder mehreren Bereitstellungen in Ihrer Ressource eine Konfiguration zu. Wechseln Sie dazu zur Registerkarte Bereitstellungen, und wählen Sie Ihre Bereitstellung aus. Klicken Sie dann auf Bearbeiten.
Wählen Sie im daraufhin angezeigten Fenster Bereitstellung aktualisieren den benutzerdefinierten Filter aus dem Dropdownmenü Inhaltsfilter aus. Wählen Sie dann Speichern und schließen aus, um die ausgewählte Konfiguration auf die Bereitstellung anzuwenden.
Sie können bei Bedarf eine Inhaltsfilterkonfiguration auch bearbeiten und löschen. Navigieren Sie hierzu zur Registerkarte „Inhaltsfilter“, und wählen Sie eine Konfiguration aus. Wählen Sie dann die gewünschte Aktion aus. Sie können jeweils nur eine Filterkonfiguration bearbeiten.
Hinweis
Bevor Sie eine Inhaltsfilterkonfiguration löschen können, müssen Sie die Zuweisung für jede Bereitstellung auf der Registerkarte Bereitstellungen aufheben.
Bewährte Methoden befolgen
Wir empfehlen, Ihre Entscheidungen zur Konfiguration der Inhaltsfilterung durch einen iterativen Identifizierungs- (z. B. Red-Team-Tests, Stresstests und Analysen) und Messprozess zu unterstützen, um für ein bestimmtes Modell, eine bestimmte Anwendung und ein bestimmtes Einsatzszenario relevante potenzielle Schäden zu ermitteln. Wiederholen Sie nach der Implementierung von Risikominderungen wie Inhaltsfilterung die Messung, um ihre Effektivität zu testen. Empfehlungen und bewährte Methoden für Verantwortungsvolle KI für Azure OpenAI, die auf dem Microsoft Responsible AI Standard basiert, finden Sie in der Übersicht über verantwortungsvolle KI für Azure OpenAI.
Zugehöriger Inhalt
- Erfahren Sie mehr über Verantwortungsvolle KI-Methoden für Azure OpenAI: Übersicht über verantwortungsvolle KI-Methoden für Azure OpenAI-Modelle.
- Erfahren Sie mehr über Inhaltsfilterkategorien und Schweregrade mit dem Azure OpenAI Service.
- Erfahren Sie mehr über Rote Teams in unserem Artikel: Einführung in das Red Teaming großer Sprachmodelle (LLMs).