Prompt Shields
Generative KI-Modelle können Risiken der Ausbeutung durch böswillige Akteure darstellen. Um diese Risiken zu minimieren, integrieren wir Sicherheitsmechanismen, um das Verhalten großer Sprachmodelle (LLMs) innerhalb eines sicheren betrieblichen Umfangs einzuschränken. Trotz dieser Schutzmaßnahmen können LLMs jedoch weiterhin anfällig für gegnerische Eingaben sein, die die integrierten Sicherheitsprotokolle umgehen.
Prompt Shields ist eine einheitliche API, die LLM-Eingaben analysiert und Benutzeraufforderungsangriffe und Dokumentangriffe erkennt, die zwei häufige Arten von Adversarialeingaben sind.
Prompt Shields für Benutzereingabeaufforderungen
Dieses Shield wurde zuvor als Erkennung von Jailbreak-Risiken bezeichnet und zielt auf Benutzereingabeaufforderungs-Einschleusungsangriffe ab, bei denen Benutzer absichtlich Systemrisiken ausnutzen, um nicht autorisiertes Verhalten von der LLM auszulösen. Dies kann zu unangemessenen Inhaltsgenerierungen oder Verstößen gegen vom System auferlegte Einschränkungen führen.
Prompt Shields für Dokumente
Dieses Shield zielt darauf ab, vor Angriffen zu schützen, die Informationen verwenden, die nicht direkt vom Benutzer oder Entwickler bereitgestellt werden, z. B. externe Dokumente. Angreifer können ausgeblendete Anweisungen in diese Materialien einbetten, um nicht autorisierte Kontrolle über die LLM-Sitzung zu erlangen.
Arten von Eingabeangriffen
Die beiden Arten von Eingabeangriffen, die Prompt Shields erkennt, werden in dieser Tabelle beschrieben.
type | Angreifer | Eingangspunkt | Methode | Ziel/Wirkung | Resultierendes Verhalten |
---|---|---|---|---|---|
Benutzereingabeaufforderungsangriffe | Benutzer | Benutzereingabeaufforderungen | Ignorieren von Systemaufforderungen/RLHF-Training | Ändern des beabsichtigten LLM-Verhaltens | Ausführen eingeschränkter Aktionen für Training |
Dokumentangriffe | Drittanbieter. | Inhalte von Drittanbietern (Dokumente, E-Mails) | Falschinterpretieren von Inhalten von Drittanbietern | Erhalten nicht autorisierter Zugriffe oder Kontrolle | Ausführen unbeabsichtigter Befehle oder Aktionen |
Untertypen von Benutzereingabeaufforderungsangriffen
Prompt Shields für Benutzereingabeaufforderungsangriffe erkennen die folgenden Angriffsklassen:
Category | Beschreibung |
---|---|
Versuch der Änderung von Systemregeln | Zu dieser Kategorie gehören unter anderem Anfragen zur Verwendung eines neuen uneingeschränkten Systems/KI-Assistenten ohne Regeln, Prinzipien oder Einschränkungen oder Anfragen, die die KI anweisen, ihre Regeln, Anweisungen und früheren Spielzüge zu ignorieren, zu vergessen und zu missachten. |
Einbetten eines Unterhaltungsmodells zum Verwechseln des Modells | Dieser Angriff verwendet vom Benutzer gestaltete Unterhaltungen, die in eine einzelne Benutzerabfrage eingebettet sind, um den System-/KI-Assistenten anzuweisen, Regeln und Einschränkungen zu ignorieren. |
Rollenspiel | Dieser Angriff weist den System-/KI-Assistenten an, als eine andere „Systempersona“ zu fungieren, die keine bestehenden Systemeinschränkungen aufweist, oder es weist dem System anthropomorphe menschliche Eigenschaften zu, z. B. Emotionen, Gedanken und Meinungen. |
Codieren von Angriffen | Dieser Angriff versucht, die Codierung zu verwenden, z. B. eine Zeichentransformationsmethode, Generierungsstile, Chiffre oder andere Variationen in natürlicher Sprache, um die Systemregeln zu umgehen. |
Untertypen von Dokumentangriffen
Prompt Shields für Dokumentenangriffe erkennen die folgenden Angriffsklassen:
Category | Beschreibung |
---|---|
Bearbeiteter Inhalt | Befehle im Zusammenhang mit Fälschungen, Ausblenden, Bearbeiten oder Pushen bestimmter Informationen. |
Eindringen | Befehle im Zusammenhang mit der Erstellung von Hintertüren, einer nicht autorisierten Rechteausweitung und dem Zugriff auf LLMs und Systeme |
Sammeln von Informationen | Befehle im Zusammenhang mit dem Löschen, Ändern oder Zugreifen auf Daten oder das Stehlen von Daten. |
Verfügbarkeit | Befehle, die das Modell für den Benutzer unbrauchbar machen, eine bestimmte Funktion blockieren oder erzwingen, dass das Modell falsche Informationen generiert. |
Betrug | Befehle im Zusammenhang mit dem Betrug des Benutzers um Geld, Passwörter oder Informationen oder dem unbefugten Handeln im Namen des Benutzers |
Malware | Befehle im Zusammenhang mit der Verbreitung von Schadsoftware über schädliche Links, E-Mails usw. |
Versuch der Änderung von Systemregeln | Zu dieser Kategorie gehören unter anderem Anfragen zur Verwendung eines neuen uneingeschränkten Systems/KI-Assistenten ohne Regeln, Prinzipien oder Einschränkungen oder Anfragen, die die KI anweisen, ihre Regeln, Anweisungen und früheren Spielzüge zu ignorieren, zu vergessen und zu missachten. |
Einbetten eines Unterhaltungsmodells zum Verwechseln des Modells | Dieser Angriff verwendet vom Benutzer gestaltete Unterhaltungen, die in eine einzelne Benutzerabfrage eingebettet sind, um den System-/KI-Assistenten anzuweisen, Regeln und Einschränkungen zu ignorieren. |
Rollenspiel | Dieser Angriff weist den System-/KI-Assistenten an, als eine andere „Systempersona“ zu fungieren, die keine bestehenden Systemeinschränkungen aufweist, oder es weist dem System anthropomorphe menschliche Eigenschaften zu, z. B. Emotionen, Gedanken und Meinungen. |
Codieren von Angriffen | Dieser Angriff versucht, die Codierung zu verwenden, z. B. eine Zeichentransformationsmethode, Generierungsstile, Chiffre oder andere Variationen in natürlicher Sprache, um die Systemregeln zu umgehen. |
Begrenzungen
Verfügbarkeit der Sprache
Derzeit unterstützt die Prompt Shields-API die Englische Sprache. Während unsere API die Übermittlung von nicht englischen Inhalten nicht einschränkt, können wir bei der Analyse solcher Inhalte nicht das gleiche Qualitäts- und Genauigkeitsniveau garantieren. Wir empfehlen Benutzern, Inhalte in erster Linie in Englisch zu übermitteln, um die zuverlässigsten und genausten Ergebnisse aus der API sicherzustellen.
Textlängenbeschränkungen
Das maximale Zeichenlimit für Prompt Shields ermöglicht eine Benutzeraufforderung von bis zu 10.000 Zeichen, während das Dokumentarray auf maximal 5 Dokumente beschränkt ist, wobei insgesamt maximal 10.000 Zeichen enthalten sein dürfen.
Regions
Um diese API zu verwenden, müssen Sie Ihre Azure KI Inhaltssicherheit-Ressource in den unterstützten Regionen erstellen. Derzeit sind sie in den folgenden Azure-Regionen verfügbar:
- East US
- Europa, Westen
TPS-Einschränkungen
Tarif | Anforderungen pro 10 Sekunden |
---|---|
F0 | 1.000 |
S0 | 1.000 |
Bei Bedarf können Sie sich auch an uns wenden, um eine höhere Rate zu beantragen.
Nächste Schritte
Folgen Sie der Schnellstartanleitung, um mit Azure KI Inhaltssicherheit zu beginnen, um Benutzereingaberisiken zu erkennen.