Udostępnij za pośrednictwem


Monitowanie osłon

Generowanie modeli sztucznej inteligencji może stanowić zagrożenie dla wykorzystywania przez złośliwych podmiotów. Aby ograniczyć te zagrożenia, integrujemy mechanizmy bezpieczeństwa, aby ograniczyć zachowanie dużych modeli językowych (LLM) w bezpiecznym zakresie operacyjnym. Jednak pomimo tych zabezpieczeń, LLMs mogą nadal być narażone na niepożądane dane wejściowe, które pomijają zintegrowane protokoły bezpieczeństwa.

Prompt Shields to ujednolicony interfejs API, który analizuje dane wejściowe LLM i wykrywa ataki monitu użytkownika i ataki na dokument, które są dwoma typowymi typami niepożądanych danych wejściowych.

Monitowanie o osłony dla monitów użytkownika

Wcześniej nazywana wykrywaniem ryzyka jailbreaku ta osłona jest przeznaczona dla ataków polegających na wstrzyknięciu monitu użytkownika, w których użytkownicy celowo wykorzystują luki w zabezpieczeniach systemu w celu wywołania nieautoryzowanego zachowania z poziomu usługi LLM. Może to prowadzić do niewłaściwego generowania zawartości lub naruszeń ograniczeń nakładanych przez system.

Monituj osłony dla dokumentów

Ta tarcza ma na celu ochronę przed atakami korzystającymi z informacji, które nie są bezpośrednio dostarczane przez użytkownika lub dewelopera, takie jak dokumenty zewnętrzne. Osoby atakujące mogą osadzić ukryte instrukcje w tych materiałach w celu uzyskania nieautoryzowanej kontroli nad sesją LLM.

Typy ataków wejściowych

W tej tabeli opisano dwa typy ataków wejściowych wykrywanych przez funkcja Prompt Shields.

Typ Osoba atakująca Punkt wejścia Method Cel/wpływ Wynikowe działanie
Ataki monitu użytkownika User Monity użytkownika Ignorowanie monitów systemowych/trenowanie RLHF Zmiana zamierzonego zachowania usługi LLM Wykonywanie ograniczonych akcji względem trenowania
Ataki na dokumenty Inna firma Zawartość innej firmy (dokumenty, wiadomości e-mail) Błędna interpretacja zawartości innej firmy Uzyskiwanie nieautoryzowanego dostępu lub kontroli Wykonywanie niezamierzonych poleceń lub akcji

Podtypy ataków monitu użytkownika

Monituj osłony dla ataków monitu użytkownika rozpoznaje następujące klasy ataków:

Kategoria opis
Próba zmiany reguł systemowych Ta kategoria obejmuje, ale nie jest ograniczona, żądania użycia nowego nieograniczonego asystenta systemu/sztucznej inteligencji bez reguł, zasad lub ograniczeń lub żądań poinstruowania sztucznej inteligencji o ignorowaniu, zapominaniu i lekceważeniu reguł, instrukcji i poprzednich zmian.
Osadzanie makiety konwersacji w celu mylić model Ten atak używa spreparowanych przez użytkownika konwersacyjnych kolei osadzonych w pojedynczym zapytaniu użytkownika, aby poinstruować asystenta systemu/sztucznej inteligencji o ignorowanie reguł i ograniczeń.
Odgrywanie ról Ten atak nakazuje systemowi/asystentowi sztucznej inteligencji działanie jako inna "osoba systemu", która nie ma istniejących ograniczeń systemowych lub przypisuje antropomorficzne cechy ludzkie do systemu, takie jak emocje, myśli i opinie.
Ataki kodowania Ten atak próbuje użyć kodowania, takiego jak metoda przekształcania znaków, style generowania, szyfry lub inne odmiany języka naturalnego, aby obejść reguły systemowe.

Podtypy ataków dokumentów

Monitowanie o ataki Osłony dla dokumentów rozpoznaje następujące klasy ataków:

Kategoria opis
Manipulowanie zawartością Polecenia związane z fałszowaniem, ukrywaniem, manipulowaniem lub wypychaniem określonych informacji.
Wtargnięcie Polecenia związane z tworzeniem zaplecza, nieautoryzowaną eskalacją uprawnień i uzyskiwaniem dostępu do usług LLMs i systemów
Zbieranie informacji Polecenia związane z usuwaniem, modyfikowaniem lub uzyskiwaniem dostępu do danych lub kradzieżą danych.
Dostępność Polecenia, które sprawiają, że model jest bezużyteczny dla użytkownika, blokuje określoną możliwość lub wymusza generowanie nieprawidłowych informacji przez model.
Oszustwo Polecenia związane z oszukaniem użytkownika z pieniędzy, haseł, informacji lub działania w imieniu użytkownika bez autoryzacji
Złośliwe oprogramowanie Polecenia związane z rozprzestrzenianiem złośliwego oprogramowania za pośrednictwem złośliwych linków, wiadomości e-mail itp.
Próba zmiany reguł systemowych Ta kategoria obejmuje, ale nie jest ograniczona, żądania użycia nowego nieograniczonego asystenta systemu/sztucznej inteligencji bez reguł, zasad lub ograniczeń lub żądań poinstruowania sztucznej inteligencji o ignorowaniu, zapominaniu i lekceważeniu reguł, instrukcji i poprzednich zmian.
Osadzanie makiety konwersacji w celu mylić model Ten atak używa spreparowanych przez użytkownika konwersacyjnych kolei osadzonych w pojedynczym zapytaniu użytkownika, aby poinstruować asystenta systemu/sztucznej inteligencji o ignorowanie reguł i ograniczeń.
Odgrywanie ról Ten atak nakazuje systemowi/asystentowi sztucznej inteligencji działanie jako inna "osoba systemu", która nie ma istniejących ograniczeń systemowych lub przypisuje antropomorficzne cechy ludzkie do systemu, takie jak emocje, myśli i opinie.
Ataki kodowania Ten atak próbuje użyć kodowania, takiego jak metoda przekształcania znaków, style generowania, szyfry lub inne odmiany języka naturalnego, aby obejść reguły systemowe.

Ograniczenia

Dostępność języków

Obecnie interfejs API Prompt Shields obsługuje język angielski. Chociaż nasz interfejs API nie ogranicza przesyłania treści innych niż angielski, nie możemy zagwarantować tego samego poziomu jakości i dokładności w analizie takiej zawartości. Zalecamy użytkownikom przesyłanie głównie zawartości w języku angielskim, aby zapewnić najbardziej niezawodne i dokładne wyniki z interfejsu API.

Ograniczenia długości tekstu

Zobacz Wymagania dotyczące danych wejściowych, aby uzyskać informacje o maksymalnych ograniczeniach długości tekstu.

Regiony

Aby korzystać z tego interfejsu API, należy utworzyć zasób Bezpieczeństwa zawartości usługi Azure AI w obsługiwanych regionach. Zobacz Dostępność regionów.

Ograniczenia modułu TPS

Zobacz Współczynniki zapytań.

Jeśli potrzebujesz wyższej stawki, skontaktuj się z nami, aby go poprosić.

Następne kroki

Postępuj zgodnie z przewodnikiem Szybki start, aby rozpocząć korzystanie z bezpieczeństwa zawartości usługi Azure AI w celu wykrywania zagrożeń dotyczących danych wejściowych użytkowników.