Eliminowanie potencjalnych szkód

Ukończone

Po określeniu punktu odniesienia i mierzenia szkodliwych danych wyjściowych wygenerowanych przez rozwiązanie można wykonać kroki w celu ograniczenia potencjalnych szkód, a następnie po ponownym testowaniu zmodyfikowanego systemu i porównywaniu poziomów szkód z punktem odniesienia.

Ograniczenie potencjalnych szkód w rozwiązaniu do generowania sztucznej inteligencji obejmuje podejście warstwowe, w którym techniki ograniczania ryzyka można zastosować w każdej z czterech warstw, jak pokazano poniżej:

Diagram przedstawiający warstwy modelu, systemu bezpieczeństwa, aplikacji i pozycjonowania rozwiązania do generowania sztucznej inteligencji.

  1. Model
  2. system Sejf ty
  3. Metaprompt i uziemienia
  4. Środowisko użytkownika

1: Warstwa modelu

Warstwa modelu składa się z co najmniej jednego generowania modeli sztucznej inteligencji w centrum rozwiązania. Na przykład rozwiązanie może zostać skompilowane wokół modelu, takiego jak GPT-4.

Środki zaradcze, które można zastosować w warstwie modelu, obejmują:

  • Wybieranie modelu, który jest odpowiedni dla zamierzonego użycia rozwiązania. Na przykład, chociaż GPT-4 może być zaawansowanym i wszechstronnym modelem, w rozwiązaniu, które jest wymagane tylko do klasyfikowania małych, konkretnych danych wejściowych tekstu, prostszy model może zapewnić wymagane funkcje z niższym ryzykiem szkodliwego generowania zawartości.
  • Dostrajanie podstawowego modelu przy użyciu własnych danych treningowych, dzięki czemu odpowiedzi generowane przez nie będą bardziej istotne i ograniczone do scenariusza rozwiązania.

2: Warstwa systemu bezpieczeństwa

Warstwa systemu bezpieczeństwa obejmuje konfiguracje i możliwości na poziomie platformy, które pomagają ograniczyć szkody. Na przykład usługa Azure AI Studio obejmuje obsługę filtrów zawartości, które stosują kryteria pomijania monitów i odpowiedzi na podstawie klasyfikacji zawartości na cztery poziomy ważności (bezpieczne, niskie, średnie i wysokie) dla czterech kategorii potencjalnej szkody (nienawiści, seksualnej, przemocy i samookaleczenia).

Inne środki zaradcze warstwy systemu bezpieczeństwa mogą obejmować algorytmy wykrywania nadużyć w celu określenia, czy rozwiązanie jest systematycznie nadużywane (na przykład za pośrednictwem dużych ilości zautomatyzowanych żądań od bota) i powiadomień o alertach, które umożliwiają szybką reakcję na potencjalne nadużycie systemu lub szkodliwe zachowanie.

3: Metaprompt i warstwa uziemienia

Warstwa metapromptu i uziemienia koncentruje się na konstruowaniu monitów przesyłanych do modelu. Techniki ograniczania szkód, które można zastosować w tej warstwie, obejmują:

  • Określanie metapromptów lub danych wejściowych systemu, które definiują parametry behawioralne dla modelu.
  • Zastosowanie inżynierii monitu w celu dodania danych uziemienia do monitów wejściowych, maksymalizując prawdopodobieństwo odpowiedniego, nieużywanego danych wyjściowych.
  • Użycie podejścia do pobierania rozszerzonej generacji (RAG) w celu pobrania danych kontekstowych z zaufanych źródeł danych i uwzględnienia ich w monitach.

4: Warstwa środowiska użytkownika

Warstwa środowiska użytkownika obejmuje aplikację oprogramowania, za pomocą której użytkownicy wchodzą w interakcję z modelem generowania sztucznej inteligencji i dokumentacją lub innymi zabezpieczeniami użytkowników, które opisują użycie rozwiązania dla użytkowników i uczestników projektu.

Projektowanie interfejsu użytkownika aplikacji w celu ograniczenia danych wejściowych do określonych tematów lub typów albo zastosowanie weryfikacji danych wejściowych i wyjściowych może ograniczyć ryzyko potencjalnie szkodliwych odpowiedzi.

Dokumentacja i inne opisy rozwiązania do generowania sztucznej inteligencji powinny być odpowiednio przejrzyste w zakresie możliwości i ograniczeń systemu, modeli, na których jest ona oparta, oraz wszelkich potencjalnych szkód, które nie zawsze mogą być rozwiązywane przez wprowadzone środki zaradcze.