Eliminowanie potencjalnych szkód
Po określeniu punktu odniesienia i mierzenia szkodliwych danych wyjściowych wygenerowanych przez rozwiązanie można wykonać kroki w celu ograniczenia potencjalnych szkód, a następnie po ponownym testowaniu zmodyfikowanego systemu i porównywaniu poziomów szkód z punktem odniesienia.
Ograniczenie potencjalnych szkód w rozwiązaniu do generowania sztucznej inteligencji obejmuje podejście warstwowe, w którym techniki ograniczania ryzyka można zastosować w każdej z czterech warstw, jak pokazano poniżej:
- Model
- system Sejf ty
- Metaprompt i uziemienia
- Środowisko użytkownika
1: Warstwa modelu
Warstwa modelu składa się z co najmniej jednego generowania modeli sztucznej inteligencji w centrum rozwiązania. Na przykład rozwiązanie może zostać skompilowane wokół modelu, takiego jak GPT-4.
Środki zaradcze, które można zastosować w warstwie modelu, obejmują:
- Wybieranie modelu, który jest odpowiedni dla zamierzonego użycia rozwiązania. Na przykład, chociaż GPT-4 może być zaawansowanym i wszechstronnym modelem, w rozwiązaniu, które jest wymagane tylko do klasyfikowania małych, konkretnych danych wejściowych tekstu, prostszy model może zapewnić wymagane funkcje z niższym ryzykiem szkodliwego generowania zawartości.
- Dostrajanie podstawowego modelu przy użyciu własnych danych treningowych, dzięki czemu odpowiedzi generowane przez nie będą bardziej istotne i ograniczone do scenariusza rozwiązania.
2: Warstwa systemu bezpieczeństwa
Warstwa systemu bezpieczeństwa obejmuje konfiguracje i możliwości na poziomie platformy, które pomagają ograniczyć szkody. Na przykład usługa Azure AI Studio obejmuje obsługę filtrów zawartości, które stosują kryteria pomijania monitów i odpowiedzi na podstawie klasyfikacji zawartości na cztery poziomy ważności (bezpieczne, niskie, średnie i wysokie) dla czterech kategorii potencjalnej szkody (nienawiści, seksualnej, przemocy i samookaleczenia).
Inne środki zaradcze warstwy systemu bezpieczeństwa mogą obejmować algorytmy wykrywania nadużyć w celu określenia, czy rozwiązanie jest systematycznie nadużywane (na przykład za pośrednictwem dużych ilości zautomatyzowanych żądań od bota) i powiadomień o alertach, które umożliwiają szybką reakcję na potencjalne nadużycie systemu lub szkodliwe zachowanie.
3: Metaprompt i warstwa uziemienia
Warstwa metapromptu i uziemienia koncentruje się na konstruowaniu monitów przesyłanych do modelu. Techniki ograniczania szkód, które można zastosować w tej warstwie, obejmują:
- Określanie metapromptów lub danych wejściowych systemu, które definiują parametry behawioralne dla modelu.
- Zastosowanie inżynierii monitu w celu dodania danych uziemienia do monitów wejściowych, maksymalizując prawdopodobieństwo odpowiedniego, nieużywanego danych wyjściowych.
- Użycie podejścia do pobierania rozszerzonej generacji (RAG) w celu pobrania danych kontekstowych z zaufanych źródeł danych i uwzględnienia ich w monitach.
4: Warstwa środowiska użytkownika
Warstwa środowiska użytkownika obejmuje aplikację oprogramowania, za pomocą której użytkownicy wchodzą w interakcję z modelem generowania sztucznej inteligencji i dokumentacją lub innymi zabezpieczeniami użytkowników, które opisują użycie rozwiązania dla użytkowników i uczestników projektu.
Projektowanie interfejsu użytkownika aplikacji w celu ograniczenia danych wejściowych do określonych tematów lub typów albo zastosowanie weryfikacji danych wejściowych i wyjściowych może ograniczyć ryzyko potencjalnie szkodliwych odpowiedzi.
Dokumentacja i inne opisy rozwiązania do generowania sztucznej inteligencji powinny być odpowiednio przejrzyste w zakresie możliwości i ograniczeń systemu, modeli, na których jest ona oparta, oraz wszelkich potencjalnych szkód, które nie zawsze mogą być rozwiązywane przez wprowadzone środki zaradcze.