Ocena aplikacji generacyjnych sztucznej inteligencji

Ważne

Niektóre funkcje opisane w tym artykule mogą być dostępne tylko w wersji zapoznawczej. Ta wersja zapoznawcza jest udostępniana bez umowy dotyczącej poziomu usług i nie zalecamy korzystania z niej w przypadku obciążeń produkcyjnych. Niektóre funkcje mogą być nieobsługiwane lub ograniczone. Aby uzyskać więcej informacji, zobacz Uzupełniające warunki korzystania z wersji zapoznawczych platformy Microsoft Azure.

Postępy w modelach językowych, takich jak GPT-4 za pośrednictwem usługi Azure OpenAI Service, oferują świetną obietnicę, gdy pojawią się wyzwania związane z odpowiedzialną sztuczną inteligencją. Jeśli nie zostały starannie zaprojektowane, systemy oparte na tych modelach mogą utrwalać istniejące uprzedzenia społeczne, promować dezinformacji, tworzyć treści manipulacyjne lub prowadzić do szerokiego zakresu innych negatywnych skutków. Eliminowanie tych zagrożeń przy jednoczesnym maksymalizacji korzyści dla użytkowników jest możliwe dzięki podejściu iteracyjnemu przez cztery etapy: identyfikowanie, mierzenie i ograniczanie ryzyka.

Etap pomiaru zapewnia kluczowe informacje dotyczące kierowania rozwojem w kierunku jakości i bezpieczeństwa. Z jednej strony obejmuje to ocenę wydajności i jakości. Z drugiej strony podczas oceny ryzyka i bezpieczeństwa obejmuje to ocenę predyspozycji systemu sztucznej inteligencji w kierunku różnych zagrożeń (z których każda może mieć różne ważności). W obu przypadkach jest to osiągane przez ustanowienie jasnych metryk, utworzenie zestawów testów i ukończenie iteracyjnych, systematycznego testowania. Ten etap pomiaru zapewnia praktykom sygnały, które informują o ukierunkowanych krokach ograniczania ryzyka, takich jak inżynieria monitów i stosowanie filtrów zawartości. Po zastosowaniu środków zaradczych można powtórzyć oceny w celu przetestowania skuteczności.

Usługa Azure AI Studio udostępnia praktykom narzędzia do ręcznej i zautomatyzowanej oceny, które mogą pomóc w fazie pomiaru. Zalecamy rozpoczęcie od ręcznej oceny, a następnie przejście do zautomatyzowanej oceny. Ręczna ocena, czyli ręczne przeglądanie wygenerowanych danych wyjściowych aplikacji, jest przydatne do śledzenia postępu w małym zestawie problemów z priorytetem. W przypadku ograniczania określonych zagrożeń najczęściej najbardziej produktywne jest ręczne sprawdzanie postępu względem małego zestawu danych, dopóki dowody ryzyka nie będą już obserwowane przed przejściem do zautomatyzowanej oceny. Usługa Azure AI Studio obsługuje środowisko ręcznej oceny na potrzeby sprawdzania małych zestawów danych.

Automatyczna ocena jest przydatna do mierzenia jakości i bezpieczeństwa na dużą skalę dzięki zwiększonemu zasięgowi, aby zapewnić bardziej kompleksowe wyniki. Zautomatyzowane narzędzia do oceny umożliwiają również ciągłe oceny, które okresowo są uruchamiane w celu monitorowania regresji w miarę rozwoju systemu, użycia i ograniczania ryzyka. Obsługujemy dwie główne metody zautomatyzowanej oceny aplikacji generacyjnych sztucznej inteligencji: tradycyjne oceny uczenia maszynowego i ocenę wspomaganą przez sztuczną inteligencję.

Tradycyjne pomiary uczenia maszynowego

W kontekście generowania sztucznej inteligencji tradycyjne oceny uczenia maszynowego (tworzące tradycyjne metryki uczenia maszynowego) są przydatne, gdy chcemy określić dokładność wygenerowanych danych wyjściowych w porównaniu z oczekiwanymi odpowiedziami. Tradycyjne metryki są korzystne, gdy ma dostęp do prawdy podstawowej i oczekiwanych odpowiedzi.

  • Podstawowa prawda odnosi się do danych, które naszym zdaniem są prawdziwe, a zatem są używane jako punkt odniesienia dla porównań.
  • Oczekiwane odpowiedzi to wyniki, które naszym zdaniem powinny wystąpić na podstawie naszych podstawowych danych prawdy. Na przykład w zadaniach, takich jak klasyfikacja lub krótkie odpowiedzi na pytania, gdzie zazwyczaj istnieje jedna prawidłowa lub oczekiwana odpowiedź, wyniki F1 lub podobne tradycyjne metryki mogą służyć do mierzenia dokładności i kompletności wygenerowanych danych wyjściowych względem oczekiwanych odpowiedzi.

Tradycyjne metryki są również przydatne, gdy chcemy zrozumieć, ile wygenerowanych danych wyjściowych pogarsza, czyli odbiega od oczekiwanych odpowiedzi. Zapewniają one ilościową miarę błędu lub odchylenia, umożliwiając nam śledzenie wydajności systemu w czasie lub porównanie wydajności różnych systemów. Te metryki mogą być jednak mniej odpowiednie dla zadań, które obejmują kreatywność, niejednoznaczność lub wiele poprawnych rozwiązań, ponieważ te metryki zwykle traktują wszelkie odchylenia od oczekiwanej odpowiedzi jako błąd.

Oceny wspomagane przez sztuczną inteligencję

Duże modele językowe (LLM), takie jak GPT-4, mogą służyć do oceny danych wyjściowych generacyjnych systemów językowych sztucznej inteligencji. Jest to osiągane przez poinstruowanie modułu LLM o dodawaniu adnotacji do niektórych aspektów danych wyjściowych generowanych przez sztuczną inteligencję. Na przykład można podać GPT-4 ze skalą ważności istotności (na przykład podać kryteria adnotacji istotności w skali 1–5), a następnie poprosić GPT-4 o adnotację znaczenia odpowiedzi systemu sztucznej inteligencji na podane pytanie.

Oceny wspomagane przez sztuczną inteligencję mogą być korzystne w scenariuszach, w których podstawowe informacje i oczekiwane odpowiedzi nie są dostępne. W wielu scenariuszach generowania sztucznej inteligencji, takich jak otwarte odpowiedzi na pytania lub kreatywne pisanie, pojedyncze poprawne odpowiedzi nie istnieją, co utrudnia ustalenie podstawy prawdy lub oczekiwanych odpowiedzi, które są niezbędne dla tradycyjnych metryk.

W takich przypadkach oceny wspomagane sztuczną inteligencją mogą pomóc w zmierzeniu ważnych pojęć, takich jak jakość i bezpieczeństwo wygenerowanych danych wyjściowych. W tym miejscu jakość odnosi się do atrybutów wydajności i jakości, takich jak istotność, spójność, płynność i uziemienie. Sejf ty odnosi się do czynników ryzyka i bezpieczeństwa, takich jak obecność szkodliwej zawartości (ryzyko związane z zawartością).

Dla każdego z tych atrybutów wymagana jest staranna koncepcja i eksperymentowanie w celu utworzenia instrukcji i skali ważności usługi LLM. Czasami te atrybuty odnoszą się do złożonych pojęć socjotechnicznych, które różne osoby mogą postrzegać inaczej. Dlatego ważne jest, aby instrukcje adnotacji LLM stanowiły uzgodnioną, konkretną definicję atrybutu. Następnie równie ważne jest zapewnienie, że llM stosuje instrukcje w sposób zgodny z adnotacjami ekspertów ludzkich.

Poinstruując llM, aby dodawać adnotacje do tych atrybutów, możesz utworzyć metrykę, aby sprawdzić, jak dobrze działa aplikacja generacyjna sztucznej inteligencji, nawet jeśli nie ma jednej poprawnej odpowiedzi. Oceny wspomagane przez sztuczną inteligencję zapewniają elastyczny i zniuansowany sposób oceny aplikacji generacyjnych sztucznej inteligencji, szczególnie w zadaniach obejmujących kreatywność, niejednoznaczność lub wiele poprawnych rozwiązań. Jednak niezawodność i ważność tych ocen zależą od jakości usługi LLM i podanych instrukcji.

Metryki wydajności i jakości wspomagane przez sztuczną inteligencję

Aby uruchomić oceny wydajności i jakości wspomagane przez sztuczną inteligencję, usługa LLM jest prawdopodobnie używana dla dwóch oddzielnych funkcji. Najpierw należy utworzyć testowy zestaw danych. Można to utworzyć ręcznie, wybierając monity i przechwytując odpowiedzi z systemu sztucznej inteligencji, lub można go utworzyć syntetycznie, symulując interakcje między systemem sztucznej inteligencji i llM (nazywanym generatorem zestawów danych wspomaganych przez sztuczną inteligencję na poniższym diagramie). Następnie usługa LLM jest również używana do dodawania adnotacji do danych wyjściowych systemu sztucznej inteligencji w zestawie testowym. Na koniec adnotacje są agregowane w metryki wydajności i jakości oraz rejestrowane w projekcie programu AI Studio do wyświetlania i analizy.

Diagram przedstawiający generowanie aplikacji jakości sztucznej inteligencji w programie AI Studio.

Uwaga

Obecnie obsługujemy GPT-4 i GPT-3 jako modele ocen wspomaganych przez sztuczną inteligencję. Aby użyć tych modeli do oceny, należy ustanowić prawidłowe połączenia. Zdecydowanie zalecamy użycie biblioteki GPT-4, ponieważ oferuje ona znaczne ulepszenia w kontekście zrozumienia i przestrzegania instrukcji.

Metryki ryzyka i bezpieczeństwa wspomagane przez sztuczną inteligencję

Jedną z zastosowań oceny jakości i wydajności wspomaganej sztucznej inteligencji jest tworzenie metryk ryzyka i bezpieczeństwa wspomaganych przez sztuczną inteligencję. Aby utworzyć metryki ryzyka i bezpieczeństwa wspomagane przez sztuczną inteligencję, oceny bezpieczeństwa usługi Azure AI Studio aprowizuje model GPT-4 platformy Azure OpenAI hostowany w usłudze zaplecza, a następnie organizuje każde z dwóch kroków zależnych od usługi LLM:

  • Symulowanie niepożądanych interakcji z systemem generowania sztucznej inteligencji:

    Wygeneruj zestaw danych testowych wysokiej jakości danych wejściowych i odpowiedzi, symulując wymiany jednokrotne lub wieloestrojowe kierowane przez monity, które są przeznaczone do generowania szkodliwych odpowiedzi. 

  • Dodawanie adnotacji do zestawu danych testowych pod kątem ryzyka związanego z zawartością lub zabezpieczeniami:

    Dodawać adnotacje do każdej interakcji z zestawu danych testowych z ważnością i rozumowaniem pochodzącym z skali ważności zdefiniowanej dla każdego typu zawartości i ryzyka zabezpieczeń.

Ponieważ aprowizowane modele GPT-4 działają jako generator zestawów danych niepożądanych lub adnotacji, ich filtry bezpieczeństwa są wyłączone, a modele są hostowane w usłudze zaplecza. Monity używane dla tych maszyn LLM i docelowych zestawów danych monitów o atak są również hostowane w usłudze. Ze względu na poufny charakter generowanej i przekazywanej zawartości za pośrednictwem usługi LLM modele i zasoby danych nie są bezpośrednio dostępne dla klientów usługi Azure AI Studio.

Niepożądane ukierunkowane zestawy danych monitu zostały opracowane przez naukowców firmy Microsoft, naukowców stosowanych, lingwistów i ekspertów ds. zabezpieczeń, aby pomóc użytkownikom rozpocząć ocenianie zawartości i zagrożeń bezpieczeństwa w generowaniu systemów sztucznej inteligencji.

Jeśli masz już testowy zestaw danych z monitami wejściowymi i odpowiedziami systemu sztucznej inteligencji (na przykład rekordami z red-teaming), możesz bezpośrednio przekazać ten zestaw danych w celu dodania adnotacji przez ewaluator ryzyka zawartości. Sejf ty oceny mogą pomóc w rozszerzaniu i przyspieszaniu ręcznego ręcznego tworzenia zespołu czerwonego, umożliwiając czerwonym zespołom generowanie i automatyzowanie monitów niepożądanych na dużą skalę. Jednak oceny wspomagane przez sztuczną inteligencję nie są przeznaczone do zastąpienia przeglądu przez człowieka ani zapewnienia kompleksowego pokrycia wszystkich możliwych zagrożeń.

Diagram przedstawiający generowanie bezpieczeństwa sztucznej inteligencji w programie AI Studio.

Ocenianie luki w zabezpieczeniach jailbreak

W przeciwieństwie do ryzyka związanego z zawartością luka w zabezpieczeniach systemu jailbreak nie może być niezawodnie mierzona przy użyciu bezpośredniej adnotacji przez llM. Jednak luka w zabezpieczeniach systemu jailbreak może być mierzona za pomocą porównania dwóch równoległych zestawów danych testowych: zestawu danych testu niepożądanego w porównaniu z tym samym niepożądanym testowym zestawem danych z wstrzyknięciami jailbreaku w pierwszej kolejności. Każdy zestaw danych może być oznaczony adnotacjami przez ewaluatora ryzyka związanego ze sztuczną inteligencją, generując współczynnik wad ryzyka zawartości dla każdego z nich. Następnie użytkownik ocenia lukę w zabezpieczeniach jailbreak, porównując współczynniki wad i zauważając przypadki, w których zestaw danych jailbreak doprowadził do większej lub większej ważności wad. Jeśli na przykład wystąpienie w tych równoległych zestawach danych testowych jest oznaczone jako bardziej poważne dla wersji z wstrzyknięciem jailbreaku, to wystąpienie zostanie uznane za wadę jailbreaku.

Aby dowiedzieć się więcej o obsługiwanych typach zadań i wbudowanych metrykach, zobacz Metryki oceny i monitorowania dla generowania sztucznej inteligencji.

Ocenianie i monitorowanie aplikacji generacyjnych sztucznej inteligencji

Usługa Azure AI Studio obsługuje kilka odrębnych ścieżek do generowania deweloperów aplikacji sztucznej inteligencji w celu oceny swoich aplikacji:

Diagram przepływu oceny i monitorowania z różnymi ścieżkami do oceny generowania aplikacji sztucznej inteligencji.

  • Plac zabaw: W pierwszej ścieżce możesz zacząć od zaangażowania się w "plac zabaw". W tym miejscu możesz wybrać dane, których chcesz użyć do uziemienia modelu, wybrać model podstawowy dla aplikacji i podać instrukcje metaprompt, aby kierować zachowaniem modelu. Następnie możesz ręcznie ocenić aplikację, przekazując zestaw danych i obserwując odpowiedzi aplikacji. Po zakończeniu ręcznej inspekcji możesz użyć kreatora oceny, aby przeprowadzić bardziej kompleksowe oceny za pomocą tradycyjnych metryk lub ocen wspomaganych przez sztuczną inteligencję.

  • Przepływy: Strona przepływu monitu usługi Azure AI Studio oferuje dedykowane narzędzie programistyczne dostosowane do usprawniania całego cyklu życia aplikacji sztucznej inteligencji obsługiwanych przez usługi LLMs. Przy użyciu tej ścieżki można tworzyć przepływy wykonywalne łączące llms, monity i narzędzia języka Python za pomocą wizualizowanego grafu. Ta funkcja upraszcza debugowanie, udostępnianie i wspólne iteracje przepływów. Ponadto można tworzyć warianty monitów i oceniać ich wydajność za pomocą testowania na dużą skalę.
    Oprócz narzędzia programistycznego "Przepływy" masz również możliwość tworzenia aplikacji generacyjnych sztucznej inteligencji przy użyciu środowiska zestawu SDK opartego na kodzie. Niezależnie od wybranej ścieżki programistycznej możesz ocenić utworzone przepływy za pośrednictwem kreatora oceny, dostępnego na karcie Przepływy lub za pośrednictwem środowiska zestawu SDK/interfejsu wiersza polecenia. Na karcie "Przepływy" masz nawet elastyczność korzystania z niestandardowego kreatora oceny i uwzględnienia własnych metryk.

  • Bezpośrednia ocena zestawu danych: jeśli zebrano zestaw danych zawierający interakcje między aplikacją a użytkownikami końcowymi, możesz przesłać te dane bezpośrednio do kreatora oceny na karcie "Ocena". Ten proces umożliwia generowanie automatycznych ocen wspomaganych przez sztuczną inteligencję, a wyniki można wizualizować na tej samej karcie. To podejście koncentruje się na metodzie oceny skoncentrowanej na danych. Alternatywnie możesz ocenić zestaw danych konwersacji przy użyciu środowiska zestawu SDK/interfejsu wiersza polecenia oraz wygenerować i zwizualizować oceny za pomocą programu Azure AI Studio.

Po ocenie aplikacji, przepływów lub danych z dowolnego z tych kanałów możesz kontynuować wdrażanie aplikacji generowania sztucznej inteligencji i monitorować jej jakość i bezpieczeństwo w środowisku produkcyjnym, gdy angażuje się w nowe interakcje z użytkownikami.

Następne kroki