Monitorowanie modelu dla generowanych aplikacji sztucznej inteligencji (wersja zapoznawcza)

Monitorowanie modeli w środowisku produkcyjnym jest istotną częścią cyklu życia sztucznej inteligencji. Zmiany w zachowaniu danych i konsumentów mogą wpływać na generowanie aplikacji sztucznej inteligencji w czasie, co skutkuje nieaktualnymi systemami, które negatywnie wpływają na wyniki biznesowe i uwidaczniają organizacje pod kątem zgodności, czynników ekonomicznych i ryzyka reputacji.

Ważne

Monitorowanie modelu dla generowanych aplikacji sztucznej inteligencji jest obecnie dostępne w publicznej wersji zapoznawczej. Te wersje zapoznawcze są udostępniane bez umowy dotyczącej poziomu usług i nie są zalecane w przypadku obciążeń produkcyjnych. Niektóre funkcje mogą być nieobsługiwane lub ograniczone. Aby uzyskać więcej informacji, zobacz Uzupełniające warunki korzystania z wersji zapoznawczych platformy Microsoft Azure.

Monitorowanie modeli usługi Azure Machine Edukacja dla aplikacji generacyjnych sztucznej inteligencji ułatwia monitorowanie aplikacji LLM w środowisku produkcyjnym pod kątem bezpieczeństwa i jakości w celu zapewnienia maksymalnego wpływu na działalność biznesową. Monitorowanie ostatecznie pomaga utrzymać jakość i bezpieczeństwo aplikacji generacyjnych sztucznej inteligencji. Możliwości i integracje obejmują:

  • Zbieranie danych produkcyjnych przy użyciu modułu zbierającego dane modelu.
  • Metryki oceny odpowiedzialnej sztucznej inteligencji, takie jak uziemienie, spójność, płynność, istotność i podobieństwo, które można współdziałać z usługą Azure Machine Edukacja metrykami oceny przepływu monitów.
  • Możliwość konfigurowania alertów pod kątem naruszeń w oparciu o cele organizacji i cykliczne uruchamianie monitorowania
  • Korzystaj z wyników na zaawansowanym pulpicie nawigacyjnym w obszarze roboczym w usłudze Azure Machine Edukacja Studio.
  • Integracja z usługą Azure Machine Edukacja metryki oceny przepływu monitu, analiza zebranych danych produkcyjnych w celu zapewnienia alertów terminowych i wizualizacja metryk w czasie. ​

Aby zapoznać się z podstawowymi pojęciami dotyczącymi monitorowania modelu, zapoznaj się z artykułem Monitorowanie modelu za pomocą usługi Azure Machine Edukacja (wersja zapoznawcza). Z tego artykułu dowiesz się, jak monitorować generowanie aplikacji sztucznej inteligencji wspieranej przez zarządzany punkt końcowy online. Czynności, które należy wykonać, to:

Metryki oceny

Metryki są generowane przez następujące najnowocześniejsze modele języka GPT skonfigurowane przy użyciu określonych instrukcji oceny (szablonów monitów), które działają jako modele ewaluacyjne dla zadań sekwencji do sekwencji. Ta technika wykazała silne wyniki empiryczne i wysoką korelację z oceną człowieka w porównaniu ze standardowymi metrykami oceny sztucznej inteligencji. Aby uzyskać więcej informacji na temat oceny przepływu monitów, zobacz Przesyłanie testu zbiorczego i ocena przepływu (wersja zapoznawcza), aby uzyskać więcej informacji na temat oceny przepływu monitów.

Te modele GPT są obsługiwane i zostaną skonfigurowane jako zasób usługi Azure OpenAI:

  • GPT-3.5 Turbo
  • GPT-4
  • GPT-4-32k

Obsługiwane są następujące metryki. Aby uzyskać bardziej szczegółowe informacje na temat każdej metryki, zobacz Monitorowanie opisów metryk oceny i przypadków użycia

  • Uziemienie: ocenia, jak dobrze generowane odpowiedzi modelu są zgodne z informacjami ze źródła danych wejściowych.
  • Istotność: ocenia zakres, w jakim generowane odpowiedzi modelu są odpowiednie i bezpośrednio związane z podanymi pytaniami.
  • Spójność: ocenia, jak dobrze model językowy może bezproblemowo tworzyć przepływy wyjściowe, odczytywać naturalnie i przypominać język przypominający człowieka.
  • Płynność: ocenia biegłość językową przewidywanej odpowiedzi dla generowania sztucznej inteligencji. Ocenia, jak dobrze wygenerowany tekst jest zgodny z regułami gramatycznymi, strukturami składniowymi i odpowiednim użyciem słownictwa, co skutkuje poprawną językowo i naturalnie brzmiącymi odpowiedziami.
  • Podobieństwo: ocenia podobieństwo między zdaniem podstawy (lub dokumentem) a wyrokiem przewidywania wygenerowanym przez model sztucznej inteligencji.

Wymagania dotyczące konfiguracji metryk

Następujące dane wejściowe (nazwy kolumn danych) są wymagane do mierzenia bezpieczeństwa i jakości generowania:

  • prompt text — oryginalny monit podany (znany również jako "inputs" lub "question")
  • tekst ukończenia — końcowe zakończenie wywołania interfejsu API, które jest zwracane (znane również jako "dane wyjściowe" lub "odpowiedź")
  • tekst kontekstu — wszystkie dane kontekstowe wysyłane do wywołania interfejsu API wraz z oryginalnym monitem. Jeśli na przykład masz nadzieję uzyskać wyniki wyszukiwania tylko z określonych certyfikowanych źródeł informacji/witryny internetowej, możesz zdefiniować je w krokach oceny. Jest to opcjonalny krok, który można skonfigurować za pośrednictwem przepływu monitu.
  • tekst podstawy prawdy — tekst zdefiniowany przez użytkownika jako "źródło prawdy" (opcjonalnie)

Jakie parametry są konfigurowane w zasobie danych, określają, jakie metryki można utworzyć, zgodnie z tą tabelą:

Metric Monit Zakończenie Kontekst Prawda naziemna
Spójności Wymagania Wymagania - -
Płynność Wymagania Wymagania - -
Uziemienie Wymagania Wymagania Wymagania -
Stopień zgodności Wymagania Wymagania Wymagania -
Similarity Wymagania Wymagania - Wymagania

Wymagania wstępne

  1. Zasób usługi Azure OpenAI: musisz mieć zasób usługi Azure OpenAI utworzony z wystarczającym limitem przydziału. Ten zasób jest używany jako punkt końcowy oceny.
  2. Tożsamość zarządzana: utwórz tożsamość zarządzaną przypisaną przez użytkownika (UAI) i dołącz ją do obszaru roboczego, korzystając ze wskazówek w temacie Dołączanie tożsamości zarządzanej przypisanej przez użytkownika przy użyciu interfejsu wiersza polecenia w wersji 2z wystarczającą rolą dostępu zgodnie z definicją w następnym kroku.
  3. Dostęp do roli Aby przypisać rolę z wymaganymi uprawnieniami, musisz mieć uprawnienia właściciela lub Microsoft.Authorization/roleAssignments/write zasobu. Aktualizowanie połączeń i uprawnień może potrwać kilka minut. Te dodatkowe role muszą być przypisane do interfejsu użytkownika:
    • Zasób: obszar roboczy
    • Rola: Azure Machine Edukacja badacze dancyh
  4. Połączenie obszaru roboczego: zgodnie z poniższymi wskazówkami użyjesz tożsamości zarządzanej reprezentującej poświadczenia do punktu końcowego usługi Azure OpenAI używanego do obliczania metryk monitorowania. NIE usuwaj połączenia po jego użyciu w przepływie.
    • Wersja interfejsu API: 2023-03-15-preview
  5. Monituj o wdrożenie przepływu: utwórz środowisko uruchomieniowe przepływu monitów zgodnie z tym wskazówkami, uruchom przepływ i upewnij się, że wdrożenie zostało skonfigurowane przy użyciu tego artykułu jako przewodnik
    • Dane wejściowe i wyjściowe przepływu: należy odpowiednio nazwać dane wyjściowe przepływu i zapamiętać te nazwy kolumn podczas tworzenia monitora. W tym artykule użyjemy następujących elementów:
      • Dane wejściowe (wymagane): "monit"
      • Dane wyjściowe (wymagane): "ukończenie"
        • Dane wyjściowe (opcjonalnie): "context" | "prawda naziemna"
    • Zbieranie danych: w oknie "Wdrożenie" (krok 2 kreatora wdrażania przepływu monitu) przełącznik "Zbieranie danych wnioskowania" musi być włączony przy użyciu modułu zbierającego dane modelu
    • Dane wyjściowe: W danych wyjściowych (krok 3 kreatora wdrażania przepływu monitu) upewnij się, że wybrano wymagane dane wyjściowe wymienione powyżej (na przykład uzupełnianie | kontekst | ground_truth), które spełniają wymagania dotyczące konfiguracji metryki

Uwaga

Jeśli wystąpienie obliczeniowe znajduje się za siecią wirtualną, zobacz Izolacja sieci w przepływie monitu.

Tworzenie monitora

Tworzenie monitora na stronie Przegląd monitorowania Screenshot showing how to create a monitor for your application.

Konfigurowanie podstawowych ustawień monitorowania

W kreatorze tworzenia monitorowania zmień typ zadania modelu na monit i ukończenie, jak pokazano na zrzucie ekranu (A). Screenshot showing how to configure basic monitoring settings for generative AI.

Konfigurowanie zasobu danych

Jeśli użyto modułu zbierającego dane modelu, wybierz dwa zasoby danych (dane wejściowe i wyjściowe). Screenshot showing how to configure your data asset for generative AI.

Wybieranie sygnałów monitorowania

Screenshot showing monitoring signal configuration options on the monitoring settings dialog.

  1. Skonfiguruj połączenie obszaru roboczego (A) na zrzucie ekranu.
    1. Musisz poprawnie skonfigurować połączenie obszaru roboczego lub zobaczyć następujące elementy: Screenshot showing an unconfigured monitoring signal.
  2. Wprowadź nazwę wdrożenia ewaluatora usługi Azure OpenAI (B).
  3. (Opcjonalnie) Dołącz dane wejściowe i wyjściowe danych produkcyjnych: dane wejściowe i wyjściowe modelu produkcyjnego są automatycznie dołączane przez usługę monitorowania (C). Można to dostosować w razie potrzeby, ale nie jest wymagana żadna akcja. Domyślnie kolumna sprzężenia jest correlationid.
  4. (Opcjonalnie) Konfigurowanie progów metryk: akceptowalny wynik dla wystąpienia jest stały na poziomie 3/5. Akceptowalną ogólną szybkość przekazywania w % można dostosować między zakresem [1,99] %
  • Ręcznie wprowadź nazwy kolumn z przepływu monitu (E). Nazwy standardowe to ("prompt" | "ukończenie" | "context" | "ground_truth"), ale można go skonfigurować zgodnie z zasobem danych.

  • (opcjonalnie) Ustawianie częstotliwości próbkowania (F)

  • Po skonfigurowaniu sygnał nie będzie już wyświetlał ostrzeżenia. Screenshot showing monitoring signal configurations without a warning.

Konfigurowanie powiadomień

Nie trzeba podejmować żadnych działań. W razie potrzeby można skonfigurować więcej adresatów. Screenshot showing monitoring notification configurations.

Potwierdzanie konfiguracji sygnału monitorowania

Po pomyślnym skonfigurowaniu monitor powinien wyglądać następująco: Screenshot showing a configured monitoring signal.

Potwierdzanie stanu monitorowania

Jeśli zadanie potoku monitorowania zostało pomyślnie skonfigurowane, wyświetlane są następujące elementy: Screenshot showing a successfully configured monitoring signal.

Korzystanie z wyników

Strona przeglądu monitorowania

Omówienie monitora zawiera omówienie wydajności sygnału. Aby uzyskać więcej informacji, możesz wprowadzić stronę szczegółów sygnału. Screenshot showing monitor overview.

Strona szczegółów sygnału

Strona szczegółów sygnału umożliwia wyświetlanie metryk w czasie (A) i wyświetlanie histogramów rozkładu (B).

Screenshot showing a signal details page.

Rozwiązywanie problemów z alertami

Możliwe jest tylko dostosowanie progów sygnału. Akceptowalny wynik jest stały na poziomie 3/5 i jest możliwe tylko dostosowanie pola "akceptowalny ogólny współczynnik przekazywania w procentach". Screenshot adjusting signal thresholds.

Następne kroki