Udostępnij za pośrednictwem


Monitorowanie opisów metryk oceny i przypadków użycia

W tym artykule przedstawiono metryki używane podczas monitorowania i oceniania modeli generacyjnych sztucznej inteligencji w usłudze Azure Machine Learning oraz zalecane rozwiązania dotyczące korzystania z generowania monitorowania modelu sztucznej inteligencji.

Ważne

Monitorowanie jest obecnie dostępne w publicznej wersji zapoznawczej. Ta wersja zapoznawcza jest udostępniana bez umowy dotyczącej poziomu usług i nie jest zalecana w przypadku obciążeń produkcyjnych. Niektóre funkcje mogą być nieobsługiwane lub ograniczone. Aby uzyskać więcej informacji, zobacz Uzupełniające warunki korzystania z wersji zapoznawczych platformy Microsoft Azure.

Monitorowanie modelu śledzi wydajność modelu w środowisku produkcyjnym i ma na celu zrozumienie go zarówno z perspektywy nauki o danych, jak i operacyjnej. Aby zaimplementować monitorowanie, usługa Azure Machine Learning używa sygnałów monitorowania uzyskanych za pośrednictwem analizy danych przesyłanych strumieniowo. Każdy sygnał monitorowania ma co najmniej jedną metrykę. Możesz ustawić progi dla tych metryk, aby otrzymywać alerty za pośrednictwem usługi Azure Machine Learning lub Azure Monitor na temat anomalii modelu lub danych.

Uziemienie

Groundedness ocenia, jak dobrze generowane odpowiedzi modelu są zgodne z informacjami ze źródła danych wejściowych. Odpowiedzi są weryfikowane jako oświadczenia względem kontekstu w zdefiniowanym przez użytkownika źródle prawdy naziemnej: nawet jeśli odpowiedzi są prawdziwe (poprawna rzeczowo), jeśli nie można zweryfikować względem tekstu źródłowego, jest ona oceniana jako bezpodstawna. Odpowiedzi zweryfikowane jako oświadczenia względem "kontekstu" w źródle prawdy podstawowej (na przykład źródło danych wejściowych lub baza danych).

  • Użyj go, gdy: Martwisz się, że aplikacja generuje informacje, które nie są uwzględniane w ramach wytrenowanego wiedzy generowania sztucznej inteligencji (znanej również jako niezweryfikowalne informacje).|
  • Jak to przeczytać: Jeśli odpowiedzi modelu są wysoce uziemione, wskazuje, że fakty omówione w odpowiedziach systemu sztucznej inteligencji są weryfikowalne przez źródło wejściowe lub wewnętrzną bazę danych. Z drugiej strony wyniki niskich podstaw sugerują, że fakty wymienione w odpowiedziach systemu sztucznej inteligencji mogą nie być odpowiednio obsługiwane lub weryfikowane przez źródło wejściowe lub wewnętrzną bazę danych. W takich przypadkach wygenerowane przez model odpowiedzi mogą być oparte wyłącznie na wstępnie wytrenowanej wiedzy, która może nie być zgodna z określonym kontekstem lub domeną danych wejściowych
  • Scale (Skala):
    • 1 = "ungrounded": sugeruje, że odpowiedzi nie są weryfikowalne przez źródło wejściowe lub wewnętrzną bazę danych.
    • 5 = "doskonała uziemienie" sugeruje, że fakty uwzględnione w odpowiedziach systemu sztucznej inteligencji są weryfikowalne przez źródło wejściowe lub wewnętrzną bazę danych.

Stopień zgodności

Metryka istotności mierzy zakres, w jakim generowane odpowiedzi modelu są odpowiednie i bezpośrednio związane z podanymi pytaniami. Gdy użytkownicy wchodzą w interakcję z modelem generowania sztucznej inteligencji, zadają pytania lub monity wejściowe, oczekując znaczących i kontekstowych odpowiednich odpowiedzi.

  • Użyj go, gdy: chcesz osiągnąć duże znaczenie dla odpowiedzi aplikacji w celu ulepszenia środowiska użytkownika i narzędzia generacyjnych systemów sztucznej inteligencji.
  • Jak to przeczytać: Odpowiedzi są oceniane w ich zdolności do przechwytywania kluczowych punktów pytania z kontekstu w podstawowym źródle prawdy. Jeśli odpowiedzi modelu są bardzo istotne, oznacza to, że system sztucznej inteligencji rozumie dane wejściowe i może generować spójne i kontekstowe odpowiednie dane wyjściowe. Z drugiej strony niskie oceny istotności sugerują, że wygenerowane odpowiedzi mogą być poza tematem, brakiem kontekstu lub niewłaściwym rozwiązaniem zamierzonych zapytań użytkownika.  
  • Scale (Skala):
    • 1 = "nieistotne" sugeruje, że wygenerowane odpowiedzi mogą być poza tematem, brak kontekstu lub nie można odpowiednio rozwiązać zamierzonych zapytań użytkownika.  
    • 5 = "doskonałe znaczenie" sugeruje kontekstowo odpowiednie dane wyjściowe.

Spójności

Spójność ocenia, jak dobrze model językowy może wygenerować dane wyjściowe, które przepływa płynnie, odczytuje naturalnie i przypomina język przypominający człowieka. Jak dobrze bot komunikuje swoje komunikaty w krótki i jasny sposób, używając prostego i odpowiedniego języka i unikając niepotrzebnych lub mylących informacji? Jak łatwo jest użytkownikowi zrozumieć i postępować zgodnie z odpowiedziami bota oraz jak dobrze odpowiada on potrzebom i oczekiwaniom użytkownika?

  • Użyj go, gdy: chcesz przetestować czytelność i łatwość obsługi użytkowników wygenerowanych odpowiedzi modelu w rzeczywistych aplikacjach.
  • Jak to przeczytać: Jeśli odpowiedzi modelu są wysoce spójne, oznacza to, że system sztucznej inteligencji generuje bezproblemowy, dobrze ustrukturyzowany tekst z płynnymi przejściami. Spójny kontekst w całym tekście zwiększa czytelność i zrozumienie. Niska spójność oznacza, że jakość zdań w przewidywanej odpowiedzi modelu jest słaba i nie pasują do siebie naturalnie. Wygenerowany tekst może nie mieć przepływu logicznego, a zdania mogą wydawać się rozłączne, co utrudnia czytelnikom zrozumienie ogólnego kontekstu lub zamierzonego komunikatu. Odpowiedzi są oceniane w ich jasności, zwięzłości, odpowiednim języku i zdolności do dopasowania zdefiniowanych potrzeb i oczekiwań użytkowników
  • Scale (Skala):
    • 1 = "niespójne": sugeruje, że jakość zdań w przewidywanej odpowiedzi modelu jest słaba i nie pasują do siebie naturalnie. Wygenerowany tekst może nie mieć przepływu logicznego, a zdania mogą wydawać się rozłączne, co utrudnia czytelnikom zrozumienie ogólnego kontekstu lub zamierzonego komunikatu.
    • 5 = "całkowicie spójne": sugeruje, że system sztucznej inteligencji generuje bezproblemowy, dobrze ustrukturyzowany tekst z płynnymi przejściami i spójnym kontekstem w całym tekście, który zwiększa czytelność i zrozumienie.

Płynność

Płynność ocenia biegłość językową przewidywanej odpowiedzi na generowanie sztucznej inteligencji. Ocenia, jak dobrze wygenerowany tekst jest zgodny z regułami gramatycznymi, strukturami składniowymi i odpowiednim użyciem słownictwa, co skutkuje poprawną językowo i naturalnie brzmiącymi odpowiedziami. Odpowiedzi są mierzone według jakości poszczególnych zdań i czy są dobrze napisane i gramatyczne. Ta metryka jest cenna podczas oceniania zdolności modelu językowego do tworzenia tekstu zgodnego z właściwą gramatyką, składnią i użyciem słownictwa.

  • Użyj go, gdy: chcesz ocenić gramatyczną i językową dokładność przewidywanych odpowiedzi sztucznej inteligencji.
  • Jak to przeczytać: Jeśli odpowiedzi modelu są wysoce spójne, oznacza to, że system sztucznej inteligencji jest zgodny z regułami gramatycznymi i używa odpowiedniego słownictwa. Spójny kontekst w całym tekście zwiększa czytelność i zrozumienie. Z drugiej strony, niskie wyniki fluency wskazują trudności z błędami gramatycznymi i niewygodnymi frazami, dzięki czemu tekst jest mniej odpowiedni dla praktycznych zastosowań.  
  • Scale (Skala):
    • 1 = "zatrzymanie" sugeruje problemy z błędami gramatycznymi i niewygodnymi frazami, dzięki czemu tekst jest mniej odpowiedni dla praktycznych zastosowań.  
    • 5 = "doskonała płynność" sugeruje, że system sztucznej inteligencji jest zgodny z regułami gramatycznymi i używa odpowiedniego słownictwa. Spójny kontekst w całym tekście zwiększa czytelność i zrozumienie.

Similarity

Podobieństwo kwantyfikuje podobieństwo między zdaniem podstawy (lub dokumentem) a wyrokiem przewidywania wygenerowanym przez model sztucznej inteligencji. Jest obliczana przez pierwsze osadzanie na poziomie zdania dla zarówno podstawowej prawdy, jak i przewidywania modelu. Te osadzania reprezentują wielowymiarowe reprezentacje wektorów zdań, przechwytując ich semantyczne znaczenie i kontekst.

  • Użyj go, gdy: chcesz obiektywnie ocenić wydajność modelu sztucznej inteligencji (w przypadku zadań generowania tekstu, w których masz dostęp do żądanych odpowiedzi na podstawowe informacje). Podobieństwo Ada umożliwia porównywanie wygenerowanego tekstu z żądaną zawartością.
  • Jak to przeczytać: Odpowiedzi są oceniane pod kątem równoważności do podstawowej prawdy odpowiedzi, przechwytując te same informacje i znaczenie, co odpowiedź na podstawowe prawdy dla danego pytania. Wysoki wynik podobieństwa Ada sugeruje, że przewidywanie modelu jest kontekstowo podobne do podstawowej prawdy, wskazując dokładne i odpowiednie wyniki. Z drugiej strony niski wynik podobieństwa Ada oznacza niezgodność lub rozbieżność między przewidywaniem a rzeczywistą prawdą prawną, potencjalnie sygnalizując niedokładności lub braki w wydajności modelu.
  • Scale (Skala):
    • 1 = "brakquivalence" sugeruje niezgodność lub rozbieżność między przewidywaniem a rzeczywistą prawdą prawną, potencjalnie sygnalizując niedokładności lub braki w wydajności modelu.
    • 5 = "doskonała równoważność" sugeruje, że przewidywanie modelu jest kontekstowo podobne do podstawowej prawdy, wskazując dokładne i odpowiednie wyniki.

Następne kroki