Udostępnij przez


Obserwowalność w generatywnej sztucznej inteligencji

Ważna

Elementy oznaczone jako (wersja zapoznawcza) w tym artykule są aktualnie dostępne w publicznej wersji zapoznawczej. Ta wersja zapoznawcza jest udostępniana bez umowy dotyczącej poziomu usług i nie zalecamy korzystania z niej w przypadku obciążeń produkcyjnych. Niektóre funkcje mogą nie być obsługiwane lub mogą mieć ograniczone możliwości. Aby uzyskać więcej informacji, zobacz Warunki dodatkowe korzystania z testowych wersji Microsoft Azure.

Cykl życia aplikacji sztucznej inteligencji wymaga niezawodnych struktur ewaluacyjnych, aby zapewnić, że systemy sztucznej inteligencji zapewniają dokładne, odpowiednie i niezawodne dane wyjściowe. Bez rygorystycznej oceny systemy sztucznej inteligencji ryzykują generowanie odpowiedzi, które są niedokładne, niespójne, słabo uziemione lub potencjalnie szkodliwe. Możliwość obserwacji umożliwia zespołom pomiar i poprawę jakości i bezpieczeństwa danych wyjściowych sztucznej inteligencji w całym cyklu projektowania — od wyboru modelu przez monitorowanie produkcyjne.

Uwaga / Notatka

Pakiet Microsoft Foundry SDK oraz portal Foundry są dostępne w publicznej wersji zapoznawczej, ale interfejsy API są ogólnie dostępne do oceny modelu i zestawu danych (ocena agenta pozostaje w publicznej wersji zapoznawczej). Elementy oceny oznaczone jako (wersja zapoznawcza) w tym artykule są obecnie dostępne w publicznej wersji próbnej globalnie.

Co to jest obserwowanie?

Możliwość obserwowania sztucznej inteligencji odnosi się do możliwości monitorowania, zrozumienia i rozwiązywania problemów z systemami sztucznej inteligencji w całym cyklu życia. Zespoły mogą monitorować, oceniać i integrować automatyczne bramy jakości z pipeline CI/CD oraz zbierać sygnały, takie jak metryki oceny, logi, traces i dane wyjściowe modelu, aby uzyskać wgląd w wydajność, jakość, bezpieczeństwo i stan operacyjny.

Podstawowe możliwości obserwacji

Platforma Microsoft Foundry oferuje trzy podstawowe funkcje, które współpracują ze sobą w celu zapewnienia kompleksowej możliwości obserwacji w całym cyklu życia aplikacji sztucznej inteligencji:

Evaluation

Ewaluatorzy mierzą jakość, bezpieczeństwo i niezawodność odpowiedzi sztucznej inteligencji w całym rozwoju. Firma Microsoft Foundry udostępnia wbudowane ewaluatory na potrzeby metryk jakości ogólnego przeznaczenia (spójność, płynność), metryki specyficzne dla RAG (uziemienie, istotność), bezpieczeństwa i ochrony (mowa nienawiści, przemoc, materiały chronione) i metryki specyficzne dla agenta (dokładność wywołań narzędzi, ukończenie zadań). Zespoły mogą również tworzyć niestandardowe ewaluatory dostosowane do wymagań specyficznych dla danej domeny.

Aby uzyskać pełną listę wbudowanych ewaluatorów, zobacz Dokumentacja wbudowanych ewaluatorów.

Nadzorowanie

Monitorowanie produkcji zapewnia, że wdrożone aplikacje sztucznej inteligencji zachowują jakość i wydajność w rzeczywistych warunkach. Zintegrowana z usługą Azure Monitor Application Insights, Microsoft Foundry dostarcza pulpity nawigacyjne w czasie rzeczywistym śledzące metryki operacyjne, użycie tokenów, opóźnienia, wskaźniki błędów i oceny jakości. Zespoły mogą konfigurować alerty, gdy dane wyjściowe kończą się niepowodzeniem progów jakości lub generują szkodliwą zawartość, umożliwiając szybkie rozwiązywanie problemów.

Aby uzyskać szczegółowe informacje na temat konfigurowania monitorowania produkcyjnego, zobacz Monitorowanie pulpitu nawigacyjnego agentów.

Śledzenie

Śledzenie rozproszone przechwytuje przepływ wykonywania aplikacji sztucznej inteligencji, zapewniając wgląd w wywołania LLM, wywołania narzędzi, decyzje agenta i zależności między usługami. Oparta na standardach OpenTelemetry i zintegrowana z Application Insights, funkcja śledzenia umożliwia debugowanie złożonych zachowań agentów, identyfikowanie wąskich gardeł wydajności i zrozumienie wieloetapowych łańcuchów rozumowania. Platforma Microsoft Foundry obsługuje śledzenie popularnych struktur, w tym LangChain, Semantic Kernel i zestaw SDK agentów OpenAI.

Aby uzyskać wskazówki dotyczące implementowania śledzenia, zobacz Śledzenie aplikacji i Śledzenie za pomocą SDK Agentów.

Co to są ewaluatory?

Ewaluatorzy to wyspecjalizowane narzędzia, które mierzą jakość, bezpieczeństwo i niezawodność odpowiedzi sztucznej inteligencji w całym cyklu projektowania.

Aby uzyskać pełną listę wbudowanych ewaluatorów, zobacz Dokumentacja wbudowanych ewaluatorów.

Ewaluatorzy integrują się z każdym etapem cyklu życia sztucznej inteligencji, aby zapewnić niezawodność, bezpieczeństwo i skuteczność.

Diagram cyklu życia aplikacji sztucznej inteligencji przedstawiający wybór modelu, tworzenie aplikacji sztucznej inteligencji i operacjonalizacja.

Trzy etapy oceny cyklu życia aplikacji sztucznej inteligencji

Wybór modelu podstawowego

Wybierz odpowiedni model podstaw, porównując jakość, wydajność zadań, zagadnienia etyczne i profile bezpieczeństwa w różnych modelach.

Dostępne narzędzia: test porównawczy firmy Microsoft Foundry do porównywania modeli na publicznych zestawach danych lub własnych danych oraz zestawu SDK oceny usługi Azure AI na potrzeby testowania określonych punktów końcowych modelu.

Ocena przedprodukcyjna

Przed wdrożeniem dokładne testowanie gwarantuje, że agent lub aplikacja sztucznej inteligencji jest gotowa do użycia w środowisku produkcyjnym. Ten etap weryfikuje wydajność za pomocą zestawów danych oceny, identyfikuje przypadki brzegowe, ocenia niezawodność i mierzy kluczowe metryki, w tym przestrzeganie zadań, uziemienie, istotność i bezpieczeństwo. Aby utworzyć agentów gotowych do produkcji z wielozwrotnymi konwersacjami, wywoływaniem narzędzi i zarządzaniem stanem, zobacz Usługa agenta Foundry.

Diagram oceny przedprodukcyjnej dla modeli i aplikacji z sześcioma krokami.

Narzędzia do oceny i podejścia:

Monitorowanie po produkcji

Po wdrożeniu ciągłe monitorowanie zapewnia, że aplikacja sztucznej inteligencji utrzymuje jakość w rzeczywistych warunkach:

  • Metryki operacyjne: regularny pomiar kluczowych metryk operacyjnych agenta sztucznej inteligencji
  • Ciągła ocena: ocena jakości i bezpieczeństwa ruchu produkcyjnego z częstotliwością próbkowania
  • Zaplanowana ocena: zaplanowana jakość i ocena bezpieczeństwa przy użyciu testowych zestawów danych do wykrywania dryfu systemu
  • Zaplanowane testy red teaming: Zaplanowane testowanie adversaryjne w celu sondowania luk bezpieczeństwa
  • Alerty usługi Azure Monitor: powiadomienia, gdy dane wyjściowe kończą się niepowodzeniem progów jakości lub generują szkodliwą zawartość

Zintegrowany z usługą Azure Monitor Application Insights pulpit nawigacyjny z obserwowalnością Foundry dostarcza danych w czasie rzeczywistym o metrykach wydajności, bezpieczeństwa i jakości, umożliwiając szybkie rozwiązywanie problemów i zachowanie zaufania użytkowników.

Ściągawka dotycząca oceny

Przeznaczenie Proces Parametry, wskazówki i przykłady
Jak skonfigurować śledzenie? Konfigurowanie śledzenia rozproszonego Przegląd śledzenia

Śledzenie za pomocą SDK agentów
Co oceniasz? Identyfikowanie lub tworzenie odpowiednich ewaluatorów Wbudowane ewaluatory

Niestandardowe ewaluatory

Przykłady zestawu SDK dla języka Python

Przykłady zestawu SDK języka C#
Jakich danych należy użyć? Przekazywanie lub generowanie odpowiedniego zestawu danych Wybieranie lub tworzenie zestawu danych
Jak przeprowadzić ewaluacje? Uruchamianie oceny Przeprowadzanie oceny agenta

Przebieg chmury zdalnej
Jak działa moja aplikacja modelu/sztucznej inteligencji? Analizowanie wyników Wyświetlanie wyników oceny

Analiza klastra
Jak mogę ulepszyć? Analizowanie wyników i optymalizowanie agentów Analizowanie błędów oceny za pomocą analizy klastra.

Optymalizowanie agentów i ponowne ocenianie.

Przejrzyj wyniki oceny.

Obsługa regionów, limity szybkości i obsługa sieci wirtualnej

Aby dowiedzieć się, które regiony obsługują ewaluatorów wspomaganych przez sztuczną inteligencję, limity szybkości stosowane do przebiegów ewaluacyjnych oraz jak skonfigurować obsługę sieci wirtualnej pod kątem izolacji sieciowej, zobacz obsługa regionów, limity szybkości i obsługa sieci wirtualnej na potrzeby oceny.

Pricing

Funkcje obserwacji, takie jak oceny ryzyka i bezpieczeństwa oraz ewaluacje w przestrzeni testowej agenta, są rozliczane na podstawie zużycia, jak wymieniono na naszej stronie cennika platformy Azure.

Ważna

Oceny w środowisku testowym agentów są domyślnie włączone dla wszystkich projektów Foundry i są uwzględniane w rozliczeniach zależnych od zużycia. Aby wyłączyć oceny placu zabaw, wybierz metryki w prawym górnym rogu placu zabaw agentów i usuń zaznaczenie wszystkich ewaluatorów.

Zrzut ekranu portalu Foundry przedstawiający plac zabaw agentów z wybranymi metrykami.