Nuta
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować się zalogować lub zmienić katalog.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Ważna
Elementy oznaczone jako (wersja zapoznawcza) w tym artykule są aktualnie dostępne w publicznej wersji zapoznawczej. Ta wersja zapoznawcza jest udostępniana bez umowy dotyczącej poziomu usług i nie zalecamy korzystania z niej w przypadku obciążeń produkcyjnych. Niektóre funkcje mogą nie być obsługiwane lub mogą mieć ograniczone możliwości. Aby uzyskać więcej informacji, zobacz Warunki dodatkowe korzystania z testowych wersji Microsoft Azure.
Cykl życia aplikacji sztucznej inteligencji wymaga niezawodnych struktur ewaluacyjnych, aby zapewnić, że systemy sztucznej inteligencji zapewniają dokładne, odpowiednie i niezawodne dane wyjściowe. Bez rygorystycznej oceny systemy sztucznej inteligencji ryzykują generowanie odpowiedzi, które są niedokładne, niespójne, słabo uziemione lub potencjalnie szkodliwe. Możliwość obserwacji umożliwia zespołom pomiar i poprawę jakości i bezpieczeństwa danych wyjściowych sztucznej inteligencji w całym cyklu projektowania — od wyboru modelu przez monitorowanie produkcyjne.
Uwaga / Notatka
Pakiet Microsoft Foundry SDK oraz portal Foundry są dostępne w publicznej wersji zapoznawczej, ale interfejsy API są ogólnie dostępne do oceny modelu i zestawu danych (ocena agenta pozostaje w publicznej wersji zapoznawczej). Elementy oceny oznaczone jako (wersja zapoznawcza) w tym artykule są obecnie dostępne w publicznej wersji próbnej globalnie.
Co to jest obserwowanie?
Możliwość obserwowania sztucznej inteligencji odnosi się do możliwości monitorowania, zrozumienia i rozwiązywania problemów z systemami sztucznej inteligencji w całym cyklu życia. Zespoły mogą monitorować, oceniać i integrować automatyczne bramy jakości z pipeline CI/CD oraz zbierać sygnały, takie jak metryki oceny, logi, traces i dane wyjściowe modelu, aby uzyskać wgląd w wydajność, jakość, bezpieczeństwo i stan operacyjny.
Podstawowe możliwości obserwacji
Platforma Microsoft Foundry oferuje trzy podstawowe funkcje, które współpracują ze sobą w celu zapewnienia kompleksowej możliwości obserwacji w całym cyklu życia aplikacji sztucznej inteligencji:
Evaluation
Ewaluatorzy mierzą jakość, bezpieczeństwo i niezawodność odpowiedzi sztucznej inteligencji w całym rozwoju. Firma Microsoft Foundry udostępnia wbudowane ewaluatory na potrzeby metryk jakości ogólnego przeznaczenia (spójność, płynność), metryki specyficzne dla RAG (uziemienie, istotność), bezpieczeństwa i ochrony (mowa nienawiści, przemoc, materiały chronione) i metryki specyficzne dla agenta (dokładność wywołań narzędzi, ukończenie zadań). Zespoły mogą również tworzyć niestandardowe ewaluatory dostosowane do wymagań specyficznych dla danej domeny.
Aby uzyskać pełną listę wbudowanych ewaluatorów, zobacz Dokumentacja wbudowanych ewaluatorów.
Nadzorowanie
Monitorowanie produkcji zapewnia, że wdrożone aplikacje sztucznej inteligencji zachowują jakość i wydajność w rzeczywistych warunkach. Zintegrowana z usługą Azure Monitor Application Insights, Microsoft Foundry dostarcza pulpity nawigacyjne w czasie rzeczywistym śledzące metryki operacyjne, użycie tokenów, opóźnienia, wskaźniki błędów i oceny jakości. Zespoły mogą konfigurować alerty, gdy dane wyjściowe kończą się niepowodzeniem progów jakości lub generują szkodliwą zawartość, umożliwiając szybkie rozwiązywanie problemów.
Aby uzyskać szczegółowe informacje na temat konfigurowania monitorowania produkcyjnego, zobacz Monitorowanie pulpitu nawigacyjnego agentów.
Śledzenie
Śledzenie rozproszone przechwytuje przepływ wykonywania aplikacji sztucznej inteligencji, zapewniając wgląd w wywołania LLM, wywołania narzędzi, decyzje agenta i zależności między usługami. Oparta na standardach OpenTelemetry i zintegrowana z Application Insights, funkcja śledzenia umożliwia debugowanie złożonych zachowań agentów, identyfikowanie wąskich gardeł wydajności i zrozumienie wieloetapowych łańcuchów rozumowania. Platforma Microsoft Foundry obsługuje śledzenie popularnych struktur, w tym LangChain, Semantic Kernel i zestaw SDK agentów OpenAI.
Aby uzyskać wskazówki dotyczące implementowania śledzenia, zobacz Śledzenie aplikacji i Śledzenie za pomocą SDK Agentów.
Co to są ewaluatory?
Ewaluatorzy to wyspecjalizowane narzędzia, które mierzą jakość, bezpieczeństwo i niezawodność odpowiedzi sztucznej inteligencji w całym cyklu projektowania.
Aby uzyskać pełną listę wbudowanych ewaluatorów, zobacz Dokumentacja wbudowanych ewaluatorów.
Ewaluatorzy integrują się z każdym etapem cyklu życia sztucznej inteligencji, aby zapewnić niezawodność, bezpieczeństwo i skuteczność.
Trzy etapy oceny cyklu życia aplikacji sztucznej inteligencji
Wybór modelu podstawowego
Wybierz odpowiedni model podstaw, porównując jakość, wydajność zadań, zagadnienia etyczne i profile bezpieczeństwa w różnych modelach.
Dostępne narzędzia: test porównawczy firmy Microsoft Foundry do porównywania modeli na publicznych zestawach danych lub własnych danych oraz zestawu SDK oceny usługi Azure AI na potrzeby testowania określonych punktów końcowych modelu.
Ocena przedprodukcyjna
Przed wdrożeniem dokładne testowanie gwarantuje, że agent lub aplikacja sztucznej inteligencji jest gotowa do użycia w środowisku produkcyjnym. Ten etap weryfikuje wydajność za pomocą zestawów danych oceny, identyfikuje przypadki brzegowe, ocenia niezawodność i mierzy kluczowe metryki, w tym przestrzeganie zadań, uziemienie, istotność i bezpieczeństwo. Aby utworzyć agentów gotowych do produkcji z wielozwrotnymi konwersacjami, wywoływaniem narzędzi i zarządzaniem stanem, zobacz Usługa agenta Foundry.
Narzędzia do oceny i podejścia:
Korzystanie z własnych danych: ocenianie aplikacji sztucznej inteligencji z wykorzystaniem własnych danych oraz zapewnienie jakości, bezpieczeństwa, lub użycie niestandardowych ewaluatorów. Użyj kreatora oceny portalu Foundry lub Foundry SDK i wyświetl wyniki w portalu Foundry.
Agent czerwonego zespołu SI: Agent czerwonego zespołu SI symuluje złożone ataki przy użyciu frameworka PyRIT firmy Microsoft w celu zidentyfikowania luk w zakresie bezpieczeństwa i zabezpieczeń przed wdrożeniem. Najlepiej używać z procesami z udziałem człowieka w pętli.
Monitorowanie po produkcji
Po wdrożeniu ciągłe monitorowanie zapewnia, że aplikacja sztucznej inteligencji utrzymuje jakość w rzeczywistych warunkach:
- Metryki operacyjne: regularny pomiar kluczowych metryk operacyjnych agenta sztucznej inteligencji
- Ciągła ocena: ocena jakości i bezpieczeństwa ruchu produkcyjnego z częstotliwością próbkowania
- Zaplanowana ocena: zaplanowana jakość i ocena bezpieczeństwa przy użyciu testowych zestawów danych do wykrywania dryfu systemu
- Zaplanowane testy red teaming: Zaplanowane testowanie adversaryjne w celu sondowania luk bezpieczeństwa
- Alerty usługi Azure Monitor: powiadomienia, gdy dane wyjściowe kończą się niepowodzeniem progów jakości lub generują szkodliwą zawartość
Zintegrowany z usługą Azure Monitor Application Insights pulpit nawigacyjny z obserwowalnością Foundry dostarcza danych w czasie rzeczywistym o metrykach wydajności, bezpieczeństwa i jakości, umożliwiając szybkie rozwiązywanie problemów i zachowanie zaufania użytkowników.
Ściągawka dotycząca oceny
| Przeznaczenie | Proces | Parametry, wskazówki i przykłady |
|---|---|---|
| Jak skonfigurować śledzenie? | Konfigurowanie śledzenia rozproszonego |
Przegląd śledzenia Śledzenie za pomocą SDK agentów |
| Co oceniasz? | Identyfikowanie lub tworzenie odpowiednich ewaluatorów |
Wbudowane ewaluatory Niestandardowe ewaluatory Przykłady zestawu SDK dla języka Python Przykłady zestawu SDK języka C# |
| Jakich danych należy użyć? | Przekazywanie lub generowanie odpowiedniego zestawu danych | Wybieranie lub tworzenie zestawu danych |
| Jak przeprowadzić ewaluacje? | Uruchamianie oceny |
Przeprowadzanie oceny agenta Przebieg chmury zdalnej |
| Jak działa moja aplikacja modelu/sztucznej inteligencji? | Analizowanie wyników |
Wyświetlanie wyników oceny Analiza klastra |
| Jak mogę ulepszyć? | Analizowanie wyników i optymalizowanie agentów | Analizowanie błędów oceny za pomocą analizy klastra. Optymalizowanie agentów i ponowne ocenianie. Przejrzyj wyniki oceny. |
Obsługa regionów, limity szybkości i obsługa sieci wirtualnej
Aby dowiedzieć się, które regiony obsługują ewaluatorów wspomaganych przez sztuczną inteligencję, limity szybkości stosowane do przebiegów ewaluacyjnych oraz jak skonfigurować obsługę sieci wirtualnej pod kątem izolacji sieciowej, zobacz obsługa regionów, limity szybkości i obsługa sieci wirtualnej na potrzeby oceny.
Pricing
Funkcje obserwacji, takie jak oceny ryzyka i bezpieczeństwa oraz ewaluacje w przestrzeni testowej agenta, są rozliczane na podstawie zużycia, jak wymieniono na naszej stronie cennika platformy Azure.
Ważna
Oceny w środowisku testowym agentów są domyślnie włączone dla wszystkich projektów Foundry i są uwzględniane w rozliczeniach zależnych od zużycia. Aby wyłączyć oceny placu zabaw, wybierz metryki w prawym górnym rogu placu zabaw agentów i usuń zaznaczenie wszystkich ewaluatorów.