Udostępnij za pośrednictwem


Obserwowalność w generatywnej sztucznej inteligencji

Ważne

Elementy oznaczone jako (wersja zapoznawcza) w tym artykule są aktualnie dostępne w publicznej wersji zapoznawczej. Ta wersja zapoznawcza jest udostępniana bez umowy dotyczącej poziomu usług i nie zalecamy korzystania z niej w przypadku obciążeń produkcyjnych. Niektóre funkcje mogą nie być obsługiwane lub mogą mieć ograniczone możliwości. Aby uzyskać więcej informacji, zobacz Warunki dodatkowe korzystania z testowych wersji Microsoft Azure.

W dzisiejszym świecie opartym na sztucznej inteligencji operacje generowania sztucznej inteligencji (GenAIOps) rewolucjonizują sposób tworzenia i wdrażania inteligentnych systemów przez organizacje. Ponieważ firmy coraz częściej używają sztucznej inteligencji do przekształcania podejmowania decyzji, ulepszania środowisk klientów i innowacji paliwowych, jeden element jest najważniejszy: solidne struktury oceny. Ocena nie jest tylko punktem kontrolnym. Jest to podstawa zaufania do aplikacji sztucznej inteligencji. Bez rygorystycznej oceny systemy sztucznej inteligencji mogą tworzyć zawartość:

  • Wymyślone lub oderwane od rzeczywistości
  • Nieistotne lub niespójne dla potrzeb użytkownika
  • Szkodliwe w utrwalaniu zagrożeń i stereotypów dotyczących zawartości
  • Niebezpieczne w rozprzestrzenianiu dezinformacji
  • Luki w zabezpieczeniach

Jest to miejsce, w którym ewaluatorzy stają się niezbędne. Te wyspecjalizowane narzędzia mierzą zarówno częstotliwość, jak i ważność zagrożeń w danych wyjściowych sztucznej inteligencji, umożliwiając zespołom systematyczne rozwiązywanie problemów z jakością, bezpieczeństwem i bezpieczeństwem w całej podróży deweloperów sztucznej inteligencji — od wybrania odpowiedniego modelu do monitorowania wydajności produkcji, jakości i bezpieczeństwa.

Co to są ewaluatory?

Ewaluatorzy to wyspecjalizowane narzędzia, które mierzą jakość, bezpieczeństwo i niezawodność odpowiedzi sztucznej inteligencji. Wdrażając systematyczne oceny w całym cyklu projektowania sztucznej inteligencji, zespoły mogą identyfikować i rozwiązywać potencjalne problemy, zanim będą miały wpływ na użytkowników. Następujące obsługiwane ewaluatory zapewniają kompleksowe możliwości oceny w różnych typach aplikacji sztucznej inteligencji i problemach:

RAG (Generowanie Wspomagane Odzyskiwaniem):

Oceniacz Przeznaczenie
Odzyskiwanie Mierzy sposób efektywnego pobierania istotnych informacji przez system.
Pobieranie dokumentu Mierzy dokładność wyników wyszukiwania, biorąc pod uwagę prawdę gruntową.
Uziemienie Mierzy, jak spójna jest odpowiedź w odniesieniu do pobranego kontekstu.
Groundedness Pro Mierzy, czy odpowiedź jest zgodna z kontekstem pobranym.
Znaczenie Mierzy, jak odpowiednia jest odpowiedź w odniesieniu do zapytania.
Kompletność odpowiedzi Mierzy, w jakim stopniu odpowiedź jest kompletna (nie brakuje kluczowych informacji) w odniesieniu do podstawowej prawdy.

Agenci (wersja zapoznawcza):

Oceniacz Przeznaczenie
Rozwiązywanie intencji Mierzy, jak dokładnie agent identyfikuje intencje użytkownika i adresuje je.
Zgodność zadania Mierzy, jak dobrze agent realizuje zidentyfikowane zadania.
Dokładność wywołań narzędzi Mierzy, jak dobrze agent wybiera i wywołuje odpowiednie narzędzia.

Ogólnego przeznaczenia:

Oceniacz Przeznaczenie
Płynność Mierzy jakość i czytelność języka naturalnego.
Spójność Mierzy spójność logiczną i przepływ odpowiedzi.
Zapewnienie Jakości Mierzy kompleksowo różne aspekty jakości w odpowiedzi na pytania.

Bezpieczeństwo i zabezpieczenia (wersja zapoznawcza):

Oceniacz Przeznaczenie
Przemoc Wykrywa brutalne treści lub podżeganie.
Seksualny Identyfikuje nieodpowiednią zawartość seksualną.
Samookaleczenia Wykrywa zawartość promującą i opisującą samookaleczanie.
Nienawiść i niesprawiedliwość Identyfikuje stronniczą, dyskryminującą lub nienawistną zawartość.
Nieuzasadnione atrybuty Wykrywa sprośne lub halucynowane informacje wywnioskowane z interakcji użytkownika.
Luka w zabezpieczeniach dotycząca kodu Identyfikuje problemy z zabezpieczeniami w wygenerowanych kodzie.
Materiały chronione Wykrywa nieautoryzowane użycie praw autorskich lub chronionych treści.
Bezpieczeństwo zawartości Kompleksowa ocena różnych kwestii związanych z bezpieczeństwem.

Podobieństwo tekstowe:

Oceniacz Przeznaczenie
Podobieństwo Pomiar podobieństwa tekstowego wspomaganego przez sztuczną inteligencję.
Wynik F1 Średnia harmoniczna precyzji i kompletności w tokenie nakłada się między odpowiedzią a prawem podstawy.
BLEU Wynik BLEU dla miar jakości tłumaczenia mierzy nakładanie się n-gramów między odpowiedzią a wynikiem referencyjnym.
GLEU Google-BLEU wariant oceny na poziomie zdania mierzy nakładanie się n-gramów między odpowiedzią a rzeczywistą wartością referencyjną.
ROUGE Recall-Oriented Zastępstwo dla oceny zrozumienia ogólnego mierzy nakładanie się n-gramów między odpowiedzią a prawdą referencyjną.
METEOR Metryka oceny tłumaczenia z jawnym porządkowaniem mierzy nakładanie się n-gramów między odpowiedzią a prawdą referencyjną.

Klasyfikatory usługi Azure OpenAI (wersja zapoznawcza):

Oceniacz Przeznaczenie
Etykietka modelu Klasyfikuje zawartość przy użyciu niestandardowych wytycznych i etykiet.
Oceniacz Modelu Generuje wyniki liczbowe (dostosowany zakres) dla zawartości na podstawie niestandardowych wytycznych.
Kontroler łańcuchów Wykonuje elastyczne walidacje tekstu i dopasowywanie wzorców.
Podobieństwo tekstowe Ocenia jakość tekstu lub określa bliskość semantyczną.

Dzięki użyciu tych ewaluatorów strategicznie w całym cyklu projektowania zespoły mogą tworzyć bardziej niezawodne, bezpieczne i skuteczne aplikacje sztucznej inteligencji, które spełniają potrzeby użytkowników, jednocześnie minimalizując potencjalne zagrożenia.

Diagram cyklu życia przedsiębiorstwa GenAIOps przedstawiający wybór modelu, tworzenie aplikacji sztucznej inteligencji i operacjonalizacja.

Trzy etapy oceny GenAIOps

Wybór modelu podstawowego

Przed utworzeniem aplikacji należy wybrać odpowiednią podstawę. Ta początkowa ocena ułatwia porównywanie różnych modeli na podstawie:

  • Jakość i dokładność: Jak istotne i spójne są odpowiedzi modelu?
  • Wydajność zadania: Czy model efektywnie obsługuje określone przypadki użycia?
  • Zagadnienia etyczne: Czy model jest wolny od szkodliwych uprzedzeń?
  • Profil bezpieczeństwa: Jakie jest ryzyko generowania niebezpiecznej zawartości?

Dostępne narzędzia: test porównawczy rozwiązania Azure AI Foundry do porównywania modeli w publicznych zestawach danych lub własnych danych oraz zestawu SDK oceny usługi Azure AI na potrzeby testowania określonych punktów końcowych modelu.

Ocena przedprodukcyjna

Po wybraniu modelu podstawowego następnym krokiem jest opracowanie aplikacji sztucznej inteligencji — takiej jak czatbot oparty na sztucznej inteligencji, aplikacja do pobierania rozszerzonej generacji (RAG), aplikacja agenta sztucznej inteligencji lub inne narzędzie generowania sztucznej inteligencji. Po zakończeniu prac rozwojowych rozpoczyna się ocena przedprodukcyjna. Przed wdrożeniem w środowisku produkcyjnym dokładne testowanie jest niezbędne, aby upewnić się, że model jest gotowy do użycia w świecie rzeczywistym.

Ocena przedprodukcyjna obejmuje:

  • Testowanie przy użyciu zestawów danych oceny: te zestawy danych symulują realistyczne interakcje użytkowników, aby upewnić się, że aplikacja sztucznej inteligencji działa zgodnie z oczekiwaniami.
  • Identyfikowanie przypadków brzegowych: znajdowanie scenariuszy, w których jakość odpowiedzi aplikacji sztucznej inteligencji może ulec pogorszeniu lub generować niepożądane dane wyjściowe.
  • Ocena niezawodności: zapewnienie, że model może obsłużyć szereg odmian wejściowych bez znaczących spadków jakości lub bezpieczeństwa.
  • Mierzenie kluczowych metryk: Metryki, takie jak zasadność odpowiedzi, istotność i bezpieczeństwo, są oceniane w celu potwierdzenia gotowości produkcyjnej.

Diagram oceny przedprodukcyjnej dla modeli i aplikacji z sześcioma krokami.

Etap przedprodukcyjny działa jako ostateczna kontrola jakości, co zmniejsza ryzyko wdrożenia aplikacji sztucznej inteligencji, która nie spełnia żądanych standardów wydajności lub bezpieczeństwa.

Narzędzia do oceny i podejścia:

  • Przynieś własne dane: możesz ocenić aplikacje sztucznej inteligencji w środowisku przedprodukcyjnym przy użyciu własnych danych ewaluacyjnych z obsługiwanymi ewaluatorami, w tym jakości generowania, bezpieczeństwa lub niestandardowych ewaluatorów oraz wyświetlać wyniki za pośrednictwem portalu usługi Azure AI Foundry. Użyj kreatora oceny Azure AI Foundry lub obsługiwanych ewaluatorów Azure AI Evaluation SDK, w tym jakości generowania, bezpieczeństwa lub niestandardowych ewaluatorów, a następnie wyświetl wyniki za pośrednictwem portalu Azure AI Foundry.
  • Symulatory i agenci do prób włamaniowych AI (wersja zapoznawcza): jeśli nie masz danych oceny (danych testowych), symulatory SDK Azure AI Evaluation mogą pomóc, generując zapytania związane z tematyką lub zapytania typu antyadwersyjnego. Te symulatory testują odpowiedź modelu na zapytania odpowiednie do sytuacji lub przypominające ataki (przypadki brzegowe).
    • Symulatory przeciwdziałające wprowadzają statyczne zapytania, które naśladują potencjalne zagrożenia bezpieczeństwa lub ataki na bezpieczeństwo, takie jak próby złamania zabezpieczeń, pomagając zidentyfikować ograniczenia i przygotować model na nieoczekiwane warunki.
    • Symulatory odpowiednie dla kontekstu generują typowe, istotne konwersacje , których oczekujesz od użytkowników do testowania jakości odpowiedzi. Za pomocą symulatorów odpowiednich kontekstowo można ocenić metryki, takie jak uziemienie, istotność, spójność i płynność wygenerowanych odpowiedzi.
    • Agent testowy AI (red teaming) (wersja zapoznawcza) symuluje złożone ataki przeciwników na system sztucznej inteligencji przy użyciu szerokiego zakresu ataków związanych z bezpieczeństwem, w oparciu o otwartą strukturę firmy Microsoft dla narzędzia identyfikacji ryzyka w Pythonie, czyli PyRIT. Automatyczne skanowanie przy użyciu agenta do testów bezpieczeństwa w zakresie sztucznej inteligencji wzmacnia ocenę ryzyka przed produkcją, poprzez systematyczne testowanie aplikacji AI pod kątem ryzyk. Ten proces obejmuje symulowane scenariusze ataku w celu zidentyfikowania słabych stron w odpowiedziach modelu przed wdrożeniem w świecie rzeczywistym. Uruchamiając testy red teaming dla sztucznej inteligencji, można wykryć i zminimalizować potencjalne problemy z bezpieczeństwem przed wdrożeniem. To narzędzie jest zalecane do użycia w procesach z udziałem człowieka, takich jak konwencjonalne próby przeprowadzania przez zespoły czerwone z obszaru AI, aby przyspieszyć identyfikację ryzyka i wspomóc ocenę dokonaną przez ludzkiego eksperta.

Alternatywnie możesz również użyć widżetu oceny portalu Azure AI Foundry do testowania generowanych aplikacji sztucznej inteligencji.

Po osiągnięciu zadowalających wyników można wdrożyć aplikację sztucznej inteligencji w środowisku produkcyjnym.

Monitorowanie po produkcji

Po wdrożeniu ciągłe monitorowanie zapewnia, że aplikacja sztucznej inteligencji utrzymuje jakość w rzeczywistych warunkach:

  • Śledzenie wydajności: regularny pomiar kluczowych metryk.
  • Reagowanie na zdarzenia: akcja Swift w przypadku wystąpienia szkodliwych lub nieodpowiednich danych wyjściowych.

Skuteczne monitorowanie pomaga zachować zaufanie użytkowników i umożliwia szybkie rozwiązanie problemu.

Możliwość obserwacji rozwiązania Azure AI Foundry zapewnia kompleksowe możliwości monitorowania niezbędne dla dzisiejszego złożonego i szybko zmieniającego się krajobrazu sztucznej inteligencji. Bezproblemowo zintegrowane z usługą Azure Monitor Application Insights to rozwiązanie umożliwia ciągłe monitorowanie wdrożonych aplikacji sztucznej inteligencji w celu zapewnienia optymalnej wydajności, bezpieczeństwa i jakości w środowiskach produkcyjnych. Pulpit nawigacyjny z obserwacją rozwiązania Foundry zapewnia wgląd w metryki krytyczne w czasie rzeczywistym, dzięki czemu zespoły mogą szybko identyfikować i rozwiązywać problemy z wydajnością, obawy dotyczące bezpieczeństwa lub degradację jakości. W przypadku aplikacji opartych na agentach platforma Foundry oferuje ulepszone funkcje ciągłej oceny, które można włączyć, aby zapewnić lepszy wgląd w metryki jakości i bezpieczeństwa, tworząc niezawodny ekosystem monitorowania, który dostosowuje się do dynamicznego charakteru aplikacji sztucznej inteligencji przy zachowaniu wysokich standardów wydajności i niezawodności.

Stale monitorując zachowanie aplikacji sztucznej inteligencji w środowisku produkcyjnym, można utrzymywać wysokiej jakości środowiska użytkownika i szybko rozwiązywać wszelkie problemy, które występują.

Budowanie zaufania dzięki systematycznej ocenie

GenAIOps ustanawia niezawodny proces zarządzania aplikacjami sztucznej inteligencji w całym cyklu życia. Dzięki wdrożeniu dokładnej oceny na każdym etapie — od wyboru modelu przez wdrożenie i poza nią — zespoły mogą tworzyć rozwiązania sztucznej inteligencji, które nie są tylko zaawansowane, ale wiarygodne i bezpieczne.

Ściągawka dotycząca oceny

Przeznaczenie Proces Parametry
Co oceniasz? Identyfikowanie lub tworzenie odpowiednich ewaluatorów - Przykładowy notes dotyczący jakości i wydajności

- Jakość odpowiedzi agentów

- Bezpieczeństwo i zabezpieczenia (przykładowy notes bezpieczeństwa i zabezpieczeń)

- Niestandardowy (Niestandardowy przykładowy notes)
Jakich danych należy użyć? Przekazywanie lub generowanie odpowiedniego zestawu danych Ogólny symulator do pomiaru jakości i wydajności (Przykładowy notatnik symulatora ogólnego)

- Symulator antagonistyczny dla oceny bezpieczeństwa i ochrony (przykładowy notes symulatora antagonistycznego)

Czerwony agent tworzenia zespołu sztucznej inteligencji na potrzeby uruchamiania automatycznych skanów w celu oceny luk w zabezpieczeniach (przykładowy notes agenta czerwonego tworzenia zespołu sztucznej inteligencji)
Jakie zasoby powinny przeprowadzić ocenę? Uruchamianie oceny - Uruchamianie lokalne

- Uruchamianie chmury zdalnej
Jak działa mój model/aplikacja? Analizowanie wyników Wyświetlanie zagregowanych wyników, wyświetlanie szczegółów, szczegóły oceny, porównywanie przebiegów oceny
Jak mogę ulepszyć? Wprowadzanie zmian w modelu, aplikacji lub ewaluatorach - Jeśli wyniki oceny nie były zgodne z opiniami ludzkimi, dostosuj ewaluatora.

- Jeśli wyniki oceny są dostosowane do opinii człowieka, ale nie spełniają progów jakości/bezpieczeństwa, zastosuj ukierunkowane środki zaradcze. Przykład środków zaradczych do zastosowania: Bezpieczeństwo zawartości sztucznej inteligencji platformy Azure

Obsługa regionów

Obecnie niektóre ewaluatory wspomagane przez sztuczną inteligencję są dostępne tylko w następujących regionach:

Rejon Nienawiść i niesprawiedliwość, seksualność, przemoc, samookaleczenia, atak pośredni, luki w zabezpieczeniach kodu, nieuzasadnione atrybuty Groundedness Pro Materiał chroniony
Wschodnie stany USA 2 Wsparte Wsparte Wsparte
Szwecja Środkowa Wsparte Wsparte N/A
Północno-środkowe stany USA Wsparte N/A N/A
Francja Środkowa Wsparte N/A N/A
Szwajcaria Zachodnia Wsparte N/A N/A

Ceny

Funkcje obserwacji, takie jak oceny ryzyka i bezpieczeństwa i oceny ciągłe, są rozliczane na podstawie użycia, jak pokazano na naszej stronie cennika platformy Azure. Wybierz kartę z etykietą Kompletny łańcuch narzędzi AI, aby wyświetlić szczegóły dotyczące wycen.