Jak wyświetlić wyniki oceny w usłudze Azure AI Studio

Artykuł
04/07/2024

Uwaga

Usługa Azure AI Studio jest obecnie dostępna w publicznej wersji zapoznawczej. Ta wersja zapoznawcza jest udostępniana bez umowy dotyczącej poziomu usług i nie zalecamy korzystania z niej w przypadku obciążeń produkcyjnych. Niektóre funkcje mogą być nieobsługiwane lub ograniczone. Aby uzyskać więcej informacji, zobacz Uzupełniające warunki korzystania z wersji zapoznawczych platformy Microsoft Azure.

Strona oceny usługi Azure AI Studio to uniwersalne centrum, które umożliwia nie tylko wizualizowanie i ocenę wyników, ale także służy jako centrum sterowania do optymalizowania, rozwiązywania problemów i wybierania idealnego modelu sztucznej inteligencji dla potrzeb wdrożenia. Jest to jednorazowe rozwiązanie do podejmowania decyzji i wydajności opartych na danych w projektach sztucznej inteligencji. Możesz bezproblemowo uzyskiwać dostęp do wyników z różnych źródeł i interpretować je z różnych źródeł, w tym przepływ, sesję szybkiego testowania placu zabaw, interfejs użytkownika przesyłania oceny, zestaw SDK generowania i interfejs wiersza polecenia. Ta elastyczność zapewnia możliwość interakcji z wynikami w sposób, który najlepiej odpowiada twoim przepływom pracy i preferencjom.

Po zwizualizowaniu wyników oceny możesz zapoznać się z dokładnym badaniem. Obejmuje to możliwość nie tylko wyświetlania poszczególnych wyników, ale także porównywania tych wyników w wielu przebiegach oceny. Dzięki temu można identyfikować trendy, wzorce i rozbieżności, uzyskując bezcenny wgląd w wydajność systemu sztucznej inteligencji w różnych warunkach.

Z tego artykułu dowiesz się, jak wykonywać następujące elementy:

Wyświetl wynik oceny i metryki.
Porównaj wyniki oceny.
Omówienie wbudowanych metryk oceny.
Zwiększ wydajność.
Wyświetl wyniki oceny i metryki.

Znajdowanie wyników oceny

Po przesłaniu oceny możesz zlokalizować przesłany przebieg oceny na liście uruchomień, przechodząc do strony Ocena .

Możesz monitorować przebiegi oceny i zarządzać nimi na liście przebiegów. Dzięki elastyczności modyfikowania kolumn przy użyciu edytora kolumn i implementowania filtrów można dostosować i utworzyć własną wersję listy uruchamiania. Ponadto możesz szybko przejrzeć zagregowane metryki oceny w ramach przebiegów, umożliwiając szybkie porównywanie.

Aby lepiej zrozumieć, jak są uzyskiwane metryki oceny, możesz uzyskać dostęp do kompleksowego wyjaśnienia, wybierając opcję "Dowiedz się więcej o metrykach". Ten szczegółowy zasób zapewnia cenny wgląd w obliczenia i interpretację metryk używanych w procesie oceny.

Możesz wybrać konkretny przebieg, który spowoduje przejście do strony szczegółów przebiegu. W tym miejscu możesz uzyskać dostęp do kompleksowych informacji, w tym szczegółów oceny, takich jak typ zadania, monit, temperatura i inne. Ponadto można wyświetlić metryki skojarzone z poszczególnymi przykładami danych. Wykresy wyników metryk zapewniają wizualną reprezentację sposobu dystrybucji wyników dla każdej metryki w całym zestawie danych.

W tabeli szczegółów metryk można przeprowadzić kompleksowe badanie poszczególnych przykładów danych. W tym miejscu masz możliwość sprawdzenia zarówno wygenerowanych danych wyjściowych, jak i odpowiedniego wyniku metryki oceny. Ten poziom szczegółowości umożliwia podejmowanie decyzji opartych na danych i podejmowanie określonych działań w celu poprawy wydajności modelu.

Niektóre potencjalne elementy akcji oparte na metrykach oceny mogą obejmować:

Rozpoznawanie wzorca: filtrując pod kątem wartości liczbowych i metryk, możesz przejść do szczegółów przykładów z niższymi wynikami. Zbadaj te przykłady, aby zidentyfikować cykliczne wzorce lub problemy w odpowiedziach modelu. Możesz na przykład zauważyć, że niskie wyniki często występują, gdy model generuje zawartość w określonym temacie.
Uściślenie modelu: użyj szczegółowych informacji z przykładów do niższych ocen, aby ulepszyć instrukcje monitu systemu lub dostosować model. Jeśli obserwujesz spójne problemy, na przykład spójność lub istotność, możesz również odpowiednio dostosować dane treningowe lub parametry modelu.
Dostosowywanie kolumn: Edytor kolumn umożliwia tworzenie dostosowanego widoku tabeli, koncentrując się na metrykach i danych, które są najbardziej istotne dla celów oceny. Może to usprawnić analizę i pomóc skuteczniej wykrywać trendy.
Wyszukiwanie słów kluczowych: pole wyszukiwania umożliwia wyszukiwanie określonych wyrazów lub fraz w wygenerowanych danych wyjściowych. Może to być przydatne w przypadku określania problemów lub wzorców związanych z konkretnymi tematami lub słowami kluczowymi i rozwiązywania ich w szczególności.

Tabela szczegółów metryk zawiera wiele danych, które mogą prowadzić do wysiłków związanych z ulepszaniem modelu, od rozpoznawania wzorców w celu dostosowywania widoku do wydajnej analizy i uściślinia modelu na podstawie zidentyfikowanych problemów.

Podzielimy zagregowane widoki lub metryki wedługmetryk wydajności i jakości oraz ryzyka i bezpieczeństwa. Możesz wyświetlić rozkład wyników w ocenianym zestawie danych i wyświetlić zagregowane wyniki dla każdej metryki.

W przypadku metryk wydajności i jakości agregujemy, obliczając średnią dla wszystkich wyników dla każdej metryki.
W przypadku metryk ryzyka i bezpieczeństwa agregujemy na podstawie progu, aby obliczyć współczynnik wad dla wszystkich ocen dla każdej metryki. Współczynnik wad jest definiowany jako procent wystąpień w zestawie danych testowych, które przekraczają próg w skali ważności w całym rozmiarze zestawu danych.

Oto kilka przykładów wyników metryk dla scenariusza odpowiedzi na pytanie:

Oto kilka przykładów wyników metryk dla scenariusza konwersacji:

W przypadku metryk ryzyka i bezpieczeństwa ocena zapewnia ocenę ważności i uzasadnienie dla każdego wyniku. Oto kilka przykładów wyników metryk ryzyka i bezpieczeństwa dla scenariusza odpowiedzi na pytanie:

Wyniki oceny mogą mieć różne znaczenie dla różnych odbiorców. Na przykład oceny bezpieczeństwa mogą wygenerować etykietę "Niska" ważność brutalnej zawartości, która może nie być zgodna z definicją ludzkiego recenzenta, jak poważna może być konkretna zawartość brutalna. Udostępniamy ludzką kolumnę opinii z kciukami w górę i kciukami w dół podczas przeglądania wyników oceny, aby wyświetlić, które wystąpienia zostały zatwierdzone lub oflagowane jako nieprawidłowe przez recenzenta.

Podczas rozumienia każdej metryki ryzyka zawartości można łatwo wyświetlić każdą definicję metryki i skalę ważności, wybierając nazwę metryki powyżej wykresu, aby wyświetlić szczegółowe wyjaśnienie w wyskakującym okienku.

Jeśli wystąpił problem z przebiegiem, możesz również debugować przebieg oceny przy użyciu dziennika i śledzenia.

Oto kilka przykładów dzienników, których można użyć do debugowania przebiegu oceny:

Oto przykład śledzenia:

Aby dowiedzieć się więcej na temat sposobu tworzenia wyników oceny, wybierz przycisk Wyświetl w przepływie, aby przejść do strony przepływu połączonej z przebiegem oceny.

Porównanie wyników oceny

Aby ułatwić kompleksowe porównanie dwóch lub większej liczby przebiegów, możesz wybrać żądane przebiegi i zainicjować proces, wybierając przycisk "Porównaj" lub w przypadku ogólnego widoku szczegółowego pulpitu nawigacyjnego przycisk Przełącz do widoku pulpitu nawigacyjnego. Ta funkcja umożliwia analizowanie i kontrastowanie wydajności i wyników wielu przebiegów, co pozwala na bardziej świadome podejmowanie decyzji i ukierunkowane ulepszenia.

W widoku pulpitu nawigacyjnego masz dostęp do dwóch cennych składników: wykresu porównania rozkładu metryk i tabeli porównania. Te narzędzia umożliwiają przeprowadzanie równoległej analizy wybranych przebiegów oceny, co pozwala na łatwe porównywanie różnych aspektów każdej próbki danych z łatwością i precyzją.

W tabeli porównania masz możliwość ustanowienia punktu odniesienia dla porównania, umieszczając wskaźnik myszy na określonym uruchomieniu, którego chcesz użyć jako punktu odniesienia i ustawionego jako punkt odniesienia. Ponadto poprzez aktywowanie przełącznika "Pokaż różnicę" można łatwo zwizualizować różnice między uruchomieniem punktu odniesienia a innymi przebiegami dla wartości liczbowych. Ponadto po włączeniu przełącznika "Pokaż tylko różnicę" tabela wyświetla tylko wiersze, które różnią się między wybranymi przebiegami, co ułatwia identyfikację odrębnych odmian.

Korzystając z tych funkcji porównania, możesz podjąć świadomą decyzję o wybraniu najlepszej wersji:

Porównanie linii bazowej: ustawiając przebieg punktu odniesienia, można zidentyfikować punkt odniesienia, z którym można porównać inne przebiegi. Dzięki temu można zobaczyć, jak każdy przebieg odbiega od wybranego standardu.
Ocena wartości liczbowej: włączenie opcji "Pokaż różnicę" pomaga zrozumieć zakres różnic między punktem odniesienia a innymi przebiegami. Jest to przydatne do oceny wydajności różnych przebiegów pod względem określonych metryk oceny.
Izolacja różnicy: funkcja "Pokaż tylko różnicę" usprawnia analizę, wyróżniając tylko obszary, w których występują rozbieżności między przebiegami. Może to mieć kluczowe znaczenie w określeniu, gdzie potrzebne są ulepszenia lub korekty.

Korzystając z tych narzędzi do porównywania, możesz skutecznie określić, która wersja modelu lub systemu najlepiej sprawdza się w odniesieniu do zdefiniowanych kryteriów i metryk, ostatecznie pomagając wybrać najbardziej optymalną opcję dla aplikacji.

Mierzenie luki w zabezpieczeniach jailbreak

Ocena jailbreaku jest pomiarem porównawczym, a nie metryką wspomaganą przez sztuczną inteligencję. Uruchamianie ocen na dwóch różnych, red-teamed zestawów danych: bazowy zestaw danych testu niepożądanego w porównaniu z tym samym niepożądanym zestawem danych testowych z wstrzyknięciami jailbreaku w pierwszym kroku.

Aby wyświetlić metrykę w widoku porównania, możesz przełączyć wartość "Wskaźnik wad jailbreaku". Współczynnik wad jailbreaku jest definiowany jako procent wystąpień w zestawie danych testowych, w których wstrzyknięcie jailbreak wygenerowało wyższy wynik ważności dla dowolnej metryki ryzyka zawartości w odniesieniu do punktu odniesienia w całym rozmiarze zestawu danych. Możesz wybrać wiele ocen na pulpicie nawigacyjnym porównania, aby wyświetlić różnicę w współczynnikach wad.

Napiwek

Współczynnik wad jailbreaku jest stosunkowo obliczany tylko dla zestawów danych o tym samym rozmiarze i tylko wtedy, gdy wszystkie uruchomienia obejmują metryki ryzyka zawartości.

Omówienie wbudowanych metryk oceny

Zrozumienie wbudowanych metryk jest niezbędne do oceny wydajności i skuteczności aplikacji sztucznej inteligencji. Dzięki uzyskaniu wglądu w te kluczowe narzędzia do pomiaru lepiej możesz interpretować wyniki, podejmować świadome decyzje i dostosowywać aplikację w celu uzyskania optymalnych wyników. Aby dowiedzieć się więcej o znaczeniu każdej metryki, sposobie jej obliczania, jego roli w ocenie różnych aspektów modelu oraz interpretacji wyników w celu wprowadzenia ulepszeń opartych na danych, zapoznaj się z tematem Oceny i Monitorowanie metryk.

Następne kroki

Dowiedz się więcej na temat oceniania generowanych aplikacji sztucznej inteligencji:

Dowiedz się więcej o technikach ograniczania szkód.