Przesyłanie przebiegu wsadowego i ocena przepływu

Ważne

Niektóre funkcje opisane w tym artykule mogą być dostępne tylko w wersji zapoznawczej. Ta wersja zapoznawcza jest udostępniana bez umowy dotyczącej poziomu usług i nie zalecamy korzystania z niej w przypadku obciążeń produkcyjnych. Niektóre funkcje mogą być nieobsługiwane lub ograniczone. Aby uzyskać więcej informacji, zobacz Uzupełniające warunki korzystania z wersji zapoznawczych platformy Microsoft Azure.

Aby ocenić, jak dobrze działa przepływ za pomocą dużego zestawu danych, możesz przesłać przebieg wsadowy i użyć metody oceny w przepływie monitu.

Z tego artykułu dowiesz się, jak wykonywać następujące elementy:

  • Przesyłanie przebiegu wsadowego i używanie metody ewaluacyjnej
  • Wyświetlanie wyników i metryk oceny
  • Rozpocznij nową rundę oceny
  • Sprawdzanie historii uruchamiania wsadowego i porównywanie metryk
  • Omówienie wbudowanych metod oceny
  • Sposoby poprawy wydajności przepływu

Wymagania wstępne

W przypadku uruchomienia wsadowego i użycia metody ewaluacyjnej należy przygotować następujące elementy:

  • Testowy zestaw danych dla przebiegu wsadowego. Zestaw danych powinien mieć jeden z następujących formatów: .csv, lub .tsv.jsonl. Dane powinny również zawierać nagłówki zgodne z nazwami wejściowymi przepływu. Jeśli dane wejściowe przepływu zawierają złożoną strukturę, na przykład listę lub słownik, użyj jsonl formatu do reprezentowania danych.
  • Dostępna sesja obliczeniowa do uruchomienia przebiegu wsadowego. Sesja obliczeniowa to zasób oparty na chmurze, który wykonuje przepływ i generuje dane wyjściowe. Aby dowiedzieć się więcej na temat sesji obliczeniowych, zobacz Sesja obliczeniowa.

Przesyłanie przebiegu wsadowego i używanie metody ewaluacyjnej

Uruchomienie wsadowe umożliwia uruchamianie przepływu z dużym zestawem danych i generowanie danych wyjściowych dla każdego wiersza danych. Możesz również wybrać metodę oceny, aby porównać dane wyjściowe przepływu z określonymi kryteriami i celami. Metoda oceny to specjalny typ przepływu , który oblicza metryki dla danych wyjściowych przepływu na podstawie różnych aspektów. Przebieg oceny jest wykonywany, aby obliczyć metryki po przesłaniu przy użyciu przebiegu wsadowego.

Aby rozpocząć uruchamianie wsadowe z oceną, możesz wybrać przycisk Oceńocena niestandardowa. Wybierając pozycję Ocena niestandardowa, możesz przesłać przebieg wsadowy z metodami oceny lub przesłać przebieg wsadowy bez oceny przepływu.

Ten zrzut ekranu przedstawia przycisk wyzwalacza uruchamiania i oceny wsadowej

Najpierw zostanie wyświetlona prośba o podanie wsadowej nazwy opisowej i rozpoznawalnej. Możesz również napisać opis i dodać tagi (pary klucz-wartość) do przebiegu wsadowego. Po zakończeniu konfiguracji wybierz przycisk Dalej , aby kontynuować.

Ten zrzut ekranu przedstawia podstawowe ustawienie oceny niestandardowej

Po drugie musisz wybrać lub przekazać zestaw danych, za pomocą którego chcesz przetestować przepływ. Musisz również wybrać dostępną sesję obliczeniową, aby wykonać to uruchomienie wsadowe.

Przepływ monitów obsługuje również mapowanie danych wejściowych przepływu na określoną kolumnę danych w zestawie danych. Oznacza to, że można przypisać kolumnę do określonych danych wejściowych. Kolumnę można przypisać do danych wejściowych, odwołując się do ${data.XXX} formatu. Jeśli chcesz przypisać stałą wartość do danych wejściowych, możesz bezpośrednio wpisać w tej wartości.

Ten zrzut ekranu przedstawia ustawienie uruchamiania wsadowego oceny niestandardowej

Następnie w następnym kroku możesz zdecydować się na użycie metody oceny w celu zweryfikowania wydajności tego przepływu. Możesz bezpośrednio wybrać przycisk Dalej , aby pominąć ten krok, jeśli nie chcesz stosować żadnej metody oceny ani obliczyć żadnych metryk. W przeciwnym razie, jeśli chcesz teraz uruchomić uruchamianie wsadowe z oceną, możesz wybrać jedną lub więcej metod oceny. Ocena rozpoczyna się po zakończeniu przebiegu wsadowego. Można również uruchomić kolejną rundę oceny po zakończeniu przebiegu wsadowego. Aby dowiedzieć się więcej na temat rozpoczynania nowej rundy oceny, zobacz Rozpoczynanie nowej rundy oceny.

Ten zrzut ekranu przedstawia sposób wybierania metod oceny.

W następnej sekcji mapowania danych wejściowych należy określić źródła danych wejściowych, które są wymagane dla metody oceny. Na przykład kolumna podstawowej prawdy może pochodzić z zestawu danych. Domyślnie ocena używa tego samego zestawu danych co zestaw danych testowych dostarczonych do przetestowanego przebiegu. Jeśli jednak odpowiednie etykiety lub docelowe wartości prawdy podstawowej znajdują się w innym zestawie danych, możesz łatwo przełączyć się na ten zestaw danych.

  • Jeśli źródło danych pochodzi z danych wyjściowych przebiegu, źródło jest wskazywane jako ${run.output.[ OutputName]}
  • Jeśli źródło danych pochodzi z testowego zestawu danych, źródło jest wskazywane jako ${data.[ Nazwakolumny]}

Ten zrzut ekranu przedstawia sposób konfigurowania ustawień oceny, w tym mapowania danych wejściowych i połączenia.

Uwaga

Jeśli ocena nie wymaga danych z zestawu danych, nie musisz odwoływać się do żadnych kolumn zestawu danych w sekcji mapowania danych wejściowych, co wskazuje, że wybór zestawu danych jest opcjonalną konfiguracją. Wybór zestawu danych nie wpłynie na wynik oceny.

Jeśli metoda oceny używa dużych modeli językowych (LLMs) do mierzenia wydajności odpowiedzi przepływu, należy również ustawić połączenia dla węzłów LLM w metodach oceny.

Następnie możesz wybrać przycisk Dalej , aby przejrzeć ustawienia i wybrać pozycję Prześlij , aby rozpocząć uruchamianie wsadowe z oceną.

Wyświetlanie wyników i metryk oceny

Po przesłaniu możesz znaleźć przesłane uruchomienie wsadowe na karcie listy uruchomień na stronie przepływu monitu. Wybierz przebieg, aby przejść do strony wyników przebiegu.

Na stronie szczegółów przebiegu możesz wybrać pozycję Szczegóły , aby sprawdzić szczegóły tego przebiegu wsadowego.

Wyjście

Podstawowy wynik i ślad

Spowoduje to najpierw przekierowanie do karty Dane wyjściowe, aby wyświetlić dane wejściowe i wyjściowe wiersz według wiersza. Na stronie karty danych wyjściowych zostanie wyświetlona lista wyników, w tym identyfikator wiersza, dane wejściowe, dane wyjściowe, stan, metryki systemowe i czas utworzenia.

Dla każdego wiersza wybranie pozycji Wyświetl ślad umożliwia obserwowanie i debugowanie tego konkretnego przypadku testowego na swojej szczegółowej stronie śledzenia.

Ten zrzut ekranu przedstawia dane wyjściowe przebiegu wsadowego.

 Zrzut ekranu przedstawiający szczegóły śledzenia.

Dołącz wynik oceny i ślad

Wybranie pozycji Dołącz dane wyjściowe oceny umożliwia wybranie powiązanych przebiegów oceny i wyświetlenie dołączonych kolumn na końcu tabeli zawierającej wynik oceny dla każdego wiersza danych. Do porównania można dołączyć wiele danych wyjściowych oceny.

Zrzut ekranu przedstawiający dane wyjściowe uruchamiania wsadowego w celu dołączenia danych wyjściowych oceny.

Najnowsze metryki oceny można wyświetlić w lewym panelu Przegląd.

Podstawowe omówienie

Po prawej stronie przegląd zawiera ogólne informacje o przebiegu, takie jak liczba wykonań punktu danych, łączna liczba tokenów i czas trwania przebiegu.

Najnowsze zagregowane metryki przebiegu oceny są domyślnie wyświetlane w tym miejscu. Możesz wybrać pozycję Wyświetl przebieg oceny, aby przejść, aby wyświetlić sam przebieg oceny.

Zrzut ekranu przedstawiający informacje o przeglądach przebiegu wsadowego na stronie wyjściowej.

Przegląd można rozwinąć i zwinąć tutaj, a następnie wybrać pozycję Wyświetl pełne informacje, które przekierowują Cię do karty Przegląd obok karty Dane wyjściowe, gdzie zawiera bardziej szczegółowe informacje o tym przebiegu.

Rozpocznij nową rundę oceny

Jeśli przebieg wsadowy został już ukończony, możesz rozpocząć kolejną rundę oceny, aby przesłać nowy przebieg oceny, aby obliczyć metryki dla danych wyjściowych bez ponownego uruchamiania przepływu. Jest to przydatne i może obniżyć koszty ponownego uruchamiania przepływu, gdy:

  • Nie wybrano metody ewaluacyjnej, aby obliczyć metryki podczas przesyłania przebiegu wsadowego i zdecydować się na to teraz.
  • Użyto już metody oceny do obliczenia metryki. Możesz rozpocząć kolejną rundę oceny, aby obliczyć inną metryki.
  • Przebieg oceny zakończył się niepowodzeniem, ale przepływ pomyślnie wygenerował dane wyjściowe. Możesz ponownie przesłać ocenę.

Możesz przejść do karty Przebiegi przepływu monitu. Następnie przejdź do strony szczegółów przebiegu wsadowego i wybierz pozycję Oceń, aby rozpocząć kolejną rundę oceny.

Ten zrzut ekranu przedstawia sposób uruchamiania nowej oceny na podstawie przebiegu wsadowego.

Po skonfigurowaniu konfiguracji możesz wybrać pozycję "Prześlij" dla tej nowej rundy oceny. Po przesłaniu będzie można wyświetlić nowy rekord na liście przebiegów przepływu monitu. Po zakończeniu przebiegu oceny możesz również sprawdzić wynik oceny na karcie "Dane wyjściowe" panelu szczegółów przebiegu wsadowego. Musisz wybrać nowy przebieg oceny, aby wyświetlić jego wynik.

Aby dowiedzieć się więcej o metrykach obliczanych za pomocą wbudowanych metod oceny, przejdź do informacji na temat wbudowanych metod oceny.

Omówienie

Wybranie karty Przegląd zawiera kompleksowe informacje o przebiegu, w tym właściwości przebiegu, wejściowy zestaw danych, wyjściowy zestaw danych, tagi i opis.

Dzienniki

Wybranie karty Dzienniki umożliwia wyświetlenie dzienników uruchamiania, co może być przydatne w przypadku szczegółowego debugowania błędów wykonywania. Możesz pobrać pliki dziennika na komputer lokalny.

Snapshot

Wybranie karty Migawka spowoduje wyświetlenie migawki przebiegu. Możesz wyświetlić grupę DAG przepływu. Ponadto możesz sklonować go, aby utworzyć nowy przepływ. Możesz również wdrożyć go jako punkt końcowy online.

Zrzut ekranu przedstawiający migawkę przebiegu wsadowego.

Sprawdzanie historii uruchamiania wsadowego i porównywanie metryk

W niektórych scenariuszach zmodyfikujesz przepływ, aby poprawić jego wydajność. Możesz przesłać więcej niż jedno uruchomienie wsadowe, aby porównać wydajność przepływu z różnymi wersjami. Możesz również porównać metryki obliczane za pomocą różnych metod oceny, aby zobaczyć, która z nich jest bardziej odpowiednia dla przepływu.

Aby sprawdzić historię przebiegów wsadowych przepływu, możesz wybrać przycisk Wyświetl uruchamianie wsadowe na stronie przepływu. Zostanie wyświetlona lista przebiegów wsadowych przesłanych dla tego przepływu.

Ten zrzut ekranu przedstawia przycisk wizualizacji danych wyjściowych na stronie listy uruchamiania.

Możesz wybrać poszczególne uruchomienia wsadowe, aby sprawdzić szczegóły. Możesz również wybrać wiele przebiegów wsadowych i wybrać pozycję Visualize outputs (Wizualizacja danych wyjściowych), aby porównać metryki i dane wyjściowe przebiegów wsadowych .

W panelu "Wizualizacja danych wyjściowych" tabela Uruchomienia i metryki zawiera informacje o wybranych przebiegach z wyróżnieniem. Inne uruchomienia, które pobierają dane wyjściowe wybranych przebiegów jako dane wejściowe, są również wyświetlane.

W tabeli "Dane wyjściowe" można porównać wybrane uruchomienia wsadowe według każdego wiersza przykładu. Po wybraniu ikony wizualizacji oka w tabeli "Uruchomienia i metryki" dane wyjściowe tego przebiegu zostaną dołączone do odpowiedniego przebiegu podstawowego.

Omówienie wbudowanych metod oceny

W przepływie monitów udostępniamy wiele wbudowanych metod oceny, które ułatwiają mierzenie wydajności danych wyjściowych przepływu. Każda metoda oceny oblicza różne metryki. Poniższa tabela zawiera listę wbudowanych metod oceny i ich opisów.

Metoda oceny Mierniki opis Wymagana Połączenie ion Wymagane dane wejściowe Wartość wyniku
Ocena dokładności klasyfikacji Dokładność Mierzy wydajność systemu klasyfikacji, porównując swoje dane wyjściowe z prawdą prawną. Nie. przewidywanie, prawda naziemna w zakresie [0, 1].
Ocena zgodności pytań i odpowiedzi na podstawie parowania Wynik, wygrana/przegrana Ocenia jakość odpowiedzi wygenerowanych przez system odpowiedzi na pytania. Obejmuje przypisywanie wyników istotności do każdej odpowiedzi na podstawie tego, jak dobrze pasuje do pytania użytkownika, porównywania różnych odpowiedzi z odpowiedzią odniesienia i agregowania wyników w celu generowania metryk, takich jak średnie współczynniki wygranych i wyniki istotności. Tak pytanie, odpowiedź (bez podstawowej prawdy lub kontekstu) Wynik: 0-100, wygrana/przegrana: 1/0
Ocena podstaw pytań i odpowiedzi Uziemienie Mierzy sposób uziemienia przewidywanych odpowiedzi modelu w źródle wejściowym. Nawet jeśli odpowiedzi llM są prawdziwe, jeśli nie można zweryfikować względem źródła, to nie jest nieprzystawiony. Tak pytanie, odpowiedź, kontekst (bez prawdy podstawowej) 1 do 5, z 1 jest najgorszy i 5 jest najlepszy.
Ocena podobieństwa QnA GPT Podobieństwo GPT Mierzy podobieństwo między odpowiedziami podstaw dostarczonymi przez użytkownika a modelem przewidywanym odpowiedzią przy użyciu modelu GPT. Tak pytanie, odpowiedź, prawda naziemna (kontekst nie jest potrzebny) w zakresie [0, 1].
Ocena istotności pytań i oceny Stopień zgodności Mierzy, jak istotne są przewidywane odpowiedzi modelu na zadawane pytania. Tak pytanie, odpowiedź, kontekst (bez prawdy podstawowej) 1 do 5, z 1 jest najgorszy i 5 jest najlepszy.
Ocena spójności usługi QnA Spójności Mierzy jakość wszystkich zdań w przewidywanej odpowiedzi modelu i sposób ich dopasowania naturalnie. Tak pytanie, odpowiedź (bez podstawowej prawdy lub kontekstu) 1 do 5, z 1 jest najgorszy i 5 jest najlepszy.
Ocena fluency QnA Płynność Mierzy sposób gramatycznego i językowego poprawiania przewidywanej odpowiedzi modelu. Tak pytanie, odpowiedź (bez podstawowej prawdy lub kontekstu) 1 do 5, z 1 jest najgorszy i 5 jest najlepszy
Ocena wyników QnA f1 Wynik F1 Mierzy stosunek liczby wspólnych słów między przewidywaniem modelu a prawem podstawy. Nie. pytanie, odpowiedź, prawda naziemna (kontekst nie jest potrzebny) w zakresie [0, 1].
Ocena podobieństwa QnA Ada Podobieństwo Ada Osadzanie na poziomie zdania obliczeniowego (dokumentu) przy użyciu interfejsu API osadzania Ada na potrzeby zarówno prawdy podstawowej, jak i przewidywania. Następnie oblicza podobieństwo cosinusu między nimi (jedna liczba zmiennoprzecinkowa) Tak pytanie, odpowiedź, prawda naziemna (kontekst nie jest potrzebny) w zakresie [0, 1].

Sposoby poprawy wydajności przepływu

Po sprawdzeniu wbudowanych metod z oceny możesz spróbować poprawić wydajność przepływu, wykonując następujące czynności:

  • Sprawdź dane wyjściowe, aby debugować wszelkie potencjalne błędy przepływu.
  • Zmodyfikuj przepływ, aby poprawić jego wydajność. Obejmuje to, ale nie tylko:
    • Modyfikowanie monitu
    • Modyfikowanie komunikatu systemowego
    • Modyfikowanie parametrów przepływu
    • Modyfikowanie logiki przepływu

Aby dowiedzieć się więcej na temat tworzenia monitu, który może osiągnąć twój cel, zobacz Wprowadzenie do monitowania o inżynierię, techniki inżynieryjne monitowania oraz struktura komunikatów systemowych i zalecenia dotyczące szablonów dla dużych modeli językowych (LLMs).

W tym dokumencie przedstawiono sposób przesyłania przebiegu wsadowego i używania wbudowanej metody ewaluacyjnej do mierzenia jakości danych wyjściowych przepływu. Pokazano również, jak wyświetlić wynik i metryki oceny oraz jak rozpocząć nową rundę oceny przy użyciu innej metody lub podzestawu wariantów. Mamy nadzieję, że ten dokument pomoże Ci poprawić wydajność przepływu i osiągnąć cele dzięki przepływowi monitów.

Następne kroki