Przesyłanie przebiegu wsadowego i ocena przepływu

Artykuł
05/21/2024

Aby ocenić, jak dobrze działa przepływ za pomocą dużego zestawu danych, możesz przesłać przebieg wsadowy i użyć wbudowanych metod oceny w przepływie monitów.

Z tego artykułu dowiesz się, jak wykonywać następujące elementy:

Przesyłanie przebiegu wsadowego i używanie wbudowanej metody oceny
Wyświetlanie wyników i metryk oceny
Rozpocznij nową rundę oceny
Sprawdzanie historii uruchamiania usługi Batch i porównywanie metryk
Omówienie wbudowanych metryk oceny
Sposoby poprawy wydajności przepływu
Dalsze informacje: Wskazówki dotyczące tworzenia złotych zestawów danych używanych do zapewniania jakości copilot

Możesz szybko rozpocząć testowanie i ocenianie przepływu, wykonując czynności opisane w tym samouczku wideo, przesyłając przebieg wsadowy i oceniając samouczek wideo dotyczący przepływu.

Wymagania wstępne

Aby uruchomić uruchomienie wsadowe i użyć metody ewaluacyjnej, należy przygotować następujące elementy:

Testowy zestaw danych dla przebiegu wsadowego. Zestaw danych powinien mieć jeden z następujących formatów: .csv, lub .tsv.jsonl. Dane powinny również zawierać nagłówki zgodne z nazwami wejściowymi przepływu. Dalsze informacje: Jeśli tworzysz własny copilot, zalecamy zapoznanie się ze wskazówkami dotyczącymi tworzenia złotych zestawów danych używanych do zapewniania jakości copilot.

Przesyłanie przebiegu wsadowego i używanie wbudowanej metody ewaluacyjnej

Uruchomienie wsadowe umożliwia uruchamianie przepływu z dużym zestawem danych i generowanie danych wyjściowych dla każdego wiersza danych. Możesz również wybrać metodę oceny, aby porównać dane wyjściowe przepływu z określonymi kryteriami i celami. Metoda oceny to specjalny typ przepływu , który oblicza metryki dla danych wyjściowych przepływu na podstawie różnych aspektów. Przebieg oceny jest wykonywany, aby obliczyć metryki po przesłaniu przy użyciu przebiegu wsadowego.

Aby rozpocząć uruchamianie wsadowe z oceną, możesz wybrać przycisk "Oceń" w prawym górnym rogu strony przepływu.

Aby przesłać przebieg wsadowy, możesz wybrać zestaw danych, za pomocą którego chcesz przetestować przepływ. Możesz również wybrać metodę oceny, aby obliczyć metryki dla danych wyjściowych przepływu. Jeśli nie chcesz używać metody oceny, możesz pominąć ten krok i uruchomić przebieg wsadowy bez obliczania żadnych metryk. Możesz również rozpocząć nową rundę oceny później.

Najpierw zostanie wyświetlona prośba o podanie wsadowej nazwy opisowej i rozpoznawalnej. Możesz również napisać opis i dodać tagi (pary klucz-wartość) do przebiegu wsadowego. Po zakończeniu konfiguracji wybierz pozycję "Dalej" , aby kontynuować.

Po drugie musisz wybrać lub przekazać zestaw danych, za pomocą którego chcesz przetestować przepływ. Przepływ monitów obsługuje również mapowanie danych wejściowych przepływu na określoną kolumnę danych w zestawie danych. Oznacza to, że można przypisać kolumnę do określonych danych wejściowych. Kolumnę można przypisać do danych wejściowych, odwołując się do ${data.XXX} formatu. Jeśli chcesz przypisać stałą wartość do danych wejściowych, możesz bezpośrednio wpisać w tej wartości.

Następnie w następnym kroku możesz zdecydować się na użycie metody oceny w celu zweryfikowania wydajności tego przebiegu natychmiast lub później. W przypadku ukończonego przebiegu wsadowego można dodać nową rundę oceny.

Możesz bezpośrednio wybrać przycisk "Dalej" , aby pominąć ten krok i uruchomić przebieg wsadowy bez użycia żadnej metody oceny w celu obliczenia metryk. W ten sposób ten przebieg wsadowy generuje tylko dane wyjściowe dla zestawu danych. Możesz ręcznie sprawdzić dane wyjściowe lub wyeksportować je w celu dalszej analizy z innymi metodami.

W przeciwnym razie, jeśli chcesz teraz uruchomić uruchamianie wsadowe z oceną, możesz wybrać jedną lub więcej metod oceny na podstawie podanego opisu. Możesz wybrać przycisk "Więcej szczegółów" , aby wyświetlić więcej informacji na temat metody oceny, takich jak generowane metryki i wymagane połączenia i dane wejściowe.

Przejdź do następnego kroku i skonfiguruj ustawienia oceny. W sekcji "Mapowanie danych wejściowych oceny" należy określić źródła danych wejściowych, które są wymagane dla metody oceny. Na przykład kolumna podstawowej prawdy może pochodzić z zestawu danych. Domyślnie ocena używa tego samego zestawu danych co zestaw danych testowych dostarczonych do przetestowanego przebiegu. Jeśli jednak odpowiednie etykiety lub docelowe wartości prawdy podstawowej znajdują się w innym zestawie danych, możesz łatwo przełączyć się na ten zestaw danych.

W związku z tym, aby uruchomić ocenę, należy wskazać źródła tych wymaganych danych wejściowych. W tym celu podczas przesyłania oceny zobaczysz sekcję "Mapowanie danych wejściowych oceny".

Jeśli źródło danych pochodzi z danych wyjściowych przebiegu, źródło jest wskazywane jako "${run.output".[ OutputName]}"
Jeśli źródło danych pochodzi z testowego zestawu danych, źródło jest wskazywane jako "${data".[ Nazwakolumny]}"

Uwaga

Jeśli ocena nie wymaga danych z zestawu danych, nie musisz odwoływać się do żadnych kolumn zestawu danych w sekcji mapowania danych wejściowych, co wskazuje, że wybór zestawu danych jest opcjonalną konfiguracją. Wybór zestawu danych nie wpłynie na wynik oceny.

Jeśli metoda oceny używa dużych modeli językowych (LLMs) do mierzenia wydajności odpowiedzi przepływu, należy również ustawić połączenia dla węzłów LLM w metodach oceny.

Uwaga

Niektóre metody oceny wymagają uruchomienia biblioteki GPT-4 lub GPT-3. Przed ich użyciem należy podać prawidłowe połączenia dla tych metod oceny. Proces oceny może wymagać wielu tokenów, dlatego zaleca się użycie modelu, który może obsługiwać >tokeny =16 tys.

Po zakończeniu mapowania danych wejściowych wybierz pozycję "Dalej" , aby przejrzeć ustawienia i wybrać pozycję "Prześlij" , aby rozpocząć uruchamianie wsadowe z oceną.

Uwaga

Przebiegi wsadowe mają maksymalny czas trwania 10 godzin. Jeśli uruchomienie wsadowe przekroczy ten limit, zostanie zakończone i oznaczone jako zakończone niepowodzeniem. Zalecamy monitorowanie pojemności modelu dużego języka (LLM), aby uniknąć ograniczania przepustowości. W razie potrzeby rozważ zmniejszenie rozmiaru danych. Jeśli nadal występują problemy lub potrzebujesz dalszej pomocy, nie wahaj się skontaktować się z naszym zespołem ds. produktów za pośrednictwem formularza opinii lub wniosku o pomoc techniczną.

Wyświetlanie wyników i metryk oceny

Po przesłaniu możesz znaleźć przesłane uruchomienie wsadowe na karcie listy uruchomień na stronie przepływu monitu.

Wybierz przebieg, aby przejść do strony Uruchom wynik , aby sprawdzić wyniki tego przebiegu wsadowego.

Wyjście

Podstawowy wynik i ślad

Spowoduje to najpierw przekierowanie do karty Dane wyjściowe, aby wyświetlić dane wejściowe i wyjściowe wiersz według wiersza. Na stronie karty danych wyjściowych zostanie wyświetlona lista wyników, w tym identyfikator wiersza, dane wejściowe, dane wyjściowe, stan, metryki systemowe i czas utworzenia.

Dla każdego wiersza wybranie pozycji Wyświetl ślad umożliwia obserwowanie i debugowanie tego konkretnego przypadku testowego na swojej szczegółowej stronie śledzenia.

Dołącz wynik oceny i ślad

Wybranie pozycji Dołącz dane wyjściowe oceny umożliwia wybranie powiązanych przebiegów oceny i wyświetlenie dołączonych kolumn na końcu tabeli zawierającej wynik oceny dla każdego wiersza danych. Do porównania można dołączyć wiele danych wyjściowych oceny.

Najnowsze metryki oceny można wyświetlić w lewym panelu Przegląd.

Podstawowe omówienie

Po prawej stronie przegląd zawiera ogólne informacje o przebiegu, takie jak liczba wykonań punktu danych, łączna liczba tokenów i czas trwania przebiegu.

Najnowsze zagregowane metryki przebiegu oceny są domyślnie wyświetlane w tym miejscu. Możesz wybrać pozycję Wyświetl przebieg oceny, aby przejść, aby wyświetlić sam przebieg oceny.

Przegląd można rozwinąć i zwinąć tutaj, a następnie wybrać pozycję Wyświetl pełne informacje, co spowoduje przekierowanie do karty Przegląd obok karty Dane wyjściowe, gdzie zawiera bardziej szczegółowe informacje o tym przebiegu.

Rozpocznij nową rundę oceny

Jeśli przebieg wsadowy został już ukończony, możesz rozpocząć kolejną rundę oceny, aby przesłać nowy przebieg oceny, aby obliczyć metryki dla danych wyjściowych bez ponownego uruchamiania przepływu. Jest to przydatne i może obniżyć koszty ponownego uruchamiania przepływu, gdy:

Nie wybrano metody ewaluacyjnej, aby obliczyć metryki podczas przesyłania przebiegu wsadowego i zdecydować się na to teraz.
Użyto już metody oceny do obliczenia metryki. Możesz rozpocząć kolejną rundę oceny, aby obliczyć inną metryki.
Przebieg oceny zakończył się niepowodzeniem, ale przepływ pomyślnie wygenerował dane wyjściowe. Możesz ponownie przesłać ocenę.

Możesz wybrać pozycję Oceń , aby rozpocząć kolejną rundę oceny.

Po skonfigurowaniu konfiguracji możesz wybrać pozycję "Prześlij" dla tej nowej rundy oceny. Po przesłaniu będzie można wyświetlić nowy rekord na liście przebiegów przepływu monitu. Po zakończeniu przebiegu oceny możesz również sprawdzić wynik oceny na karcie "Dane wyjściowe" panelu szczegółów przebiegu wsadowego. Musisz wybrać nowy przebieg oceny, aby wyświetlić jego wynik.

Aby dowiedzieć się więcej o metrykach obliczanych przy użyciu wbudowanych metod oceny, przejdź do informacji o wbudowanych metrykach oceny.

Omówienie

Wybranie karty Przegląd zawiera kompleksowe informacje o przebiegu, w tym właściwości przebiegu, wejściowy zestaw danych, wyjściowy zestaw danych, tagi i opis.

Dzienniki

Wybranie karty Dzienniki umożliwia wyświetlenie dzienników uruchamiania, co może być przydatne w przypadku szczegółowego debugowania błędów wykonywania. Możesz pobrać pliki dziennika na komputer lokalny.

Snapshot

Wybranie karty Migawka spowoduje wyświetlenie migawki przebiegu. Możesz wyświetlić grupę DAG przepływu. Ponadto możesz sklonować go, aby utworzyć nowy przepływ. Możesz również wdrożyć go jako punkt końcowy online.

Sprawdzanie historii uruchamiania wsadowego i porównywanie metryk

W niektórych scenariuszach zmodyfikujesz przepływ, aby poprawić jego wydajność. Możesz przesłać wiele przebiegów wsadowych, aby porównać wydajność przepływu z różnymi wersjami. Możesz również porównać metryki obliczane za pomocą różnych metod oceny, aby zobaczyć, która z nich jest bardziej odpowiednia dla przepływu.

Aby sprawdzić historię przebiegów wsadowych przepływu, możesz wybrać przycisk "Wyświetl uruchamianie wsadowe" w prawym górnym rogu strony przepływu. Zostanie wyświetlona lista przebiegów wsadowych przesłanych dla tego przepływu.

Możesz wybrać poszczególne uruchomienia wsadowe, aby sprawdzić szczegóły. Możesz również wybrać wiele przebiegów wsadowych i wybrać pozycję "Visualize outputs" (Wizualizacja danych wyjściowych), aby porównać metryki i dane wyjściowe tego uruchomienia wsadowego.

W panelu "Wizualizacja danych wyjściowych" tabela Uruchomienia i metryki zawiera informacje o wybranych przebiegach z wyróżnieniem. Inne uruchomienia, które pobierają dane wyjściowe wybranych przebiegów jako dane wejściowe, są również wyświetlane.

W tabeli "Dane wyjściowe" można porównać wybrane uruchomienia wsadowe według każdego wiersza przykładu. Po wybraniu ikony wizualizacji oka w tabeli "Uruchomienia i metryki" dane wyjściowe tego przebiegu zostaną dołączone do odpowiedniego przebiegu podstawowego.

Omówienie wbudowanych metryk oceny

W przepływie monitów udostępniamy wiele wbudowanych metod oceny, które ułatwiają mierzenie wydajności danych wyjściowych przepływu. Każda metoda oceny oblicza różne metryki. Teraz udostępniamy dziewięć wbudowanych metod oceny. Aby uzyskać szybką dokumentację, możesz zapoznać się z poniższą tabelą:

Metoda oceny	Mierniki	opis	Wymagana Połączenie ion	Wymagane dane wejściowe	Wartość wyniku
Ocena dokładności klasyfikacji	Dokładność	Mierzy wydajność systemu klasyfikacji, porównując swoje dane wyjściowe z prawdą prawną.	Nie.	przewidywanie, prawda naziemna	w zakresie [0, 1].
Ocena zgodności pytań i odpowiedzi na podstawie parowania	Wynik, wygrana/przegrana	Ocenia jakość odpowiedzi wygenerowanych przez system odpowiedzi na pytania. Obejmuje przypisywanie wyników istotności do każdej odpowiedzi na podstawie tego, jak dobrze pasuje do pytania użytkownika, porównywania różnych odpowiedzi z odpowiedzią odniesienia i agregowania wyników w celu generowania metryk, takich jak średnie współczynniki wygranych i wyniki istotności.	Tak	pytanie, odpowiedź (bez podstawowej prawdy lub kontekstu)	Wynik: 0-100, wygrana/przegrana: 1/0
Ocena podstaw pytań i odpowiedzi	Uziemienie	Mierzy sposób uziemienia przewidywanych odpowiedzi modelu w źródle wejściowym. Nawet jeśli odpowiedzi llM są prawdziwe, jeśli nie można zweryfikować względem źródła, to nie jest nieprzystawiony.	Tak	pytanie, odpowiedź, kontekst (bez prawdy podstawowej)	1 do 5, z 1 jest najgorszy i 5 jest najlepszy.
Ocena podobieństwa QnA GPT	Podobieństwo GPT	Mierzy podobieństwo między odpowiedziami podstaw dostarczonymi przez użytkownika a modelem przewidywanym odpowiedzią przy użyciu modelu GPT.	Tak	pytanie, odpowiedź, prawda naziemna (kontekst nie jest potrzebny)	1 do 5, z 1 jest najgorszy i 5 jest najlepszy.
Ocena istotności pytań i oceny	Stopień zgodności	Mierzy, jak istotne są przewidywane odpowiedzi modelu na zadawane pytania.	Tak	pytanie, odpowiedź, kontekst (bez prawdy podstawowej)	1 do 5, z 1 jest najgorszy i 5 jest najlepszy.
Ocena spójności usługi QnA	Spójności	Mierzy jakość wszystkich zdań w przewidywanej odpowiedzi modelu i sposób ich dopasowania naturalnie.	Tak	pytanie, odpowiedź (bez podstawowej prawdy lub kontekstu)	1 do 5, z 1 jest najgorszy i 5 jest najlepszy.
Ocena fluency QnA	Płynność	Mierzy sposób gramatycznego i językowego poprawiania przewidywanej odpowiedzi modelu.	Tak	pytanie, odpowiedź (bez podstawowej prawdy lub kontekstu)	1 do 5, z 1 jest najgorszy i 5 jest najlepszy
Ocena wyników QnA f1	Wynik F1	Mierzy stosunek liczby wspólnych słów między przewidywaniem modelu a prawem podstawy.	Nie.	pytanie, odpowiedź, prawda naziemna (kontekst nie jest potrzebny)	w zakresie [0, 1].
Ocena podobieństwa QnA Ada	Podobieństwo Ada	Osadzanie na poziomie zdania obliczeniowego (dokumentu) przy użyciu interfejsu API osadzania Ada na potrzeby zarówno prawdy podstawowej, jak i przewidywania. Następnie oblicza podobieństwo cosinusu między nimi (jedna liczba zmiennoprzecinkowa)	Tak	pytanie, odpowiedź, prawda naziemna (kontekst nie jest potrzebny)	w zakresie [0, 1].

Sposoby poprawy wydajności przepływu

Po sprawdzeniu wbudowanych metryk z oceny możesz spróbować poprawić wydajność przepływu, wykonując następujące czynności:

Sprawdź dane wyjściowe, aby debugować wszelkie potencjalne błędy przepływu.
Zmodyfikuj przepływ, aby poprawić jego wydajność. Obejmuje to, ale nie tylko:
- Modyfikowanie monitu
- Modyfikowanie komunikatu systemowego
- Modyfikowanie parametrów przepływu
- Modyfikowanie logiki przepływu

Budowa monitów może być trudna. Udostępniamy wprowadzenie, aby skłonić inżynierów do uzyskania pomocy w poznać koncepcję konstruowania monitu, który może osiągnąć Twój cel. Zobacz techniki monitowania inżynieryjnego, aby dowiedzieć się więcej o tworzeniu monitu, który może osiągnąć twój cel.

Komunikat systemowy, czasami określany jako metaprompt lub monit systemowy, który może służyć do kierowania zachowaniem systemu sztucznej inteligencji i poprawiania wydajności systemu. Przeczytaj ten dokument na temat struktury komunikatów systemowych i zaleceń dotyczących szablonów dla dużych modeli językowych (LLMs), aby dowiedzieć się, jak poprawić wydajność przepływu za pomocą komunikatu systemowego.

Dalsze informacje: Wskazówki dotyczące tworzenia złotych zestawów danych używanych do zapewniania jakości copilot

Tworzenie copilot, który używa dużych modeli językowych (LLMs) zwykle obejmuje uziemienie modelu w rzeczywistości przy użyciu źródłowych zestawów danych. Jednak w celu zapewnienia, że moduły LLM zapewniają najdokładniejsze i przydatne odpowiedzi na zapytania klientów, wymagany jest "złoty zestaw danych".

Złoty zestaw danych to zbiór realistycznych pytań klientów i fachowo spreparowanych odpowiedzi. Służy jako narzędzie kontroli jakości dla llms używanych przez twój copilot. Złote zestawy danych nie są używane do trenowania modułu LLM ani wstrzykiwania kontekstu do monitu LLM. Zamiast tego są one wykorzystywane do oceny jakości odpowiedzi generowanych przez LLM.

Jeśli twój scenariusz obejmuje copilot lub jeśli jesteś w trakcie tworzenia własnego copilot, zalecamy odwołanie się do tego konkretnego dokumentu: Tworzenie złotych zestawów danych: Wskazówki dotyczące tworzenia złotych zestawów danych używanych do zapewniania jakości Copilot w celu uzyskania bardziej szczegółowych wskazówek i najlepszych rozwiązań.

Następne kroki

W tym dokumencie przedstawiono sposób przesyłania przebiegu wsadowego i używania wbudowanej metody ewaluacyjnej do mierzenia jakości danych wyjściowych przepływu. Pokazano również, jak wyświetlić wynik i metryki oceny oraz jak rozpocząć nową rundę oceny przy użyciu innej metody lub podzestawu wariantów. Mamy nadzieję, że ten dokument pomoże Ci poprawić wydajność przepływu i osiągnąć cele dzięki przepływowi monitu.

Udostępnij za pośrednictwem

Przesyłanie przebiegu wsadowego i ocena przepływu

Wymagania wstępne

Przesyłanie przebiegu wsadowego i używanie wbudowanej metody ewaluacyjnej

Wyświetlanie wyników i metryk oceny

Wyjście

Podstawowy wynik i ślad

Dołącz wynik oceny i ślad

Podstawowe omówienie

Rozpocznij nową rundę oceny

Omówienie

Dzienniki

Snapshot

Sprawdzanie historii uruchamiania wsadowego i porównywanie metryk

Omówienie wbudowanych metryk oceny

Sposoby poprawy wydajności przepływu

Dalsze informacje: Wskazówki dotyczące tworzenia złotych zestawów danych używanych do zapewniania jakości copilot

Następne kroki

Opinia

Opinia

Dodatkowe zasoby