Notatka
Dostęp do tej strony wymaga autoryzacji. Może spróbować zalogować się lub zmienić katalogi.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Dotyczy tylko:Portal Foundry (klasyczny). Ten artykuł nie jest dostępny w nowym portalu Foundry.
Dowiedz się więcej o nowym portalu.
Uwaga
Linki w tym artykule mogą otwierać zawartość w nowej dokumentacji Microsoft Foundry, w przeciwieństwie do dokumentacji Foundry (klasycznej), którą przeglądasz obecnie.
Ostrzeżenie
Tworzenie funkcji prompt flow zakończyło się 20 kwietnia 2026 r. Funkcja zostanie w pełni wycofana 20 kwietnia 2027 r. W dniu wycofania usługa Prompt Flow wprowadza tryb tylko do odczytu. Istniejące przepływy będą nadal działać do tej daty.
Zalecane działanie: Przenieś swoje obciążenia robocze na Prompt Flow do Microsoft Agent Framework przed kwietnia 20, 2027.
Przepływy oceny to specjalne typy przepływów, które oceniają to, na ile zgodne są wyniki działania z określonymi kryteriami i celami.
W przepływie monitów możesz dostosować lub utworzyć własny przepływ oceny dostosowany do zadań i celów, a następnie użyć go do oceny innych przepływów. Z tego dokumentu dowiesz się:
- Jak opracować metodę oceny.
- Omówienie danych wejściowych, danych wyjściowych i metryk rejestrowania na potrzeby oceny przepływu monitów.
Wymagania wstępne
Ważne
Ten artykuł zapewnia wsparcie dziedzictwa dla projektów opartych na węźle. Nie będzie działać dla projektów odlewni. Zobacz Jak sprawdzić, jaki typ projektu mam?
SDK compatibility note: Przykłady kodu wymagają określonej wersji zestawu SDK Microsoft Foundry. Jeśli napotkasz problemy ze zgodnością, rozważ migrację z projektu opartego na hubie do projektu Foundry.
- Konto Azure z aktywną subskrypcją. Jeśli go nie masz, utwórz konto free Azure, które obejmuje subskrypcję bezpłatnej wersji próbnej.
- Jeśli go nie masz, utwórz projekt oparty na centrum.
Rozpoczynanie opracowywania metody oceny
Istnieją dwa sposoby tworzenia własnych metod oceny:
Dostosowywanie wbudowanego przepływu oceny: Zmodyfikuj wbudowany przepływ oceny.
- W obszarze Kompiluj i dostosuj wybierz Przepływ monitowania.
- Wybierz Utwórz, aby otworzyć kreatora przepływu.
- W obszarze Eksploruj galerię w galerii przepływów wybierz Przepływ ewaluacji , aby filtrować według tego typu. Wybierz przykład i wybierz pozycję Klonuj , aby przeprowadzić dostosowywanie.
Utwórz nowy przepływ oceny od podstaw: Opracuj zupełnie nową metodę oceny od podstaw.
- W obszarze Kompiluj i dostosuj wybierz Przepływ monitowania.
- Wybierz Utwórz, aby otworzyć kreatora przepływu.
- W galerii przepływów w sekcji Twórz według typu w "Przepływ oceny" wybierz pozycję Utwórz, a następnie pojawi się szablon przepływu oceny.
Zrozumieć ocenę w przepływie poleceń
W systemie Prompt flow, przepływ to sekwencja węzłów, które przetwarzają dane wejściowe i generują dane wyjściowe. Przepływy oceny pobierają również wymagane dane wejściowe i generują odpowiednie dane wyjściowe.
Oto niektóre specjalne cechy metod oceny:
- Zwykle są uruchamiane po uruchomieniu do przetestowania i odbierają dane wyjściowe z tego uruchomienia.
- Oprócz danych wyjściowych z przebiegu do przetestowania opcjonalnie mogą odbierać inny zestaw danych, który może zawierać odpowiednie podstawowe prawdy.
- Mogą mieć węzeł agregacji, który oblicza ogólną wydajność testowanego przepływu na podstawie poszczególnych wyników.
- Mogą rejestrować metryki przy użyciu
log_metric()funkcji .
Wprowadzamy sposób definiowania danych wejściowych i wyjściowych podczas opracowywania metod oceny.
Wejścia
Ocena jest uruchamiana po innym przebiegu, aby ocenić, jak dobrze wyniki tego przebiegu są zgodne z określonymi kryteriami i celami. W związku z tym ocena odbiera dane wyjściowe wygenerowane na podstawie tego przebiegu.
Inne dane wejściowe mogą być również wymagane, takie jak prawda naziemna, która może pochodzić z zestawu danych. Domyślnie weryfikacja używa tego samego zestawu danych, co zestaw testowy dostarczony do testowanego przebiegu. Jeśli jednak odpowiednie etykiety lub docelowe wartości prawdy podstawowej znajdują się w innym zestawie danych, możesz łatwo przełączyć się na ten zestaw danych.
W związku z tym, aby uruchomić ocenę, należy wskazać źródła tych wymaganych danych wejściowych. W tym celu podczas przesyłania oceny zobaczysz sekcję "mapowanie danych wejściowych".
- Jeśli źródło danych pochodzi z danych wyjściowych przebiegu, źródło jest wskazane jako
${run.output.[OutputName]} - Jeśli źródło danych pochodzi z testowego zestawu danych, źródło jest wskazywane jako
${data.[ColumnName]}
Uwaga
Jeśli ocena nie wymaga danych z zestawu danych, nie musisz odwoływać się do żadnych kolumn zestawu danych w sekcji mapowania danych wejściowych, co wskazuje, że wybór zestawu danych jest opcjonalną konfiguracją. Wybór zestawu danych nie wpłynie na wynik oceny.
Opis danych wejściowych
Aby przypomnieć, jakie dane wejściowe są potrzebne do obliczenia metryk, możesz dodać opis dla każdego wymaganego danych wejściowych. Opisy są wyświetlane podczas mapowania źródeł przy zgłoszeniu przebiegu wsadowego.
Aby dodać opisy dla poszczególnych danych wejściowych, wybierz pozycję Pokaż opis w sekcji danych wejściowych podczas opracowywania metody oceny. Możesz również wybrać pozycję "Ukryj opis", aby ukryć opis.
Następnie ten opis jest wyświetlany podczas korzystania z tej metody ewaluacyjnej w przesyłaniu przebiegów wsadowych.
Dane wyjściowe i metryki
Dane wyjściowe oceny to wyniki, które mierzą wydajność testowanego przepływu. Dane wyjściowe zwykle zawierają metryki, takie jak wyniki, i mogą również zawierać tekst zawierający uzasadnienia i sugestie.
Wyniki na poziomie instancji
W przepływie monitu każde przykładowe dane są przetwarzane pojedynczo, a następnie generowany jest rekord wyjściowy. Podobnie w większości przypadków oceny istnieje metryka dla poszczególnych danych wyjściowych, co pozwala sprawdzić, jak przepływ działa na poszczególnych danych.
Aby zarejestrować wynik dla każdej próbki danych, oblicz wynik dla poszczególnych danych wyjściowych i zarejestruj wynik jako dane wyjściowe przepływu , ustawiając go w sekcji danych wyjściowych. To środowisko tworzenia jest takie samo jak definiowanie standardowych danych wyjściowych przepływu.
Obliczamy ten wynik w węźle line_process, który można utworzyć od podstaw i edytować podczas tworzenia według typu. Możesz również zastąpić ten węzeł języka Python węzłem LLM, aby użyć usługi LLM do obliczenia wyniku.
Gdy ta metoda oceny jest używana do oceny innego przepływu, wynik na poziomie wystąpienia można wyświetlić na karcie Przegląd>danych wyjściowych .
Rejestrowanie metryk i węzeł agregacji
Ponadto ważne jest również, aby zapewnić ogólny wynik dla przebiegu. Możesz sprawdzić "ustaw jako agregację" węzła Python w procesie ewaluacji, aby przekształcić go w węzeł "redukcji", umożliwiając węzłowi przyjęcie danych wejściowych jako lista i przetworzenie ich w partii.
W ten sposób można obliczyć i przetworzyć wszystkie wyniki poszczególnych danych wyjściowych przepływu i obliczyć ogólny wynik dla każdego wariantu.
Metryki można rejestrować w węźle agregacji przy użyciu polecenia Prompt flow_sdk.log_metrics(). Metryki powinny być liczbowe (float/int). Rejestrowanie metryk typu ciągu nie jest obsługiwane.
Obliczamy ten wynik w węźle aggregate, który można utworzyć od podstaw i edytować podczas tworzenia według typu. Możesz również zastąpić ten węzeł Python węzłem LLM, aby użyć modułu LLM do obliczenia wyniku. Zobacz następujący przykład zastosowania API log_metric w przepływie oceny:
from typing import List
from promptflow import tool, log_metric
@tool
def calculate_accuracy(grades: List[str], variant_ids: List[str]):
aggregate_grades = {}
for index in range(len(grades)):
grade = grades[index]
variant_id = variant_ids[index]
if variant_id not in aggregate_grades.keys():
aggregate_grades[variant_id] = []
aggregate_grades[variant_id].append(grade)
# calculate accuracy for each variant
for name, values in aggregate_grades.items():
accuracy = round((values.count("Correct") / len(values)), 2)
log_metric("accuracy", accuracy, variant_id=name)
return aggregate_grades
Po wywołaniu tej funkcji w węźle Python nie musisz przypisywać jej nigdzie indziej i później można wyświetlić metryki. Gdy ta metoda oceny jest używana w przebiegu wsadowym, wynik na poziomie wystąpienia można wyświetlić na karcie Przegląd - Metryki>.