Dela via


Skicka en batchkörning och utvärdera ett flöde

Viktigt!

Vissa av de funktioner som beskrivs i den här artikeln kanske bara är tillgängliga i förhandsversionen. Den här förhandsversionen tillhandahålls utan ett serviceavtal och vi rekommenderar det inte för produktionsarbetsbelastningar. Vissa funktioner kanske inte stöds eller kan vara begränsade. Mer information finns i Kompletterande villkor för användning av Microsoft Azure-förhandsversioner.

Om du vill utvärdera hur bra flödet presterar med en stor datamängd kan du skicka batchkörning och använda en utvärderingsmetod i promptflödet.

I den här artikeln lär du dig att:

  • Skicka en batchkörning och använd en utvärderingsmetod
  • Visa utvärderingsresultatet och måtten
  • Starta en ny utvärderingsrunda
  • Kontrollera batchkörningshistoriken och jämför mått
  • Förstå de inbyggda utvärderingsmetoderna
  • Sätt att förbättra flödesprestanda

Förutsättningar

För en batchkörning och för att använda en utvärderingsmetod måste du ha följande redo:

  • En testdatauppsättning för batchkörning. Datauppsättningen bör ha något av följande format: .csv, .tsveller .jsonl. Dina data bör också innehålla rubriker som matchar indatanamnen för ditt flöde. Om dina flödesindata innehåller en komplex struktur som en lista eller ordlista använder du jsonl format för att representera dina data.
  • En tillgänglig beräkningssession för att köra batchkörningen. En beräkningssession är en molnbaserad resurs som kör ditt flöde och genererar utdata. Mer information om beräkningssessioner finns i beräkningssession.

Skicka en batchkörning och använd en utvärderingsmetod

Med en batchkörning kan du köra ditt flöde med en stor datamängd och generera utdata för varje datarad. Du kan också välja en utvärderingsmetod för att jämföra utdata från ditt flöde med vissa kriterier och mål. En utvärderingsmetod är en särskild typ av flöde som beräknar mått för dina flödesutdata baserat på olika aspekter. En utvärderingskörning körs för att beräkna måtten när de skickas med batchkörningen.

Om du vill starta en batchkörning med utvärdering kan du välja på knappen UtvärderaAnpassad utvärdering. Genom att välja Anpassad utvärdering kan du antingen skicka en batchkörning med utvärderingsmetoder eller skicka en batchkörning utan utvärdering för ditt flöde.

Den här skärmbilden visar knappen för batchkörning och utvärderingsutlösare

Först uppmanas du att ge batchkörningen ett beskrivande och igenkännbart namn. Du kan också skriva en beskrivning och lägga till taggar (nyckel/värde-par) i batchkörningen. När du har slutfört konfigurationen väljer du Nästa för att fortsätta.

Den här skärmbilden visar den grundläggande inställningen för anpassad utvärdering

För det andra måste du välja eller ladda upp en datauppsättning som du vill testa ditt flöde med. Du måste också välja en tillgänglig beräkningssession för att köra den här batchkörningen.

Prompt flow stöder också mappning av flödesindata till en specifik datakolumn i datauppsättningen. Det innebär att du kan tilldela en kolumn till en viss indata. Du kan tilldela en kolumn till en indata genom att referera till med ${data.XXX} format. Om du vill tilldela ett konstant värde till en indata kan du skriva in det värdet direkt.

Den här skärmbilden visar batchkörningsinställningen för anpassad utvärdering

I nästa steg kan du sedan välja att använda en utvärderingsmetod för att verifiera flödets prestanda. Du kan välja knappen Nästa direkt för att hoppa över det här steget om du inte vill använda någon utvärderingsmetod eller beräkna några mått. Annars kan du välja en eller flera utvärderingsmetoder om du vill köra batchkörningen med utvärdering nu. Utvärderingen startar när batchkörningen har slutförts. Du kan också starta en ny utvärderingsrunda när batchkörningen har slutförts. Mer information om hur du startar en ny utvärderingsrunda finns i Starta en ny utvärderingsrunda.

Den här skärmbilden visar hur du väljer utvärderingsmetoder.

I nästa steg för indatamappning måste du ange källorna för de indata som behövs för utvärderingsmetoden. Till exempel kan kolumnen ground truth komma från en datauppsättning. Som standard använder utvärderingen samma datauppsättning som testdatauppsättningen som tillhandahålls till den testade körningen. Men om motsvarande etiketter eller målgrunds sanningsvärden finns i en annan datauppsättning kan du enkelt växla till den.

  • Om datakällan kommer från körningsutdata anges källan som ${run.output.[ OutputName]}
  • Om datakällan kommer från testdatauppsättningen anges källan som ${data.[ ColumnName]}

Den här skärmbilden visar hur du konfigurerar utvärderingsinställningar, inklusive indatamappning och anslutning.

Kommentar

Om utvärderingen inte kräver data från datauppsättningen behöver du inte referera till några datamängdskolumner i avsnittet för indatamappning, vilket indikerar att valet av datauppsättning är en valfri konfiguration. Valet av datauppsättning påverkar inte utvärderingsresultatet.

Om en utvärderingsmetod använder stora språkmodeller (LLM) för att mäta prestanda för flödessvaret måste du också ange anslutningar för LLM-noderna i utvärderingsmetoderna.

Sedan kan du välja Nästa för att granska inställningarna och välja på Skicka för att starta batchkörningen med utvärdering.

Visa utvärderingsresultatet och måtten

Efter sändningen hittar du den skickade batchkörningen på fliken körlista på sidan för snabbflöde. Välj en körning för att navigera till körningsresultatsidan.

På sidan körningsinformation kan du välja Information för att kontrollera informationen om den här batchkörningen.

Output

Grundläggande resultat och spårning

Detta leder dig först till fliken Utdata för att visa indata och utdata rad för rad. På fliken utdata visas en tabelllista med resultat, inklusive rad-ID, indata, utdata, status, systemmått och skapad tid.

Om du väljer Visa spårning för varje rad kan du observera och felsöka det specifika testfallet på den detaljerade sidan för spårning.

Den här skärmbilden visar batchkörningens utdata.

 Skärmbild av spårningsinformation.

Resultat och spårning av tilläggsutvärdering

Om du väljer Lägg till utvärderingsutdata kan du välja relaterade utvärderingskörningar och du ser bifogade kolumner i slutet av tabellen som visar utvärderingsresultatet för varje rad med data. Flera utvärderingsutdata kan läggas till för jämförelse.

Skärmbild av batchkörningsutdata för att lägga till utvärderingsutdata.

Du kan se de senaste utvärderingsmåtten i den vänstra översiktspanelen .

Grundläggande översikt

Till höger innehåller översikten övergripande information om körningen, till exempel antalet körningar per datapunkt, totalt antal token och körningens varaktighet.

De senaste aggregerade måtten för utvärderingskörning visas här som standard. Du kan välja Visa utvärderingskörning för att visa själva utvärderingskörningen.

Skärmbild av översiktsinformation för batchkörning på utdatasidan.

Översikten kan expanderas och komprimeras här, och du kan välja Visa fullständig information som leder dig till fliken Översikt bredvid fliken Utdata, där innehåller mer detaljerad information om den här körningen.

Starta en ny utvärderingsrunda

Om du redan har slutfört en batchkörning kan du starta en ny utvärderingsrunda för att skicka en ny utvärderingskörning för att beräkna mått för utdata utan att köra flödet igen. Detta är användbart och kan spara din kostnad för att köra flödet igen när:

  • Du har inte valt någon utvärderingsmetod för att beräkna måtten när du skickar batchkörningen och bestämmer dig för att göra det nu.
  • Du har redan använt utvärderingsmetoden för att beräkna ett mått. Du kan starta en ny utvärderingsrunda för att beräkna ett annat mått.
  • Utvärderingskörningen misslyckades men flödet genererade utdata. Du kan skicka utvärderingen igen.

Du kan gå till fliken Körning av promptflöde. Gå sedan till informationssidan för batchkörning och välj Utvärdera för att starta en ny utvärderingsrunda.

Den här skärmbilden visar hur du startar en ny utvärdering baserat på en batchkörning.

När du har konfigurerat konfigurationen kan du välja "Skicka" för den nya utvärderingsrundan. Efter sändningen kan du se en ny post i listan över körning av promptflöde. När utvärderingskörningen har slutförts kan du på samma sätt kontrollera resultatet av utvärderingen på fliken Utdata i detaljpanelen för batchkörning. Du måste välja den nya utvärderingskörningen för att visa resultatet.

Om du vill veta mer om måtten som beräknas med de inbyggda utvärderingsmetoderna går du till för att förstå de inbyggda utvärderingsmetoderna.

Översikt

När du väljer fliken Översikt visas omfattande information om körningen, inklusive körningsegenskaper, indatauppsättning, utdatauppsättning, taggar och beskrivning.

Loggar

Om du väljer fliken Loggar kan du visa körningsloggarna, vilket kan vara användbart för detaljerad felsökning av körningsfel. Du kan ladda ned loggfilerna till den lokala datorn.

Ögonblicksbild

När du väljer fliken Ögonblicksbild visas körningsögonblicksbilden. Du kan visa DAG för ditt flöde. Dessutom har du möjlighet att klona det för att skapa ett nytt flöde. Du kan också distribuera den som en onlineslutpunkt.

Skärmbild av ögonblicksbild av batchkörning.

Kontrollera batchkörningshistoriken och jämför mått

I vissa scenarier ändrar du flödet för att förbättra dess prestanda. Du kan skicka mer än en batchkörning för att jämföra prestanda för ditt flöde med olika versioner. Du kan också jämföra måtten som beräknas med olika utvärderingsmetoder för att se vilken som är lämpligare för ditt flöde.

Om du vill kontrollera batchkörningshistoriken för ditt flöde kan du välja knappen Visa batchkörning på flödessidan. Du ser en lista över batchkörningar som du har skickat för det här flödet.

Den här skärmbilden visar knappen visualisera utdata på sidan körningslista.

Du kan välja på varje batchkörning för att kontrollera informationen. Du kan också välja flera batchkörningar och välja visualisera utdata för att jämföra måtten och utdata från batchkörningarna.

I panelen "Visualisera utdata" visar tabellen Körningar och mått informationen om de valda körningarna med markering. Andra körningar som tar utdata från de valda körningarna som indata visas också.

I tabellen "Utdata" kan du jämföra de valda batchkörningarna med varje rad i exemplet. Genom att välja ikonen "ögonvisualisering" i tabellen "Körningar och mått" läggs utdata från den körningen till i motsvarande baskörning.

Förstå de inbyggda utvärderingsmetoderna

I promptflöde tillhandahåller vi flera inbyggda utvärderingsmetoder som hjälper dig att mäta prestanda för dina flödesutdata. Varje utvärderingsmetod beräknar olika mått. I följande tabell finns en lista över inbyggda utvärderingsmetoder och deras beskrivningar.

Utvärderingsmetod Metrics beskrivning Anslut ion krävs Nödvändiga indata Poängvärde
Utvärdering av klassificeringsnoggrannhet Noggrannhet Mäter prestandan för ett klassificeringssystem genom att jämföra dess utdata med grund sanning. Nej förutsägelse, grund sanning i intervallet [0, 1].
Utvärdering av QnA-relevanspoäng parvis Poäng, vinst/förlust Utvärderar kvaliteten på svaren som genereras av ett frågesvarssystem. Det handlar om att tilldela relevanspoäng till varje svar baserat på hur väl det matchar användarfrågan, jämföra olika svar på ett baslinjesvar och aggregera resultaten för att producera mått som genomsnittliga vinstfrekvenser och relevanspoäng. Ja fråga, svar (ingen grund sanning eller kontext) Poäng: 0-100, vinst/förlust: 1/0
Utvärdering av QnA Groundedness Grundstötning Mäter hur grundade modellens förutsagda svar finns i indatakällan. Även om LLM:s svar är sanna, om de inte kan verifieras mot källan, så är de ogrundade. Ja fråga, svar, sammanhang (ingen grund sanning) 1 till 5, där 1 är sämst och 5 är bäst.
QnA GPT-likhetsutvärdering GPT-likhet Mäter likheten mellan de grundläggande sanningssvaren från användaren och modellens förutsagda svar med HJÄLP av GPT-modellen. Ja fråga, svar, grund sanning (kontext behövs inte) i intervallet [0, 1].
Utvärdering av QnA-relevans Relevans Mäter hur relevanta modellens förutsagda svar är på de frågor som ställs. Ja fråga, svar, sammanhang (ingen grund sanning) 1 till 5, där 1 är sämst och 5 är bäst.
Utvärdering av QnA-konsekvens Samstämmighet Mäter kvaliteten på alla meningar i en modells förutsagda svar och hur de passar ihop naturligt. Ja fråga, svar (ingen grund sanning eller kontext) 1 till 5, där 1 är sämst och 5 är bäst.
Utvärdering av QnA-fluency Flyt Mäter hur grammatiskt och språkligt korrigerar modellens förutsagda svar. Ja fråga, svar (ingen grund sanning eller kontext) 1 till 5, där 1 är sämst och 5 är bäst
Utvärdering av QnA f1-poäng F1-poäng Mäter förhållandet mellan antalet delade ord mellan modellförutsägelse och grundsanningen. Nej fråga, svar, grund sanning (kontext behövs inte) i intervallet [0, 1].
Utvärdering av QnA Ada-likhet Ada-likhet Beräknar inbäddningar på meningsnivå (dokument) med api för inbäddning av Ada för både grundsanning och förutsägelse. Beräknar sedan cosininlikitet mellan dem (ett flyttalsnummer) Ja fråga, svar, grund sanning (kontext behövs inte) i intervallet [0, 1].

Sätt att förbättra flödesprestanda

När du har kontrollerat de inbyggda metoderna från utvärderingen kan du försöka förbättra flödesprestandan genom att:

  • Kontrollera utdata för att felsöka eventuella fel i flödet.
  • Ändra flödet för att förbättra dess prestanda. Detta inkluderar men inte begränsat till:
    • Ändra kommandotolken
    • Ändra systemmeddelandet
    • Ändra parametrar för flödet
    • Ändra flödeslogik

Mer information om hur du skapar en fråga som kan uppnå ditt mål finns i Introduktion till fråga om teknik, Tekniker för fråga teknik och Systemmeddelanderamverk och mallrekommendationer för stora språkmodeller (LLM).

I det här dokumentet har du lärt dig hur du skickar en batchkörning och använder en inbyggd utvärderingsmetod för att mäta kvaliteten på dina flödesutdata. Du har också lärt dig hur du visar utvärderingsresultatet och måtten och hur du startar en ny utvärderingsrunda med en annan metod eller delmängd av varianter. Vi hoppas att det här dokumentet hjälper dig att förbättra flödesprestandan och uppnå dina mål med snabbflöde.

Nästa steg