Delen via


Een batchuitvoering verzenden en een stroom evalueren

Belangrijk

Items die in dit artikel zijn gemarkeerd (preview) zijn momenteel beschikbaar als openbare preview. Deze preview wordt aangeboden zonder een service level agreement en we raden deze niet aan voor productieworkloads. Misschien worden bepaalde functies niet ondersteund of zijn de mogelijkheden ervan beperkt. Zie Aanvullende gebruiksvoorwaarden voor Microsoft Azure-previews voor meer informatie.

Als u wilt evalueren hoe goed uw stroom presteert met een grote gegevensset, kunt u batchuitvoering verzenden en een evaluatiemethode gebruiken in de promptstroom.

In dit artikel leert u het volgende:

  • Een batchuitvoering verzenden en een evaluatiemethode gebruiken
  • Het evaluatieresultaat en de metrische gegevens weergeven
  • Een nieuwe evaluatieronde starten
  • De uitvoeringsgeschiedenis van batch controleren en metrische gegevens vergelijken
  • De ingebouwde evaluatiemethoden begrijpen
  • Manieren om de stroomprestaties te verbeteren

Vereisten

Voor een batchuitvoering en voor het gebruik van een evaluatiemethode moet u het volgende gereed hebben:

  • Een testgegevensset voor batchuitvoering. Uw gegevensset moet een van de volgende indelingen hebben: .csv, .tsvof .jsonl. Uw gegevens moeten ook headers bevatten die overeenkomen met de invoernamen van uw stroom. Als uw stroominvoer een complexe structuur zoals een lijst of woordenlijst bevat, gebruikt u jsonl de indeling om uw gegevens weer te geven.
  • Een beschikbare rekensessie om uw batchuitvoering uit te voeren. Een rekensessie is een cloudresource waarmee uw stroom wordt uitgevoerd en uitvoer wordt gegenereerd. Zie de rekensessie voor meer informatie over rekensessies.

Een batchuitvoering verzenden en een evaluatiemethode gebruiken

Met een batchuitvoering kunt u uw stroom uitvoeren met een grote gegevensset en uitvoer genereren voor elke gegevensrij. U kunt ook een evaluatiemethode kiezen om de uitvoer van uw stroom te vergelijken met bepaalde criteria en doelstellingen. Een evaluatiemethode is een speciaal type stroom waarmee metrische gegevens voor uw stroomuitvoer worden berekend op basis van verschillende aspecten. Er wordt een evaluatieuitvoering uitgevoerd om de metrische gegevens te berekenen wanneer deze worden verzonden bij de batchuitvoering.

Als u een batchuitvoering met evaluatie wilt starten, kunt u op de knop Evalueren - Aangepaste evaluatie selecteren. Door Aangepaste evaluatie te selecteren, kunt u een batchuitvoering met evaluatiemethoden verzenden of een batchuitvoering indienen zonder evaluatie voor uw stroom.

In deze schermopname ziet u de knop batchuitvoering en evaluatietrigger

Eerst wordt u gevraagd om uw batch een beschrijvende en herkenbare naam te geven. U kunt ook een beschrijving schrijven en tags (sleutel-waardeparen) toevoegen aan uw batchuitvoering. Nadat u de configuratie hebt voltooid, selecteert u Volgende om door te gaan.

In deze schermopname ziet u de basisinstelling van aangepaste evaluatie

Ten tweede moet u een gegevensset selecteren of uploaden waarmee u uw stroom wilt testen. U moet ook een beschikbare rekensessie selecteren om deze batchuitvoering uit te voeren.

Promptstroom biedt ook ondersteuning voor het toewijzen van uw stroominvoer aan een specifieke gegevenskolom in uw gegevensset. Dit betekent dat u een kolom kunt toewijzen aan een bepaalde invoer. U kunt een kolom toewijzen aan een invoer door te verwijzen naar ${data.XXX} de indeling. Als u een constante waarde wilt toewijzen aan een invoer, kunt u die waarde rechtstreeks typen.

In deze schermopname ziet u de instelling voor batchuitvoering van aangepaste evaluatie

Vervolgens kunt u in de volgende stap besluiten om een evaluatiemethode te gebruiken om de prestaties van deze stroom te valideren. U kunt de knop Volgende rechtstreeks selecteren om deze stap over te slaan als u geen evaluatiemethode wilt toepassen of metrische gegevens wilt berekenen. Als u nu batchuitvoering wilt uitvoeren met evaluatie, kunt u een of meer evaluatiemethoden selecteren. De evaluatie wordt gestart nadat de batchuitvoering is voltooid. U kunt ook een andere evaluatieronde starten nadat de batchuitvoering is voltooid. Zie Een nieuwe evaluatieronde starten voor meer informatie over het starten van een nieuwe evaluatieronde.

In deze schermopname ziet u hoe u evaluatiemethoden selecteert.

In de volgende stap moet u de bronnen opgeven van de invoergegevens die nodig zijn voor de evaluatiemethode. De kolom Grondwaar kan bijvoorbeeld afkomstig zijn van een gegevensset. De evaluatie maakt standaard gebruik van dezelfde gegevensset als de testgegevensset die is opgegeven voor de geteste uitvoering. Als de bijbehorende labels of doelwaarden voor waarheidswaarden zich echter in een andere gegevensset bevinden, kunt u eenvoudig overschakelen naar die gegevensset.

  • Als de gegevensbron afkomstig is van de uitvoer van de uitvoering, wordt de bron aangegeven als ${run.output.[ OutputName]}
  • Als de gegevensbron afkomstig is van uw testgegevensset, wordt de bron aangeduid als ${data.[ ColumnName]}

In deze schermopname ziet u hoe u evaluatie-instellingen configureert, inclusief invoertoewijzing en verbinding.

Notitie

Als uw evaluatie geen gegevens uit de gegevensset vereist, hoeft u niet te verwijzen naar gegevenssetkolommen in de sectie invoertoewijzing, waarmee wordt aangegeven dat de selectie van de gegevensset een optionele configuratie is. De selectie van de gegevensset heeft geen invloed op het evaluatieresultaat.

Als een evaluatiemethode gebruikmaakt van LLM's (Large Language Models) om de prestaties van het stroomantwoord te meten, moet u ook verbindingen instellen voor de LLM-knooppunten in de evaluatiemethoden.

Vervolgens kunt u Volgende selecteren om uw instellingen te controleren en op Verzenden te selecteren om de batchuitvoering te starten met evaluatie.

Het evaluatieresultaat en de metrische gegevens weergeven

Na indiening kunt u de ingediende batchuitvoering vinden op het tabblad Run List op de pagina promptstroom. Selecteer een uitvoering om naar de pagina met uitvoeringsresultaten te navigeren.

Op de detailpagina van de uitvoering kunt u Details selecteren om de details van deze batchuitvoering te controleren.

Uitvoer

Basisresultaat en tracering

Hiermee gaat u eerst naar het tabblad Uitvoer om de invoer- en uitvoerregel per regel weer te geven. Op de pagina met het uitvoertabblad wordt een tabellijst met resultaten weergegeven, waaronder de regel-id, invoer, uitvoer, status, metrische gegevens van het systeem en de gemaakte tijd.

Als u voor elke regel weergavetracering selecteert, kunt u die specifieke testcase bekijken en fouten opsporen op de gedetailleerde pagina van de tracering.

In deze schermopname ziet u de uitvoer van de batchuitvoering.

 Schermopname van traceringsdetails.

Evaluatieresultaat en tracering toevoegen

Als u uitvoer voor toevoegevaluatie selecteert, kunt u gerelateerde evaluatieuitvoeringen selecteren en ziet u toegevoegde kolommen aan het einde van de tabel met het evaluatieresultaat voor elke rij met gegevens. Er kunnen meerdere evaluatie-uitvoer worden toegevoegd voor vergelijking.

Schermopname van uitvoer van batchuitvoeringen om evaluatie-uitvoer toe te voegen.

U kunt de meest recente metrische evaluatiegegevens zien in het linkerdeelvenster Overzicht .

Essentieel overzicht

Aan de rechterkant biedt het overzicht algemene informatie over de uitvoering, zoals het aantal uitvoeringen per gegevenspunt, het totale aantal tokens en de duur van de uitvoering.

De meest recente geaggregeerde metrische gegevens van de evaluatieuitvoering worden hier standaard weergegeven. U kunt evaluatieuitvoering weergeven selecteren om naar de evaluatieuitvoering zelf te gaan.

Schermopname van overzichtsinformatie over batchuitvoeringen op de uitvoerpagina.

Het overzicht kan hier worden uitgevouwen en samengevouwen en u kunt volledige informatie weergeven selecteren die u naar het tabblad Overzicht naast het tabblad Uitvoer leidt, waar meer gedetailleerde informatie van deze uitvoering wordt weergegeven.

Een nieuwe evaluatieronde starten

Als u een batchuitvoering al hebt voltooid, kunt u een andere evaluatieronde starten om een nieuwe evaluatieuitvoering in te dienen om metrische gegevens voor de uitvoer te berekenen zonder de stroom opnieuw uit te voeren. Dit is handig en kan uw kosten besparen om uw stroom opnieuw uit te voert wanneer:

  • U hebt geen evaluatiemethode geselecteerd om de metrische gegevens te berekenen bij het verzenden van de batchuitvoering en besluit dit nu te doen.
  • U hebt de evaluatiemethode al gebruikt om een metrische waarde te berekenen. U kunt een andere evaluatieronde starten om een andere metrische waarde te berekenen.
  • De evaluatieuitvoering is mislukt, maar de stroom heeft uitvoer gegenereerd. U kunt uw evaluatie opnieuw indienen.

U kunt naar het tabblad Uitvoeringen van promptstroom gaan. Ga vervolgens naar de detailpagina van de batchuitvoering en selecteer Evalueren om een andere evaluatieronde te starten.

In deze schermopname ziet u hoe u een nieuwe evaluatie start op basis van een batchuitvoering.

Nadat u de configuratie hebt ingesteld, kunt u 'Verzenden' selecteren voor deze nieuwe evaluatieronde. Na indiening ziet u een nieuwe record in de lijst met promptstroomuitvoeringen. Nadat de evaluatieuitvoering is voltooid, kunt u op dezelfde manier het resultaat van de evaluatie controleren op het tabblad Uitvoer van het detailvenster van de batchuitvoering. U moet de nieuwe evaluatieuitvoering selecteren om het resultaat ervan weer te geven.

Voor meer informatie over de metrische gegevens die worden berekend door de ingebouwde evaluatiemethoden, gaat u naar de ingebouwde evaluatiemethoden.

Overzicht

Als u het tabblad Overzicht selecteert, ziet u uitgebreide informatie over de uitvoering, waaronder uitvoeringseigenschappen, invoergegevensset, uitvoergegevensset, tags en beschrijving.

Logboeken

Als u het tabblad Logboeken selecteert, kunt u de uitvoeringslogboeken weergeven. Dit kan handig zijn voor gedetailleerde foutopsporing van uitvoeringsfouten. U kunt de logboekbestanden downloaden naar uw lokale computer.

Momentopname

Als u het tabblad Momentopname selecteert, ziet u de momentopname van de uitvoering. U kunt de DAG van uw stroom bekijken. Daarnaast hebt u de mogelijkheid om deze te klonen om een nieuwe stroom te maken. U kunt het ook implementeren als een online-eindpunt.

Schermopname van momentopname van batchuitvoering.

De uitvoeringsgeschiedenis van batch controleren en metrische gegevens vergelijken

In sommige scenario's wijzigt u uw stroom om de prestaties te verbeteren. U kunt meerdere batchuitvoeringen indienen om de prestaties van uw stroom te vergelijken met verschillende versies. U kunt ook de metrische gegevens vergelijken die worden berekend door verschillende evaluatiemethoden om te zien welke methode geschikter is voor uw stroom.

Als u de geschiedenis van de batchuitvoering van uw stroom wilt controleren, kunt u de knop Batchuitvoering van uw stroompagina weergeven selecteren. U ziet een lijst met batchuitvoeringen die u voor deze stroom hebt ingediend.

In deze schermopname ziet u de uitvoerknop visualiseren op de pagina lijst met uitvoeringen.

U kunt elke batchuitvoering selecteren om de details te controleren. U kunt ook meerdere batchuitvoeringen selecteren en de uitvoer visualiseren selecteren om de metrische gegevens en de uitvoer van de batchuitvoeringen te vergelijken.

In het deelvenster Uitvoer visualiseren toont de tabel Runs & metrics de informatie van de geselecteerde uitvoeringen met markering. Andere uitvoeringen die de uitvoer van de geselecteerde uitvoeringen als invoer nemen, worden ook vermeld.

In de tabel Uitvoer kunt u de geselecteerde batchuitvoeringen vergelijken op elke regel van het voorbeeld. Als u het pictogram 'oog visualiseren' selecteert in de tabel 'Uitvoeringen en metrische gegevens', worden uitvoer van die uitvoering toegevoegd aan de bijbehorende basisuitvoering.

De ingebouwde evaluatiemethoden begrijpen

In de promptstroom bieden we meerdere ingebouwde evaluatiemethoden om u te helpen de prestaties van uw stroomuitvoer te meten. Elke evaluatiemethode berekent verschillende metrische gegevens. Zie de volgende tabel voor een lijst met ingebouwde evaluatiemethoden en de bijbehorende beschrijvingen.

Evaluatiemethode Metrische gegevens voor Beschrijving Verbinding vereist Vereiste invoer Scorewaarde
Evaluatie van classificatienauwkeurigheid Nauwkeurigheid Meet de prestaties van een classificatiesysteem door de uitvoer ervan te vergelijken met grondwaar. Nee voorspelling, grondwaar in het bereik [0, 1].
Koppelingsevaluatie van QnA-relevantiescores Score, win/verlies Beoordeelt de kwaliteit van antwoorden die zijn gegenereerd door een vraagantwoordsysteem. Het omvat het toewijzen van relevantiescores aan elk antwoord op basis van hoe goed deze overeenkomt met de gebruikersvraag, het vergelijken van verschillende antwoorden op een basislijnantwoord en het samenvoegen van de resultaten om metrische gegevens te produceren, zoals gemiddelde winstpercentages en relevantiescores. Ja vraag, antwoord (geen grondwaar of context) Score: 0-100, win/verlies: 1/0
QnA Groundedness Evaluation Grondgebondenheid Meet hoe de voorspelde antwoorden van het model zich in de invoerbron bevinden. Zelfs als de antwoorden van LLM waar zijn, als ze niet verifieerbaar zijn tegen de bron, is dat niet geaard. Ja vraag, antwoord, context (geen grondwaar) 1 tot 5, met 1 het slechtste en 5 het beste.
QnA GPT-vergelijkbaarheidsevaluatie GPT-gelijkenis Meet overeenkomsten tussen door de gebruiker verstrekte antwoorden op waarheid en het voorspelde antwoord van het model met behulp van GPT-model. Ja vraag, antwoord, grond waarheid (context niet nodig) in het bereik [0, 1].
QnA-relevantieevaluatie Relevantie Meet hoe relevant de voorspelde antwoorden van het model zijn voor de gestelde vragen. Ja vraag, antwoord, context (geen grondwaar) 1 tot 5, met 1 het slechtste en 5 het beste.
QnA-coherentieevaluatie Samenhang Meet de kwaliteit van alle zinnen in het voorspelde antwoord van een model en hoe ze op natuurlijke wijze bij elkaar passen. Ja vraag, antwoord (geen grondwaar of context) 1 tot 5, met 1 het slechtste en 5 het beste.
Evaluatie van QnA-fluency Vlotheid Meet hoe grammaticaal en taalkundig correct het voorspelde antwoord van het model is. Ja vraag, antwoord (geen grondwaar of context) 1 tot 5, met 1 het slechtste en 5 het beste
Evaluatie van QnA f1-scores F1-score Meet de verhouding van het aantal gedeelde woorden tussen de modelvoorspelling en de grondwaar. Nee vraag, antwoord, grond waarheid (context niet nodig) in het bereik [0, 1].
Evaluatie van QnA Ada-overeenkomsten Gelijkenis van Ada Hiermee worden insluitingen op zinsniveau (document) berekend met behulp van de Ada embeddings-API voor zowel grondwaar als voorspelling. Vervolgens wordt de cosinus-overeenkomst tussen beide berekend (één drijvendekommagetal) Ja vraag, antwoord, grond waarheid (context niet nodig) in het bereik [0, 1].

Manieren om de stroomprestaties te verbeteren

Nadat u de ingebouwde methoden van de evaluatie hebt gecontroleerd, kunt u proberen de prestaties van uw stroom te verbeteren door:

  • Controleer de uitvoergegevens om fouten in de stroom op te sporen.
  • Wijzig uw stroom om de prestaties te verbeteren. Dit omvat, maar niet beperkt tot:
    • De prompt wijzigen
    • Het systeembericht wijzigen
    • Parameters van de stroom wijzigen
    • De stroomlogica wijzigen

Zie Inleiding tot prompts voor engineering, prompt-engineeringtechnieken en aanbevelingen voor systeemberichten en aanbevelingen voor grote taalmodellen (LLM's) voor meer informatie over het samenstellen van een prompt die uw doel kan bereiken.

In dit document hebt u geleerd hoe u een batchuitvoering verzendt en een ingebouwde evaluatiemethode gebruikt om de kwaliteit van uw stroomuitvoer te meten. U hebt ook geleerd hoe u het evaluatieresultaat en de metrische gegevens kunt bekijken en hoe u een nieuwe evaluatieronde start met een andere methode of subset van varianten. We hopen dat dit document u helpt bij het verbeteren van uw stroomprestaties en het bereiken van uw doelstellingen met een promptstroom.

Volgende stappen