Evaluatieresultaten weergeven in Azure AI Studio

Artikel
09/25/2024

Belangrijk

Items die in dit artikel zijn gemarkeerd (preview) zijn momenteel beschikbaar als openbare preview. Deze preview wordt aangeboden zonder een service level agreement en we raden deze niet aan voor productieworkloads. Misschien worden bepaalde functies niet ondersteund of zijn de mogelijkheden ervan beperkt. Zie Aanvullende gebruiksvoorwaarden voor Microsoft Azure-previews voor meer informatie.

De evaluatiepagina van Azure AI Studio is een veelzijdige hub waarmee u niet alleen uw resultaten kunt visualiseren en evalueren, maar ook fungeert als een controlecentrum voor het optimaliseren, oplossen van problemen en het selecteren van het ideale AI-model voor uw implementatiebehoeften. Het is een eenmalige oplossing voor gegevensgestuurde besluitvorming en prestatieverbeteringen in uw AI Studio-projecten. U kunt de resultaten van verschillende bronnen naadloos openen en interpreteren, waaronder uw stroom, de snelle testsessie voor speeltuinen, de gebruikersinterface voor het indienen van evaluatie en SDK. Deze flexibiliteit zorgt ervoor dat u kunt communiceren met uw resultaten op een manier die het beste past bij uw werkstroom en voorkeuren.

Zodra u uw evaluatieresultaten hebt gevisualiseerd, kunt u dieper ingaan op een grondig onderzoek. Dit omvat de mogelijkheid om niet alleen afzonderlijke resultaten te bekijken, maar ook om deze resultaten te vergelijken met meerdere evaluatieuitvoeringen. Door dit te doen, kunt u trends, patronen en verschillen identificeren, waardoor u waardevolle inzichten krijgt in de prestaties van uw AI-systeem onder verschillende omstandigheden.

In dit artikel leert u het volgende:

Bekijk het evaluatieresultaat en de metrische gegevens.
Vergelijk de evaluatieresultaten.
Inzicht in de ingebouwde metrische evaluatiegegevens.
Verbeter de prestaties.
Bekijk de evaluatieresultaten en metrische gegevens.

Uw evaluatieresultaten zoeken

Wanneer u uw evaluatie hebt ingediend, kunt u de ingediende evaluatieuitvoering vinden in de lijst met uitvoeringen door naar de evaluatiepagina te navigeren.

U kunt uw evaluatieuitvoeringen bewaken en beheren in de lijst met uitvoeringen. Met de flexibiliteit om de kolommen te wijzigen met behulp van de kolomeditor en filters te implementeren, kunt u uw eigen versie van de uitvoeringslijst aanpassen en maken. Daarnaast kunt u snel de geaggregeerde metrische evaluatiegegevens voor de uitvoeringen bekijken, zodat u snelle vergelijkingen kunt uitvoeren.

Voor een beter begrip van hoe de metrische evaluatiegegevens worden afgeleid, hebt u toegang tot een uitgebreide uitleg door de optie Meer informatie over metrische gegevens te selecteren. Deze gedetailleerde resource biedt waardevolle inzichten in de berekening en interpretatie van de metrische gegevens die in het evaluatieproces worden gebruikt.

U kunt een specifieke uitvoering kiezen, waarmee u naar de detailpagina van de uitvoering gaat. Hier hebt u toegang tot uitgebreide informatie, zoals evaluatiegegevensset, taaktype, prompt, temperatuur en meer. Bovendien kunt u de metrische gegevens bekijken die zijn gekoppeld aan elk gegevensvoorbeeld. De grafieken met metrische scores bieden een visuele weergave van de verdeling van scores voor elke metriek in uw gegevensset.

In de tabel met metrische gegevens kunt u een uitgebreid onderzoek uitvoeren van elk afzonderlijk gegevensvoorbeeld. Hier kunt u de gegenereerde uitvoer en de bijbehorende metrische evaluatiescore bekijken. Met dit detailniveau kunt u gegevensgestuurde beslissingen nemen en specifieke acties ondernemen om de prestaties van uw model te verbeteren.

Enkele mogelijke actie-items op basis van de metrische evaluatiegegevens kunnen zijn:

Patroonherkenning: Door te filteren op numerieke waarden en metrische gegevens, kunt u inzoomen op voorbeelden met lagere scores. Onderzoek deze voorbeelden om terugkerende patronen of problemen in de antwoorden van uw model te identificeren. U ziet bijvoorbeeld dat er vaak lage scores optreden wanneer het model inhoud op een bepaald onderwerp genereert.
Modelverfijning: gebruik de inzichten uit voorbeelden met een lagere score om de systeempromptinstructie te verbeteren of uw model af te stemmen. Als u consistente problemen ondervindt met bijvoorbeeld samenhang of relevantie, kunt u ook de trainingsgegevens of parameters van het model dienovereenkomstig aanpassen.
Kolomaanpassing: Met de kolomeditor kunt u een aangepaste weergave van de tabel maken, waarbij u zich richt op de metrische gegevens en gegevens die het meest relevant zijn voor uw evaluatiedoelen. Dit kan uw analyse stroomlijnen en u helpen trends effectiever te herkennen.
Trefwoorden zoeken: met het zoekvak kunt u zoeken naar specifieke woorden of woordgroepen in de gegenereerde uitvoer. Dit kan handig zijn voor het aanwijzen van problemen of patronen met betrekking tot bepaalde onderwerpen of trefwoorden en om deze specifiek aan te pakken.

De detailtabel met metrische gegevens biedt een schat aan gegevens die u kunnen helpen bij het verbeteren van uw model, van het herkennen van patronen tot het aanpassen van uw weergave voor een efficiënte analyse en het verfijnen van uw model op basis van geïdentificeerde problemen.

We splitsen de geaggregeerde weergaven of uw metrische gegevens op op basis van prestatie- en kwaliteits - en risico- en veiligheidsgegevens. U kunt de verdeling van scores in de geëvalueerde gegevensset bekijken en statistische scores voor elke metrische waarde bekijken.

Voor metrische gegevens over prestaties en kwaliteit aggregeren we door een gemiddelde te berekenen voor alle scores voor elke metrische waarde.
Voor metrische gegevens over risico's en veiligheid aggregeren we door een defectpercentage voor elke metrische waarde te berekenen.
- Voor metrische gegevens over inhoudsschade wordt de defectfrequentie gedefinieerd als het percentage exemplaren in uw testgegevensset dat een drempelwaarde overschrijdt voor de ernstschaal van de hele gegevensset. De drempelwaarde is standaard 'Gemiddeld'.
- Voor beveiligde materialen en indirecte aanvallen wordt de defectsnelheid berekend als het percentage exemplaren waarbij de uitvoer 'true' is (Defect Rate = (#trues / #instances) × 100).

Hier volgen enkele voorbeelden van de metrische resultaten voor het vraagantwoordscenario:

Hier volgen enkele voorbeelden van de metrische resultaten voor het gespreksscenario:

Voor een gespreksscenario met meerdere paden kunt u 'Evaluatieresultaten per beurt weergeven' selecteren om de metrische evaluatiegegevens te controleren voor elke keer dat een gesprek wordt ingeleverd.

Voor metrische gegevens over risico's en veiligheid biedt de evaluatie een ernstscore en redenering voor elke score. Hier volgen enkele voorbeelden van metrische gegevens over risico's en veiligheid voor het vraagantwoordscenario:

Evaluatieresultaten kunnen verschillende betekenissen hebben voor verschillende doelgroepen. Veiligheidsevaluaties kunnen bijvoorbeeld een label genereren met de ernst 'Laag' van gewelddadige inhoud die mogelijk niet overeenkomt met de definitie van een menselijke revisor van hoe ernstig die specifieke gewelddadige inhoud kan zijn. We bieden een kolom voor menselijke feedback met duimen omhoog en duim omlaag bij het beoordelen van uw evaluatieresultaten om aan te geven welke instanties zijn goedgekeurd of gemarkeerd als onjuist door een menselijke revisor.

Wanneer u inzicht hebt in de metrische gegevens over inhoudsrisico's, kunt u eenvoudig elke metrische definitie en ernstschaal bekijken door de metrische naam boven de grafiek te selecteren om een gedetailleerde uitleg in een pop-upvenster weer te geven.

Als er iets mis is met de uitvoering, kunt u ook fouten opsporen in de evaluatieuitvoering met het logboek en traceren.

Hier volgen enkele voorbeelden van de logboeken die u kunt gebruiken om fouten in de evaluatieuitvoering op te sporen:

Hier volgt een voorbeeld van de weergave tracering en foutopsporing:

Als u een promptstroom evalueert, kunt u de knop Weergeven in stroom selecteren om naar de geëvalueerde stroompagina te navigeren om de stroom bij te werken. Voeg bijvoorbeeld aanvullende instructies voor de metaprompt toe of wijzig enkele parameters en evalueer opnieuw.

De evaluatieresultaten vergelijken

Om een uitgebreide vergelijking tussen twee of meer uitvoeringen te vergemakkelijken, hebt u de mogelijkheid om de gewenste uitvoeringen te selecteren en het proces te starten door de knop Vergelijken te selecteren of, voor een algemene gedetailleerde dashboardweergave, de knop Overschakelen naar dashboardweergave. Met deze functie kunt u de prestaties en resultaten van meerdere uitvoeringen analyseren en contrasteren, zodat u beter geïnformeerde beslissingen en gerichte verbeteringen kunt uitvoeren.

In de dashboardweergave hebt u toegang tot twee waardevolle onderdelen: de grafiek met de vergelijking van metrische gegevens en de vergelijkingstabel. Met deze hulpprogramma's kunt u een side-by-side analyse uitvoeren van de geselecteerde evaluatieuitvoeringen, zodat u verschillende aspecten van elk gegevensvoorbeeld met gemak en precisie kunt vergelijken.

In de vergelijkingstabel kunt u een basislijn voor uw vergelijking instellen door de muisaanwijzer over de specifieke uitvoering te bewegen die u als referentiepunt wilt gebruiken en als basislijn wilt instellen. Bovendien kunt u de verschillen tussen de basislijnuitvoering en de andere uitvoeringen voor numerieke waarden gemakkelijk visualiseren door de wisselknop Delta weergeven te activeren. Als de wisselknop Alleen verschil weergeven is ingeschakeld, worden in de tabel ook alleen de rijen weergegeven die verschillen tussen de geselecteerde uitvoeringen, met hulp bij de identificatie van afzonderlijke variaties.

Met deze vergelijkingsfuncties kunt u een weloverwogen beslissing nemen om de beste versie te selecteren:

Vergelijking van basislijn: Door een basislijnuitvoering in te stellen, kunt u een referentiepunt identificeren waarmee u de andere uitvoeringen kunt vergelijken. Zo kunt u zien hoe elke uitvoering afwijkt van de door u gekozen standaard.
Numerieke waarde-evaluatie: als u de optie Delta weergeven inschakelt, krijgt u inzicht in de mate van de verschillen tussen de basislijn en andere uitvoeringen. Dit is handig om te evalueren hoe verschillende uitvoeringen presteren in termen van specifieke metrische evaluatiegegevens.
Verschilisolatie: de functie Alleen verschil weergeven stroomlijnt uw analyse door alleen de gebieden te markeren waarin er verschillen zijn tussen uitvoeringen. Dit kan een instrument zijn om te bepalen waar verbeteringen of aanpassingen nodig zijn.

Door deze vergelijkingshulpprogramma's effectief te gebruiken, kunt u bepalen welke versie van uw model of systeem het beste presteert ten opzichte van uw gedefinieerde criteria en metrische gegevens, waardoor u uiteindelijk de meest optimale optie voor uw toepassing kunt selecteren.

Jailbreak-beveiligingsprobleem meten

Het evalueren van jailbreak is een vergelijkende meting, geen metrische ai-ondersteuning. Voer evaluaties uit op twee verschillende, rood gekoppelde gegevenssets: een basisgegevensset voor adversarial testen versus dezelfde adversarial-testgegevensset met jailbreakinjecties in de eerste beurt. U kunt de adversarial-gegevenssimulator gebruiken om de gegevensset te genereren met of zonder jailbreakinjecties.

Als u wilt weten of uw toepassing kwetsbaar is voor jailbreak, kunt u opgeven wat de basislijn is en vervolgens 'Jailbreak defect rates' inschakelen in de vergelijkingstabel. Jailbreak-defectpercentage wordt gedefinieerd als het percentage exemplaren in uw testgegevensset, waarbij een jailbreakinjectie een hogere ernstscore heeft gegenereerd voor metrische gegevens over inhoudsrisico's met betrekking tot een basislijn over de gehele grootte van de gegevensset. U kunt meerdere evaluaties selecteren in uw vergelijkingsdashboard om het verschil in defectpercentages weer te geven.

Tip

De jailbreak-defectfrequentie wordt alleen berekend voor gegevenssets van dezelfde grootte en alleen wanneer alle uitvoeringen inhoudsrisico's en metrische gegevens over veiligheid bevatten.

Inzicht in de ingebouwde metrische evaluatiegegevens

Inzicht in de ingebouwde metrische gegevens is essentieel voor het beoordelen van de prestaties en effectiviteit van uw AI-toepassing. Door inzicht te krijgen in deze belangrijke meethulpprogramma's, kunt u de resultaten beter interpreteren, weloverwogen beslissingen nemen en uw toepassing verfijnen om optimale resultaten te bereiken. Voor meer informatie over de betekenis van elke metriek, hoe deze wordt berekend, hoe deze wordt berekend, de rol bij het evalueren van verschillende aspecten van uw model en hoe u de resultaten interpreteert om gegevensgestuurde verbeteringen aan te brengen, raadpleegt u Evaluatie- en bewakingsgegevens.

Volgende stappen

Meer informatie over het evalueren van uw generatieve AI-toepassingen:

Meer informatie over technieken voor schadebeperking.

Delen via