Dela via


Så här utvärderar du generativa AI-appar med Azure AI Studio

Viktigt!

Vissa av de funktioner som beskrivs i den här artikeln kanske bara är tillgängliga i förhandsversionen. Den här förhandsversionen tillhandahålls utan ett serviceavtal och vi rekommenderar det inte för produktionsarbetsbelastningar. Vissa funktioner kanske inte stöds eller kan vara begränsade. Mer information finns i Kompletterande villkor för användning av Microsoft Azure-förhandsversioner.

För att noggrant utvärdera prestandan för ditt generativa AI-program när det tillämpas på en betydande datamängd kan du starta en utvärderingsprocess. Under den här utvärderingen testas ditt program med den angivna datamängden och dess prestanda mäts kvantitativt med både matematiska och AI-assisterade mått. Den här utvärderingskörningen ger dig omfattande insikter om programmets funktioner och begränsningar.

För att utföra den här utvärderingen kan du använda utvärderingsfunktionerna i Azure AI Studio, en omfattande plattform som erbjuder verktyg och funktioner för att utvärdera prestanda och säkerhet för din generativa AI-modell. I AI Studio kan du logga, visa och analysera detaljerade utvärderingsmått.

I den här artikeln lär du dig att skapa en utvärderingskörning från en testdatauppsättning eller ett flöde med inbyggda utvärderingsmått från Azure AI Studio-användargränssnittet. För större flexibilitet kan du upprätta ett anpassat utvärderingsflöde och använda den anpassade utvärderingsfunktionen. Om ditt mål endast är att utföra en batchkörning utan utvärdering kan du också använda den anpassade utvärderingsfunktionen.

Förutsättningar

Om du vill köra en utvärdering med AI-assisterade mått måste du ha följande redo:

  • En testdatauppsättning i något av följande format: csv eller jsonl.
  • En Azure OpenAI-anslutning.
  • En distribution av någon av dessa modeller: GPT 3.5-modeller, GPT 4-modeller eller Davinci-modeller.

Skapa en utvärdering med inbyggda utvärderingsmått

Med en utvärderingskörning kan du generera måttutdata för varje datarad i testdatauppsättningen. Du kan välja ett eller flera utvärderingsmått för att utvärdera utdata från olika aspekter. Du kan skapa en utvärderingskörning från utvärderings- och promptflödessidorna i AI Studio. Sedan visas en utvärderingsguide som hjälper dig att konfigurera en utvärderingskörning.

Från sidan Utvärdera

På den komprimerade vänstra menyn väljer du Utvärdering>+ Ny utvärdering.

Skärmbild av knappen för att skapa en ny utvärdering.

Från flödessidan

På den komprimerade vänstra menyn väljer du Prompt flow>Evaluate>Built-in evaluation (Utvärdera inbyggd utvärdering).

Skärmbild av hur du väljer inbyggd utvärdering.

Grundläggande information

När du anger guiden för att skapa utvärdering kan du ange ett valfritt namn för utvärderingskörningen och välja det scenario som bäst överensstämmer med programmets mål. Vi erbjuder för närvarande stöd för följande scenarier:

  • Fråga och svar med kontext: Det här scenariot är utformat för program som omfattar att besvara användarfrågor och ge svar med kontextinformation.
  • Fråga och svar utan kontext: Det här scenariot är utformat för program som omfattar att besvara användarfrågor och tillhandahålla svar utan kontext.

Du kan använda hjälppanelen för att kontrollera vanliga frågor och svar och vägleda dig själv genom guiden.

Skärmbild av den grundläggande informationssidan när du skapar en ny utvärdering.

Genom att ange lämpligt scenario kan vi skräddarsy utvärderingen efter programmets specifika karaktär, vilket säkerställer korrekta och relevanta mått.

  • Utvärdera från data: Om du redan har dina modellgenererade utdata i en testdatauppsättning hoppar du över Välj ett flöde för att utvärdera och går direkt till nästa steg för att konfigurera testdata.
  • Utvärdera från flöde: Om du initierar utvärderingen från sidan Flöde väljer vi automatiskt det flöde som ska utvärderas. Om du tänker utvärdera ett annat flöde kan du välja ett annat. Det är viktigt att observera att du i ett flöde kan ha flera noder, som var och en kan ha en egen uppsättning varianter. I sådana fall måste du ange noden och de varianter som du vill utvärdera under utvärderingsprocessen.

Skärmbild av sidan Välj ett flöde för att utvärdera när du skapar en ny utvärdering.

Konfigurera testdata

Du kan välja från befintliga datauppsättningar eller ladda upp en ny datauppsättning specifikt för att utvärdera. Testdatauppsättningen måste ha modellgenererade utdata som ska användas för utvärdering om inget flöde har valts i föregående steg.

  • Välj befintlig datauppsättning: Du kan välja testdatauppsättningen från din etablerade datauppsättningssamling.

    Skärmbild av alternativet att välja testdata när du skapar en ny utvärdering.

  • Lägg till ny datauppsättning: Du kan ladda upp filer från din lokala lagring. Vi stöder .csv endast filformat och .jsonl filformat.

    Skärmbild av alternativet ladda upp fil när du skapar en ny utvärdering.

  • Datamappning för flöde: Om du väljer ett flöde att utvärdera kontrollerar du att dina datakolumner är konfigurerade för att justera med de indata som krävs för att flödet ska köra en batchkörning och generera utdata för utvärdering. Utvärderingen utförs sedan med hjälp av utdata från flödet. Konfigurera sedan datamappningen för utvärderingsindata i nästa steg.

    Skärmbild av datamängdsmappningen när du skapar en ny utvärdering.

Välj mått

Vi stöder två typer av mått som kurerats av Microsoft för att underlätta en omfattande utvärdering av ditt program:

  • Prestanda- och kvalitetsmått: Dessa mått utvärderar det genererade innehållets övergripande kvalitet och enhetlighet.
  • Risk- och säkerhetsmått: Dessa mått fokuserar på att identifiera potentiella innehållsrisker och säkerställa säkerheten för det genererade innehållet.

Du kan referera till tabellen för den fullständiga listan över mått som vi erbjuder stöd för i varje scenario. Mer detaljerad information om varje måttdefinition och hur den beräknas finns i Utvärderings- och övervakningsmått.

Scenario Prestanda- och kvalitetsmått Risk- och säkerhetsmått
Fråga och svar med kontext Groundedness, Relevans, Koherens, Fluency, GPT-likhet, F1-poäng Självskaderelaterat innehåll, Hatiskt och orättvist innehåll, Våldsamt innehåll, Sexuellt innehåll
Fråga och svar utan sammanhang Koherens, fluency, GPT-likhet, F1-poäng Självskaderelaterat innehåll, Hatiskt och orättvist innehåll, Våldsamt innehåll, Sexuellt innehåll

När du använder AI-assisterade mått för prestanda- och kvalitetsutvärdering måste du ange en GPT-modell för beräkningsprocessen. Välj en Azure OpenAI-anslutning och en distribution med antingen GPT-3.5, GPT-4 eller Davinci-modellen för våra beräkningar.

Skärmbild av sidan Välj mått med kvalitetsmått valda när du skapar en ny utvärdering.

För risk- och säkerhetsmått behöver du inte ange någon anslutning och distribution. Azure AI Studio-säkerhetsutvärderingarna tillhandahåller en GPT-4-modell som kan generera allvarlighetsgradspoäng för innehållsrisker och resonemang så att du kan utvärdera ditt program för innehållsskador.

Du kan ange tröskelvärdet för att beräkna defektfrekvensen för risk- och säkerhetsmåtten. Defektfrekvensen beräknas genom att ta en procentandel instanser med allvarlighetsgraderna (Mycket låg, Låg, Medel, Hög) över ett tröskelvärde. Som standard anger vi tröskelvärdet som "Medium".

Skärmbild av sidan Välj mått med säkerhetsmått valda när du skapar en ny utvärdering.

Kommentar

AI-assisterade risk- och säkerhetsmått hanteras av Azure AI Studio-säkerhetsutvärderingars backend-tjänst och är endast tillgänglig i följande regioner: USA, östra 2, Frankrike, centrala, Storbritannien, södra, Sverige, centrala

Datamappning för utvärdering: Du måste ange vilka datakolumner i datauppsättningen som motsvarar de indata som behövs i utvärderingen. Olika utvärderingsmått kräver olika typer av dataindata för exakta beräkningar.

Skärmbild av datamängdsmappningen till dina utvärderingsindata.

Kommentar

Om du utvärderar från data bör "svar" mappas till svarskolumnen i datauppsättningen ${data$answer}. Om du utvärderar från flödet ska "svar" komma från flödesutdata ${run.outputs.answer}.

Vägledning om specifika datamappningskrav för varje mått finns i informationen i tabellen:

Fråga som besvarar måttkrav
Metric Fråga Svar Kontext Grund sanning
Grundstötning Obligatoriskt: Str Obligatoriskt: Str Obligatoriskt: Str Ej tillämpligt
Samstämmighet Obligatoriskt: Str Obligatoriskt: Str Saknas Saknas
Flyt Obligatoriskt: Str Obligatoriskt: Str Saknas Saknas
Relevans Obligatoriskt: Str Obligatoriskt: Str Obligatoriskt: Str Ej tillämpligt
GPT-likhet Obligatoriskt: Str Obligatoriskt: Str Ej tillämpligt Obligatoriskt: Str
F1-poäng Obligatoriskt: Str Obligatoriskt: Str Ej tillämpligt Obligatoriskt: Str
Självskaderelaterat innehåll Obligatoriskt: Str Obligatoriskt: Str Saknas Saknas
Hatiskt och orättvist innehåll Obligatoriskt: Str Obligatoriskt: Str Saknas Saknas
Våldsamt innehåll Obligatoriskt: Str Obligatoriskt: Str Saknas Saknas
Sexuellt innehåll Obligatoriskt: Str Obligatoriskt: Str Saknas Saknas
  • Fråga: frågan som ställs av användaren i frågesvarsparet
  • Svar: svaret på frågan som genereras av modellen som svar
  • Kontext: källan som svaret genereras med avseende på (d.s. grunddokument)
  • Grundsanning: svaret på frågan som genereras av användare/människa som det sanna svaret

Granska och slutför

När du har slutfört alla nödvändiga konfigurationer kan du granska och fortsätta med att välja Skicka för att skicka utvärderingskörningen.

Skärmbild av gransknings- och slutsidan för att skapa en ny utvärdering.

Skapa en utvärdering med anpassat utvärderingsflöde

Du kan utveckla egna utvärderingsmetoder:

På flödessidan: Välj Utvärdera anpassad utvärdering i det komprimerade vänstra menyflödet>>.

Skärmbild av hur du skapar en anpassad utvärdering från ett promptflöde.

Visa och hantera utvärderarna i utvärderingsbiblioteket

Utvärderingsbiblioteket är en central plats där du kan se information och status för dina utvärderare. Du kan visa och hantera Microsoft-utvärderare.

Dricks

Du kan använda anpassade utvärderare via SDK för promptflöde. Mer information finns i Utvärdera med SDK för promptflöde.

Utvärderingsbiblioteket möjliggör även versionshantering. Du kan jämföra olika versioner av ditt arbete, återställa tidigare versioner om det behövs och samarbeta enklare med andra.

Om du vill använda utvärderingsbiblioteket i AI Studio går du till projektets utvärderingssida och väljer fliken Utvärderarbibliotek.

Skärmbild av sidan för att välja utvärderare från utvärderingsbiblioteket.

Du kan välja utvärderarens namn för att se mer information. Du kan se namn, beskrivning och parametrar och kontrollera alla filer som är associerade med utvärderaren. Här är några exempel på Microsoft-utvärderare:

  • För prestanda- och kvalitetsutvärderingar som kurerats av Microsoft kan du visa kommentarsprompten på informationssidan. Du kan anpassa dessa uppmaningar till ditt eget användningsfall genom att ändra parametrarna eller kriterierna enligt dina data och mål med SDK för promptflöde. Du kan till exempel välja Groundedness-Evaluator och kontrollera filen Prompty som visar hur vi beräknar måttet.
  • För risk- och säkerhetsutvärderingar som kurerats av Microsoft kan du se definitionen av måtten. Du kan till exempel välja självskadebeteenderelaterad innehållsutvärdering och lära dig vad det innebär och hur Microsoft avgör de olika allvarlighetsgraderna för det här säkerhetsmåttet

Nästa steg

Läs mer om hur du utvärderar dina generativa AI-program: