Prompts handmatig evalueren in Azure AI Studio-speeltuin

Artikel
09/25/2024

Belangrijk

Items die in dit artikel zijn gemarkeerd (preview) zijn momenteel beschikbaar als openbare preview. Deze preview wordt aangeboden zonder een service level agreement en we raden deze niet aan voor productieworkloads. Misschien worden bepaalde functies niet ondersteund of zijn de mogelijkheden ervan beperkt. Zie Aanvullende gebruiksvoorwaarden voor Microsoft Azure-previews voor meer informatie.

Wanneer u aan de slag gaat met prompt engineering, moet u verschillende invoer één voor één testen om de effectiviteit van de prompt te evalueren, erg tijdrovend kan zijn. Dit komt doordat het belangrijk is om te controleren of de inhoudsfilters correct werken, of het antwoord juist is en meer.

Om dit proces eenvoudiger te maken, kunt u handmatige evaluatie gebruiken in Azure AI Studio, een evaluatieprogramma waarmee u uw prompt continu kunt herhalen en evalueren op basis van uw testgegevens in één interface. U kunt ook handmatig de uitvoer, de antwoorden van het model, beoordelen om u te helpen vertrouwen in uw prompt.

Handmatige evaluatie kan u helpen om te begrijpen hoe goed uw prompt presteert en herhalen op uw prompt om ervoor te zorgen dat u het gewenste vertrouwensniveau bereikt.

In dit artikel leert u het volgende:

Uw handmatige evaluatieresultaten genereren
Uw modelantwoorden beoordelen
Herhalen op uw prompt en opnieuw evalueeren
Resultaten opslaan en vergelijken
Evalueren met ingebouwde metrische gegevens

Vereisten

Als u handmatige evaluatieresultaten wilt genereren, moet u het volgende gereed hebben:

Een testgegevensset in een van deze indelingen: csv of jsonl. Als u geen gegevensset hebt, kunt u ook handmatig gegevens invoeren vanuit de gebruikersinterface.
Een implementatie van een van deze modellen: GPT 3.5-modellen, GPT 4-modellen of Davinci-modellen. Zie Modellen implementeren voor meer informatie over het maken van een implementatie.

Notitie

Handmatige evaluatie wordt op dit moment alleen ondersteund voor Azure OpenAI-modellen voor typen chat- en voltooiingstaken.

Uw handmatige evaluatieresultaten genereren

Selecteer in playground handmatige evaluatie om het proces van handmatige beoordeling van de modelreacties te starten op basis van uw testgegevens en prompt. Uw prompt wordt automatisch overgezet naar uw handmatige evaluatie en nu hoeft u alleen testgegevens toe te voegen om de prompt te evalueren.

U kunt dit handmatig doen met behulp van de tekstvakken in de kolom Invoer .

U kunt ook gegevens importeren om een van uw vorige bestaande gegevenssets in uw project te kiezen of een gegevensset te uploaden die de CSV- of JSONL-indeling heeft. Nadat u uw gegevens hebt geladen, wordt u gevraagd de kolommen op de juiste manier toe te wijzen. Zodra u klaar bent en Importeren hebt geselecteerd, worden de gegevens correct ingevuld in de onderstaande kolommen.

Notitie

U kunt maximaal 50 invoerrijen toevoegen aan uw handmatige evaluatie. Als uw testgegevens meer dan 50 invoerrijen bevatten, uploaden we de eerste 50 in de invoerkolom.

Nu uw gegevens zijn toegevoegd, kunt u uitvoeren om de uitvoerkolom te vullen met het antwoord van het model.

Uw modelantwoorden beoordelen

U kunt een duim omhoog of omlaag opgeven voor elk antwoord om de promptuitvoer te beoordelen. Op basis van de beoordelingen die u hebt opgegeven, kunt u deze antwoordscores in één oogopslag bekijken.

Herhalen op uw prompt en opnieuw evalueeren

Op basis van uw samenvatting wilt u mogelijk wijzigingen aanbrengen in uw prompt. U kunt de bovenstaande promptbesturingselementen gebruiken om de installatie van de prompt te bewerken. Dit kan het systeembericht bijwerken, het model wijzigen of de parameters bewerken.

Nadat u de wijzigingen hebt uitgevoerd, kunt u ervoor kiezen om alles opnieuw uit te voeren om de hele tabel bij te werken of de focus te richten op het opnieuw uitvoeren van specifieke rijen die de eerste keer niet aan uw verwachtingen voldoen.

Resultaten opslaan en vergelijken

Nadat u de resultaten hebt ingevuld, kunt u resultaten opslaan om de voortgang met uw team te delen of door te gaan met de handmatige evaluatie vanaf waar u later was gebleven.

U kunt de duimen ook omhoog en omlaag vergelijken in uw verschillende handmatige evaluaties door ze op te slaan en weer te geven op het tabblad Evaluatie onder Handmatige evaluatie.

Volgende stappen

Meer informatie over het evalueren van uw generatieve AI-toepassingen:

Meer informatie over technieken voor schadebeperking.

Delen via