Så här använder du autoetiketter för anpassad textklassificering
Märkningsprocessen är en viktig del i att förbereda din datauppsättning. Eftersom den här processen kräver mycket tid och arbete kan du använda funktionen för automatisk etikettering för att automatiskt märka dina dokument med de klasser som du vill kategorisera dem i. Du kan för närvarande starta automärkningsjobb baserat på en modell med GPT-modeller där du omedelbart kan utlösa ett automärkningsjobb utan någon tidigare modellträning. Den här funktionen kan spara tid och arbete med att etikettera dina dokument manuellt.
Förutsättningar
Innan du kan använda automatisk etikettering med GPT behöver du:
- Ett projekt som har skapats med ett konfigurerat Azure Blob Storage-konto.
- Textdata som har laddats upp till ditt lagringskonto .
- Klassnamn som är meningsfulla. GPT-modellerna etiketterar dokument baserat på namnen på de klasser som du har angett.
- Etiketterade data krävs inte.
- En Azure OpenAI-resurs och -distribution.
Utlösa ett automärkningsjobb
När du utlöser ett automärkningsjobb med GPT debiteras du till din Azure OpenAI-resurs enligt din förbrukning. Du debiteras en uppskattning av antalet token i varje dokument som autoetiketteras. Se prissättningssidan för Azure OpenAI för en detaljerad uppdelning av priser per token för olika modeller.
I den vänstra navigeringsmenyn väljer du Dataetiketter.
Välj knappen Autoetikett under fönstret Aktivitet till höger på sidan.
Välj Autolabel med GPT och välj Nästa.
Välj din Azure OpenAI-resurs och distribution. Du måste skapa en Azure OpenAI-resurs och distribuera en modell för att kunna fortsätta.
Välj de klasser som du vill inkludera i automärkningsjobbet. Som standard är alla klasser markerade. Att ha beskrivande namn för klasser och inklusive exempel för varje klass rekommenderas för att uppnå märkning av god kvalitet med GPT.
Välj de dokument som ska etiketteras automatiskt. Vi rekommenderar att du väljer de omärkta dokumenten från filtret.
Anteckning
- Om ett dokument etiketterades automatiskt, men den här etiketten redan var användardefinierad, används endast den användardefinierade etiketten.
- Du kan visa dokumenten genom att klicka på dokumentnamnet.
Välj Starta jobb för att utlösa automärkningsjobbet. Du bör dirigeras till sidan för automatisk etikettering som visar de automärkningsjobb som initierats. Automatisk etikettering av jobb kan ta allt från några sekunder till några minuter, beroende på antalet dokument som du har inkluderat.
Granska de automatiskt märkta dokumenten
När automärkningsjobbet är klart kan du se utdatadokumenten på sidan Dataetiketter i Language Studio. Välj Granska dokument med autoetiketter för att visa dokumenten med det automatiskt märkta filtret tillämpat .
Dokument som har klassificerats automatiskt har föreslagna etiketter i aktivitetsfönstret markerade i lila. Varje föreslagen etikett har två väljare (en bockmarkering och en avbryt-ikon) som gör att du kan acceptera eller avvisa den automatiska etiketten.
När en etikett har accepterats ändras den lila färgen till den blå standardfärgen, och etiketten ingår i eventuell ytterligare modellträning som blir en användardefinierad etikett.
När du har accepterat eller avvisat etiketterna för de automatiskt märkta dokumenten väljer du Spara etiketter för att tillämpa ändringarna.
Anteckning
- Vi rekommenderar att du verifierar automatiskt märkta dokument innan du godkänner dem.
- Alla etiketter som inte accepterades tas bort när du tränar din modell.
Nästa steg
- Läs mer om att märka dina data.
Feedback
https://aka.ms/ContentUserFeedback.
Kommer snart: Under hela 2024 kommer vi att fasa ut GitHub-problem som feedbackmekanism för innehåll och ersätta det med ett nytt feedbacksystem. Mer information finns i:Skicka och visa feedback för