Förbereda data och definiera ett textklassificeringsschema

Artikel
12/19/2023

För att kunna skapa en anpassad textklassificeringsmodell behöver du kvalitetsdata för att träna den. Den här artikeln beskriver hur du bör välja och förbereda dina data, tillsammans med att definiera ett schema. Att definiera schemat är det första steget i livscykeln för projektutveckling och definierar de klasser som du behöver din modell för att klassificera texten i vid körning.

Schemadesign

Schemat definierar de klasser som du behöver din modell för att klassificera texten i vid körning.

Granska och identifiera: Granska dokument i datauppsättningen för att känna till deras struktur och innehåll och identifiera sedan hur du vill klassificera dina data.

Om du till exempel klassificerar supportärenden kan du behöva följande klasser: inloggningsproblem, maskinvaruproblem, anslutningsproblem och begäran om ny utrustning.
Undvik tvetydighet i klasser: Tvetydighet uppstår när de klasser du anger delar liknande betydelse med varandra. Ju mer tvetydigt schemat är, desto mer märkta data kan du behöva skilja mellan olika klasser.

Om du till exempel klassificerar matrecept kan de likna dem i viss utsträckning. För att skilja mellan dessertrecept och huvudrättsrecept kan du behöva märka fler exempel för att hjälpa din modell att skilja mellan de två klasserna. Att undvika tvetydighet sparar tid och ger bättre resultat.
Data utanför omfånget: När du använder din modell i produktion bör du överväga att lägga till en utanför omfångsklassen i schemat om du förväntar dig dokument som inte tillhör någon av dina klasser. Lägg sedan till några dokument i datauppsättningen som ska märkas som utanför omfånget. Modellen kan lära sig att känna igen irrelevanta dokument och förutsäga deras etiketter i enlighet med detta.

Dataurval

Kvaliteten på data som du tränar din modell med påverkar modellens prestanda avsevärt.

Använd verkliga data som återspeglar domänens problemutrymme för att effektivt träna din modell. Du kan använda syntetiska data för att påskynda den inledande modellträningsprocessen, men den kommer sannolikt att skilja sig från dina verkliga data och göra din modell mindre effektiv när den används.
Balansera din datadistribution så mycket som möjligt utan att avvika långt från fördelningen i verkligheten.
Använd olika data när det är möjligt för att undvika överanpassning av din modell. Mindre mångfald i träningsdata kan leda till falska korrelationer för modellinlärning som kanske inte finns i verkliga data.
Undvik dubbletter av dokument i dina data. Dubblettdata har en negativ effekt på träningsprocessen, modellmått och modellprestanda.
Tänk på var dina data kommer ifrån. Om du samlar in data från en person, avdelning eller en del av ditt scenario saknar du förmodligen mångfald som kan vara viktig för din modell att lära sig om.

Anteckning

Om dokumenten finns på flera språk väljer du alternativet flera språk när projektet skapas och anger språkalternativet till språket för de flesta av dina dokument.

Förberedelse av data

Som en förutsättning för att skapa ett anpassat textklassificeringsprojekt måste dina träningsdata laddas upp till en blobcontainer i ditt lagringskonto. Du kan skapa och ladda upp träningsdokument från Azure direkt eller med hjälp av verktyget Azure Storage Explorer. Med hjälp av verktyget Azure Storage Explorer kan du ladda upp mer data snabbt.

Du kan bara använda .txt. dokument för anpassad text. Om dina data har ett annat format kan du använda CLUtils-parsningskommandot för att ändra filformatet.

Du kan ladda upp en kommenterad datauppsättning eller ladda upp en ej kommenterad och märka dina data i Language Studio.

Testuppsättning

När du definierar testuppsättningen måste du inkludera exempeldokument som inte finns i träningsuppsättningen. Att definiera testuppsättningen är ett viktigt steg för att beräkna modellens prestanda. Kontrollera också att testuppsättningen innehåller dokument som representerar alla klasser som används i projektet.

Nästa steg

Om du inte redan har gjort det skapar du ett anpassat textklassificeringsprojekt. Om det är första gången du använder anpassad textklassificering kan du följa snabbstarten för att skapa ett exempelprojekt. Du kan också se projektkraven för mer information om vad du behöver för att skapa ett projekt.

Dela via