Termer och definitioner som används i anpassad textklassificering

Artikel
12/19/2023

Använd den här artikeln om du vill veta mer om några av de definitioner och termer som du kan stöta på när du använder anpassad textklassificering.

Klass

En klass är en användardefinierad kategori som anger textens övergripande klassificering. Utvecklare märker sina data med sina klasser innan de skickar dem till modellen för träning.

F1-poäng

F1-poängen är en funktion av Precision och Träffsäkerhet. Det behövs när du söker en balans mellan precision och återkallande.

Modell

En modell är ett objekt som har tränats att utföra en viss uppgift, i det här fallet textklassificeringsuppgifter. Modeller tränas genom att tillhandahålla märkta data att lära sig av så att de senare kan användas för klassificeringsuppgifter.

Modellträning är en process där du lär din modell hur du klassificerar dokument baserat på dina märkta data.
Modellutvärdering är den process som sker direkt efter träningen för att veta hur väl modellen presterar.
Distribution är processen för att tilldela din modell till en distribution för att göra den tillgänglig för användning via förutsägelse-API:et.

Precision

Mäter hur exakt/exakt din modell är. Det är förhållandet mellan korrekt identifierade positiva identifieringar (sanna positiva identifieringar) och alla identifierade positiva identifieringar. Precisionsmåttet visar hur många av de förutsagda klasserna som är korrekt märkta.

Project

Ett projekt är ett arbetsområde för att skapa anpassade ML-modeller baserat på dina data. Ditt projekt kan bara nås av dig och andra som har åtkomst till den Azure-resurs som används. Som en förutsättning för att skapa ett anpassat textklassificeringsprojekt måste du ansluta resursen till ett lagringskonto med din datauppsättning när du skapar ett nytt projekt. Projektet innehåller automatiskt alla filer som .txt är tillgängliga i containern.

I projektet kan du göra följande:

Märk dina data: Processen för att märka dina data så att när du tränar din modell lär den sig vad du vill extrahera.
Skapa och träna din modell: Huvudsteget i projektet, där din modell börjar lära sig från dina märkta data.
Visa modellutvärderingsinformation: Granska modellens prestanda för att avgöra om det finns utrymme för förbättringar eller om du är nöjd med resultaten.
Distribution: När du har granskat modellens prestanda och bestämt att den är lämplig att användas i din miljö. du måste tilldela den till en distribution för att kunna köra frågor mot den. Genom att tilldela modellen till en distribution blir den tillgänglig för användning via förutsägelse-API:et.
Testmodell: När du har distribuerat din modell kan du använda den här åtgärden i Language Studio för att testa distributionen och se hur den skulle fungera i produktion.

Projekttyper

Anpassad textklassificering stöder två typer av projekt

Klassificering med en etikett – du kan tilldela en enda klass för varje dokument i datauppsättningen. Ett filmmanus kan till exempel bara klassificeras som "Romance" eller "Comedy".
Klassificering med flera etiketter – du kan tilldela flera klasser för varje dokument i datauppsättningen. Ett filmmanus kan till exempel klassificeras som "Comedy" eller "Romance" och "Comedy".

Recall

Mäter modellens förmåga att förutsäga faktiska positiva klasser. Det är förhållandet mellan de förutsagda sanna positiva och vad som faktiskt taggades. Träffsäkerhetsmåttet visar hur många av de förutsagda klasserna som är korrekta.

Dela via