Dela via


Etiketttextdata för träning av din modell

Innan du tränar din modell måste du märka dina dokument med de klasser som du vill kategorisera dem i. Datamärkning är ett viktigt steg i utvecklingslivscykeln. I det här steget kan du skapa de klasser som du vill kategorisera dina data i och märka dina dokument med dessa klasser. Dessa data används i nästa steg när du tränar din modell så att din modell kan lära sig av märkta data. Om du redan har etiketterade data kan du importera dem direkt till projektet, men du måste se till att dina data följer det godkända dataformatet.

Innan du skapar en anpassad textklassificeringsmodell måste du först ha märkta data. Om dina data inte redan är märkta kan du märka dem i Language Studio. Märkta data informerar modellen om hur text ska tolkas och används för träning och utvärdering.

Förutsättningar

Innan du kan märka data behöver du:

Mer information finns i livscykeln för projektutveckling .

Riktlinjer för dataetiketter

När du har förberett dina data, skapat schemat och skapat projektet måste du märka dina data. Det är viktigt att märka dina data så att din modell vet vilka dokument som ska associeras med de klasser du behöver. När du etiketterar dina data i Language Studio (eller importerar etiketterade data) lagras dessa etiketter i JSON-filen i din lagringscontainer som du har anslutit till det här projektet.

När du etiketterar dina data bör du tänka på:

  • I allmänhet leder mer märkta data till bättre resultat, förutsatt att data är korrekt märkta.

  • Det finns inget fast antal etiketter som kan garantera att din modell presterar bäst. Modellera prestanda på möjliga tvetydigheter i ditt schema och kvaliteten på dina märkta data. Ändå rekommenderar vi 50 märkta dokument per klass.

Märka dina data

Använd följande steg för att märka dina data:

  1. Gå till projektsidan i Language Studio.

  2. På menyn till vänster väljer du Dataetiketter. Du hittar en lista över alla dokument i lagringscontainern. Se bilden nedan.

    Tips

    Du kan använda filtren på den översta menyn för att visa de omärkta filerna så att du kan börja märka dem. Du kan också använda filtren för att visa de dokument som är märkta med en viss klass.

  3. Ändra till en enskild filvy från den vänstra sidan på den översta menyn eller välj en specifik fil för att börja etikettera. Du hittar en lista över alla .txt filer som är tillgängliga i dina projekt till vänster. Du kan använda bakåt - ochnästaknappen längst ned på sidan för att navigera i dina dokument.

    Anteckning

    Om du har aktiverat flera språk för projektet finns listrutan Språk på den översta menyn där du kan välja språk för varje dokument.

  4. Lägg till klass i projektet i rutan till höger så att du kan börja märka dina data med dem.

  5. Börja märka dina filer.

    Klassificering med flera etiketter: filen kan etiketteras med flera klasser. Du kan göra det genom att markera alla tillämpliga kryssrutor bredvid de klasser som du vill märka dokumentet med.

    En skärmbild som visar sidan med tagg för klassificering av flera etiketter.

    Du kan också använda funktionen för automatisk etikettering för att säkerställa fullständig etikettering.

  6. I den högra rutan under pivoten Etiketter hittar du alla klasser i projektet och antalet märkta instanser per var och en.

  7. I det nedre avsnittet i rutan till höger kan du lägga till den aktuella filen som du visar i träningsuppsättningen eller testuppsättningen. Som standard läggs alla dokument till i din träningsuppsättning. Läs mer om tränings- och testuppsättningar och hur de används för modellträning och utvärdering.

    Tips

    Om du planerar att använda automatisk datadelning använder du standardalternativet att tilldela alla dokument till din träningsuppsättning.

  8. Under distributionspivoten kan du visa distributionen över tränings- och testuppsättningar. Du har två alternativ för att visa:

    • Totalt antal instanser där du kan visa antalet alla märkta instanser av en viss klass.
    • dokument med minst en etikett där varje dokument räknas om det innehåller minst en märkt instans av den här klassen.
  9. När du etiketterar synkroniseras ändringarna regelbundet, om de inte har sparats ännu visas en varning överst på sidan. Om du vill spara manuellt väljer du knappen Spara etiketter längst ned på sidan.

Ta bort etiketter

Om du vill ta bort en etikett avmarkerar du knappen bredvid klassen .

Ta bort eller klasser

Om du vill ta bort en klass väljer du ikonen ta bort bredvid den klass som du vill ta bort. Om du tar bort en klass tas alla dess märkta instanser bort från datauppsättningen.

Nästa steg

När du har etiketterat dina data kan du börja träna en modell som lär sig baserat på dina data.