Märka dina data med Hjälp av Language Studio

Artikel
12/19/2023

Datamärkning är ett viktigt steg i utvecklingslivscykeln. I det här steget etiketterar du dina dokument med de nya entiteter som du definierade i schemat för att fylla i deras inlärda komponenter. Dessa data används i nästa steg när du tränar din modell så att din modell kan lära sig från märkta data för att veta vilka entiteter som ska extraheras. Om du redan har etiketterade data kan du importera dem direkt till projektet, men du måste se till att dina data följer det godkända dataformatet. Mer information om hur du importerar etiketterade data till projektet finns i Skapa projekt . Om dina data inte redan är märkta kan du märka dem i Language Studio.

Förutsättningar

Innan du kan märka dina data behöver du:

Ett projekt som har skapats med ett konfigurerat Azure Blob Storage-konto
Textdata som har laddats upp till ditt lagringskonto .

Mer information finns i livscykeln för projektutveckling .

Riktlinjer för dataetiketter

När du har förberett dina data, skapat schemat och skapat projektet måste du märka dina data. Det är viktigt att märka dina data så att din modell vet vilka ord som ska associeras med de entitetstyper som du behöver extrahera. När du etiketterar dina data i Language Studio (eller importerar etiketterade data) lagras dessa etiketter i JSON-dokumentet i din lagringscontainer som du har anslutit till det här projektet.

När du etiketterar dina data bör du tänka på:

Du kan inte lägga till etiketter för Textanalys för hälsoentiteter eftersom de är förtränat fördefinierade entiteter. Du kan bara lägga till etiketter i nya entitetskategorier som du definierade under schemadefinitionen.

Om du vill förbättra återkallandet för en fördefinierad entitet kan du utöka den genom att lägga till en listkomponent medan du definierar schemat.

I allmänhet leder mer märkta data till bättre resultat, förutsatt att data är korrekt märkta.
Precisionen, konsekvensen och fullständigheten i dina märkta data är viktiga faktorer för att fastställa modellens prestanda.
- Etikett exakt: Märk alltid varje entitet till rätt typ. Inkludera bara det du vill extrahera, undvik onödiga data i etiketterna.
- Etikett konsekvent: Samma entitet ska ha samma etikett i alla dokument.
- Etikett helt: Märk alla instanser av entiteten i alla dokument.
Anteckning

Det finns inget fast antal etiketter som kan garantera att din modell presterar bäst. Modellprestanda beror på eventuell tvetydighet i ditt schema och kvaliteten på dina märkta data. Vi rekommenderar dock att du har cirka 50 märkta instanser per entitetstyp.

Märka dina data

Använd följande steg för att märka dina data:

Gå till projektsidan i Language Studio.
På menyn till vänster väljer du Dataetiketter. Du hittar en lista över alla dokument i lagringscontainern.

Tips

Du kan använda filtren på den översta menyn för att visa de omärkta dokumenten så att du kan börja märka dem. Du kan också använda filtren för att visa de dokument som är märkta med en viss entitetstyp.
Ändra till en enskild dokumentvy från den vänstra sidan på den översta menyn eller välj ett specifikt dokument för att börja etikettera. Du hittar en lista över alla .txt dokument som är tillgängliga i projektet till vänster. Du kan använda bakåt - ochnästaknappen längst ned på sidan för att navigera i dina dokument.

Anteckning

Om du har aktiverat flera språk för projektet finns listrutan Språk på den översta menyn där du kan välja språk för varje dokument. Hebreiska stöds inte med flerspråkiga projekt.
I rutan till höger kan du använda knappen Lägg till entitetstyp för att lägga till ytterligare entiteter i projektet som du missade under schemadefinitionen.

Du har två alternativ för att märka dokumentet:

Alternativ	Beskrivning
Etikett med hjälp av en pensel	Välj penselikonen bredvid en entitetstyp i den högra rutan och markera sedan texten i dokumentet som du vill kommentera med den här entitetstypen.
Etikett med hjälp av en meny	Markera det ord som du vill märka som en entitet så visas en meny. Välj den entitetstyp som du vill tilldela för den här entiteten.

Skärmbilden nedan visar etikettering med hjälp av en pensel.

I den högra rutan under pivoten Etiketter hittar du alla entitetstyper i projektet och antalet märkta instanser per var och en. De fördefinierade entiteterna visas som referens, men du kommer inte att kunna märka dessa fördefinierade entiteter eftersom de tränas i förväg.
I det nedre avsnittet i rutan till höger kan du lägga till det aktuella dokumentet som du visar i träningsuppsättningen eller testuppsättningen. Som standard läggs alla dokument till i din träningsuppsättning. Se tränings- och testuppsättningar för information om hur de används för modellträning och utvärdering.

Tips

Om du planerar att använda automatisk datadelning använder du standardalternativet att tilldela alla dokument till din träningsuppsättning.
Under distributionspivoten kan du visa distributionen över tränings- och testuppsättningar. Du har två alternativ för att visa:
- Totalt antal instanser där du kan visa antalet etiketterade instanser av en viss entitetstyp.
- Dokument med minst en etikett där varje dokument räknas om det innehåller minst en märkt instans av den här entiteten.
När du etiketterar synkroniseras dina ändringar regelbundet, om de inte har sparats ännu visas en varning överst på sidan. Om du vill spara manuellt väljer du knappen Spara etiketter längst ned på sidan.

Ta bort etiketter

Ta bort en etikett

Välj den entitet som du vill ta bort en etikett från.
Bläddra igenom menyn som visas och välj Ta bort etikett.

Ta bort entiteter

Du kan inte ta bort någon av Textanalys för hälsoförtränad entiteter eftersom de har en fördefinierad komponent. Du kan bara ta bort nyligen definierade entitetskategorier. Om du vill ta bort en entitet väljer du borttagningsikonen bredvid den entitet som du vill ta bort. Om du tar bort en entitet tas alla dess märkta instanser bort från datauppsättningen.

Nästa steg

När du har etiketterat dina data kan du börja träna en modell som lär sig baserat på dina data.

Dela via