Tips för att skapa etiketterade datamängder
Det här innehållet gäller för: v3.1 (GA) | Senaste version: v4.0 (förhandsversion) | Tidigare versioner: v3.0
Det här innehållet gäller för: v3.0 (GA) | Senaste versioner: v4.0 (förhandsversion) v3.1
Viktigt!
Metodtips för att generera märkta datauppsättningar gäller endast för anpassade mallar och anpassade neurala modeller, för anpassad generativ användning, se Anpassad generativ
Den här artikeln belyser de bästa metoderna för att märka anpassade modelldatauppsättningar i Document Intelligence Studio. Etikettering av dokument kan vara tidskrävande när du har ett stort antal etiketter, långa dokument eller dokument med varierande struktur. De här tipsen bör hjälpa dig att märka dokument mer effektivt.
Video: Metodtips för anpassade etiketter
Följande video är den andra av två presentationer som hjälper dig att skapa anpassade modeller med högre noggrannhet (den första presentationen utforskar Hur du skapar en balanserad datauppsättning).
Vi undersöker metodtips för etikettering av valda dokument. Med semantiskt relevant och konsekvent etikettering bör du se en förbättring av modellprestanda.
Sök
Studio innehåller nu en sökruta för instanser när du vet att du behöver hitta specifika ord att märka, men bara inte vet var du hittar dem i dokumentet. Sök bara efter ordet eller frasen och gå till det specifika avsnittet i dokumentet för att märka förekomsten.
Tabeller för automatisk etikett
Tabeller kan vara svåra att märka när de har många rader eller tät text. Om layouttabellen extraherar det resultat du behöver bör du bara använda det resultatet och hoppa över etiketteringsprocessen. I fall där layouttabellen inte är exakt vad du behöver kan du börja med att generera tabellfältet från de extraherade värdenas layout. Börja med att välja tabellikonen på sidan och välj på knappen automatisk etikett. Du kan sedan redigera värdena efter behov. Automatisk etikett stöder för närvarande endast ensidestabeller.
Skift välj
När du etiketterar ett stort textintervall, i stället för att markera varje ord i intervallet, håller du ned skiftnyckeln när du väljer orden för att påskynda etikettering och se till att du inte missar några ord inom textintervallet.
Regionetiketter
Ett andra alternativ för att märka större textintervall är att använda regionetiketter. När regionetiketter används OCR
fylls resultatet i värdet vid träningstillfället. Skillnaden mellan skiftmarkeringen och regionetiketterna finns bara i den visuella feedback som metoden för skiftetiketter ger.
Etikett överlappande fält
Överlappande fält stöds för fält och tabellceller. Om du förväntar dig att dina analysresultat ska innehålla överlappande fält bör du lägga till minst ett exempel i träningsdatauppsättningen med de specifika fält överlappningarna märkta. Om du vill märka ett överlappande fält använder du funktionen regionetiketter för att välja regioner för varje fält. Både fullständig och partiell överlappning stöds. Ett ord i dokumentet kan bara märkas för två fält.
Fältundertyper
När du skapar ett fält väljer du rätt undertyp för att minimera efterbearbetningen dmy
. Välj till exempel alternativet datum för att extrahera värdena i ett dd-mm-yyyy
format.
Nästa steg
Läs mer om anpassad etikettering:
Läs mer om anpassade mallmodeller: