Skapa en extraktor i Microsoft Syntex
Gäller för: ✔ Ostrukturerad dokumentbearbetning
Före eller efter det att du har skapat en klassificeringsmodell för att automatisera identifieringen och klassifikationen av specifika dokumenttyper kan du välja att lägga till extraktorer i din modell för att hämta specifik information från de här dokumenten. Du kanske till exempel vill att din modell inte bara ska identifiera alla dokument för Kontraktförnyelse som lagts till i ditt dokumentbiblioteket, utan också visa Startdatum för tjänst för varje dokument som ett kolumnvärde i dokumentbiblioteket.
Du behöver skapa en extraktor för varje enhet i det dokument som du vill extrahera. I vårt exempel vill vi extrahera tjänstens startdatum för varje kontraktförnyelsedokument som identifieras av modellen. Vi vill kunna se en vy i dokumentbiblioteket för alla kontraktförnyelsedokument , med en kolumn som visar servicestartdatumvärdet för varje dokument.
Obs!
För att skapa en extraktor använder du samma filer som du tidigare har laddat upp för att träna klassificeraren.
Namnge din extraktor
På modellens startsida går du till panelen Skapa och träna extraktorer och väljer Träna extraktor.
På skärmen Ny enhet extraktor skriv in namnet på din extraktor i fältet Nytt extraktor-namn. Om du, till exempel, namnge det Tjänstens Startdatum om du vill extrahera tjänstens startdatum från varje Kontraktförnyelse dokument. Du kan också välja att återanvända en tidigare skapad kolumn, (t. ex. en hanterad metadata kolumn).
Som standard är kolumntypen Enkel textrad. Om du vill ändra kolumntypen väljer du Avancerade inställningar>Kolumntyp och väljer sedan den typ som du vill använda.
Obs!
För extraktorer med kolumntypen Enskild rad med text är den maximala teckengränsen 255. Alla tecken som du väljer överskrider gränsen trunkeras. Om du vill välja fler än 255 tecken väljer du kolumntypen Flera rader med text när du skapar extraktorn.
Som standard skapas flera rader med textkolumner med en gräns för hur mycket text som kan läggas till. I det här fallet kan extraherad text se trunkerad ut. Om detta inträffar kan kolumninställningen Tillåt obegränsad längd i dokumentbibliotek användas för att ta bort gränsen.
När du är klar väljer du Skapa.
Lägga till en etikett
Nästa steget är att sätta en etikett på den enhet du vill extrahera i dina utbildnings exempelfiler.
När du skapar extraktor öppnas extraktorsidan. Här visas en lista över dina exempelfiler, och den första filen i listan visas i visningsprogrammet.
Välj de data från visningsprogrammet som du vill extrahera från filerna. Om du till exempel vill extrahera starttjänstdatumet markerar du datumvärdet i den första filen (måndag, 14 oktober 2022). och välj sedan Spara. Du bör se värdet som visas från filen i listan med Etiketterade exempel under kolumnen Etikett.
Välj Nästa fil för att spara automatiskt och öppna nästa fil i listan i visningsprogrammet. Eller välj Spara och sedan välj en annan fil från denEtiketterade exempel -listan.
Upprepa steg 1 och 2 i visningsprogrammet och upprepa sedan tills du har sparat etiketten i alla fem filerna.
När du har etiketterade fem filer visas en meddelandebanderoll som informerar dig om att flytta till utbildning. Du kan välja att etikettera fler dokument eller att gå vidare till utbildning.
Använda Sök för att söka i filen
Du kan använda funktionen Sök för att söka efter en enhet i dokumentet som du vill lägga till en etikett för.
Funktionen Sök är användbar om du söker i ett stort dokument eller om det finns flera instanser av entiteten i dokumentet. Om du hittar flera instanser kan du välja den du behöver i sökresultatet för att gå till den platsen i visningsprogrammet för att märka den.
Lägg till förklaring
I vårt exempel ska vi skapa en förklaring som ger en ledtråd om själva entitetsformatet och de variationer som det kan ha i exempeldokumenten. Ett datumvärde kan till exempel ha flera olika format, till exempel:
- 10/14/2022
- den 14 oktober 2022
- Måndagen den 14 oktober 2022
För att identifiera tjänstens startdatum kan du skapa en mönsterförklaring.
- I avsnittet Förklaringar välj Ny och skriv ett namn (t. ex. Datum).
- För Typ välj Mönsterlista.
- För Värde anger du datumvariationen så som de visas i exempelfilerna. Om du, till exempel, har datumformat som visas som 0/00/0000, kan du ange en variation som visas i dina dokument, till exempel:
- 0/0/0000
- 0/00/0000
- 00/0/0000
- 00/00/0000
- Välj Spara.
Obs!
Mer information om olika förklaringstyper finns i Förklaringstyper.
Använda förklaringsbiblioteket
För att skapa förklaringar för objekt som datum är det enklare att använda förklaringsbiblioteket än att ange alla varianter manuellt. Förklaringsbiblioteket är en uppsättning fördefinierade fraser och mönsterförklaringar. Biblioteket försöker ange alla format för vanliga fras- eller mönsterlistor, till exempel datum, telefonnummer, postnummer och många andra.
I exemplet tjänststartdatum är det mer effektivt att använda den färdiga förklaringen för Datum i förklaringsbiblioteket:
I Förklaringssektionen välj Ny och välj sedan From förklaringsbibliotek.
Välj Datum från förklaringsbiblioteket. Du kan visa alla datum variationer som är igenkända.
Välj Lägg till.
På sidan Skapa en förklaring kommer Datum informationen från förklaringensbiblioteket automatiskt fylla i fälten. Välj Spara.
Träna modellen
När du sparar förklaringen startas träningen. Om din modell har tillräckligt med information för att extrahera data från dina märkta exempelfiler ser du varje fil märkt med Match.
Om förklaringen inte har tillräckligt med information för att hitta de data som du vill extrahera, kommer varje fil att märkas med Matchningsfel. Du kan välja Felmatchade filer om du vill se mer information om varför det uppstod ett matchningsfel.
Lägga till en till förklaring
Ofta är matchningsfelet en indikation på att förklaringen vi angav inte gav tillräckligt med information för att extrahera tjänstens startdatumvärde för att matcha våra märkta filer. Du kan behöva redigera den eller lägga till en annan förklaring.
I vårt exempel kan du se att textsträngen Starta Tjänstedatumet för föregår alltid det verkliga värdet. För att identifiera Tjänstens Startdatum behöver du skapa en förklaring av frasen.
I Förklaringssektionen välj Ny och sedan skriv ett namn (t. ex. Prefixsträng).
För Typ välj Fraslista.
Använd Tjänstens Startdatum som värde.
Välj Spara.
Träna modellen igen
Om du sparar förklaringen startar utbildningen igen, den här gången med hjälp av båda förklaringarna i exemplet. Om din modell har tillräcklig information för att extrahera data från dina etiketterade exempelfiler, kommer du att se varje fil etiketterade medMatch.
Om du får en Matchningsfel igen på dina etiketterade filer behöver du antagligen skapa ytterligare en förklaring för att ge modellen mer information för att identifiera dokumenttypen, eller så kan du göra ändringar i dina befintliga.
Testa din modell
Om du får en matchning för dina etiketterade exempelfiler kan du nu testa din modell på de återstående omärkta exempelfilerna. Det här steget är valfritt, men användbart för att utvärdera modellens "lämplighet" eller beredskap innan den används, genom att testa den på filer som modellen inte har sett tidigare.
På modellens startsida väljer du fliken Test . Då körs modellen på dina omärkta exempelfiler.
I Testfil-listan visas dina exempelfiler för att visa om modellen kan extrahera informationen som du behöver. Använd den här informationen för att ta reda på hur effektivt din klassificerare är för att identifiera dina dokument.
Ytterligare förfina en extraktor
Om du har duplicerade entiteter och bara vill extrahera ett värde eller ett visst antal värden kan du ange en regel för att ange hur du vill att den ska bearbetas. Följ dessa steg om du vill lägga till en regel för att förfina extraherad information:
På modellens startsida går du till avsnittet Entitetsextraktorer och väljer den extraktor som du vill förfina och väljer sedan Förfina extraherad information.
På sidan Förfina extraherad information väljer du någon av följande regler:
- Behåll ett eller flera av de första värdena
- Behåll ett eller flera av de sista värdena
- Ta bort dubblettvärden
- Behåll en eller flera av de första raderna
- Behåll en eller flera av de sista raderna
Ange antalet rader eller värden som du vill använda och välj sedan Förfina.
Om du vill redigera en regel genom att ändra antalet rader eller värden väljer du den extraktor som du vill redigera, väljer Förfina extraherad information, ändrar numret och väljer sedan Spara.
När du testar extraktorn kan du se förfining i kolumnen Förfiningsresultat i listan Testfiler .
Om du vill ta bort en förfiningsregel för en extraktor väljer du den extraktor som du vill ta bort regeln från, väljer Förfina extraherad information och väljer sedan Ta bort.