Dela via


Skapa en extraktor i Microsoft Syntex

Gäller för: ✔ Ostrukturerad dokumentbearbetning



Före eller efter det att du har skapat en klassificeringsmodell för att automatisera identifieringen och klassifikationen av specifika dokumenttyper kan du välja att lägga till extraktorer i din modell för att hämta specifik information från de här dokumenten. Du kanske till exempel vill att din modell inte bara ska identifiera alla dokument för Kontraktförnyelse som lagts till i ditt dokumentbiblioteket, utan också visa Startdatum för tjänst för varje dokument som ett kolumnvärde i dokumentbiblioteket.

Du behöver skapa en extraktor för varje enhet i det dokument som du vill extrahera. I vårt exempel vill vi extrahera tjänstens startdatum för varje kontraktförnyelsedokument som identifieras av modellen. Vi vill kunna se en vy i dokumentbiblioteket för alla kontraktförnyelsedokument , med en kolumn som visar servicestartdatumvärdet för varje dokument.

Obs!

För att skapa en extraktor använder du samma filer som du tidigare har laddat upp för att träna klassificeraren.

Namnge din extraktor

  1. På modellens startsida går du till panelen Skapa och träna extraktorer och väljer Träna extraktor.

  2. På skärmen Ny enhet extraktor skriv in namnet på din extraktor i fältet Nytt extraktor-namn. Om du, till exempel, namnge det Tjänstens Startdatum om du vill extrahera tjänstens startdatum från varje Kontraktförnyelse dokument. Du kan också välja att återanvända en tidigare skapad kolumn, (t. ex. en hanterad metadata kolumn).

    Som standard är kolumntypen Enkel textrad. Om du vill ändra kolumntypen väljer du Avancerade inställningar>Kolumntyp och väljer sedan den typ som du vill använda.

    Skärmbild av delen Avancerade inställningar i panelen Ny entitetsextraktor som visar alternativet Kolumntyp.

    Obs!

    För extraktorer med kolumntypen Enskild rad med text är den maximala teckengränsen 255. Alla tecken som du väljer överskrider gränsen trunkeras. Om du vill välja fler än 255 tecken väljer du kolumntypen Flera rader med text när du skapar extraktorn.

    Som standard skapas flera rader med textkolumner med en gräns för hur mycket text som kan läggas till. I det här fallet kan extraherad text se trunkerad ut. Om detta inträffar kan kolumninställningen Tillåt obegränsad längd i dokumentbibliotek användas för att ta bort gränsen.

  3. När du är klar väljer du Skapa.

Lägga till en etikett

Nästa steget är att sätta en etikett på den enhet du vill extrahera i dina utbildnings exempelfiler.

När du skapar extraktor öppnas extraktorsidan. Här visas en lista över dina exempelfiler, och den första filen i listan visas i visningsprogrammet.

  1. Välj de data från visningsprogrammet som du vill extrahera från filerna. Om du till exempel vill extrahera starttjänstdatumet markerar du datumvärdet i den första filen (måndag, 14 oktober 2022). och välj sedan Spara. Du bör se värdet som visas från filen i listan med Etiketterade exempel under kolumnen Etikett.

  2. Välj Nästa fil för att spara automatiskt och öppna nästa fil i listan i visningsprogrammet. Eller välj Spara och sedan välj en annan fil från denEtiketterade exempel -listan.

  3. Upprepa steg 1 och 2 i visningsprogrammet och upprepa sedan tills du har sparat etiketten i alla fem filerna.

    Avancerade inställningar.

När du har etiketterade fem filer visas en meddelandebanderoll som informerar dig om att flytta till utbildning. Du kan välja att etikettera fler dokument eller att gå vidare till utbildning.

Använda Sök för att söka i filen

Du kan använda funktionen Sök för att söka efter en enhet i dokumentet som du vill lägga till en etikett för.

Sök i filen.

Funktionen Sök är användbar om du söker i ett stort dokument eller om det finns flera instanser av entiteten i dokumentet. Om du hittar flera instanser kan du välja den du behöver i sökresultatet för att gå till den platsen i visningsprogrammet för att märka den.

Lägg till förklaring

I vårt exempel ska vi skapa en förklaring som ger en ledtråd om själva entitetsformatet och de variationer som det kan ha i exempeldokumenten. Ett datumvärde kan till exempel ha flera olika format, till exempel:

  • 10/14/2022
  • den 14 oktober 2022
  • Måndagen den 14 oktober 2022

För att identifiera tjänstens startdatum kan du skapa en mönsterförklaring.

  1. I avsnittet Förklaringar välj Ny och skriv ett namn (t. ex. Datum).
  2. För Typ välj Mönsterlista.
  3. För Värde anger du datumvariationen så som de visas i exempelfilerna. Om du, till exempel, har datumformat som visas som 0/00/0000, kan du ange en variation som visas i dina dokument, till exempel:
    • 0/0/0000
    • 0/00/0000
    • 00/0/0000
    • 00/00/0000
  4. Välj Spara.

Obs!

Mer information om olika förklaringstyper finns i Förklaringstyper.

Använda förklaringsbiblioteket

För att skapa förklaringar för objekt som datum är det enklare att använda förklaringsbiblioteket än att ange alla varianter manuellt. Förklaringsbiblioteket är en uppsättning fördefinierade fraser och mönsterförklaringar. Biblioteket försöker ange alla format för vanliga fras- eller mönsterlistor, till exempel datum, telefonnummer, postnummer och många andra.

I exemplet tjänststartdatum är det mer effektivt att använda den färdiga förklaringen för Datum i förklaringsbiblioteket:

  1. I Förklaringssektionen välj Ny och välj sedan From förklaringsbibliotek.

  2. Välj Datum från förklaringsbiblioteket. Du kan visa alla datum variationer som är igenkända.

  3. Välj Lägg till.

    Förklaringsbibliotek.

  4. På sidan Skapa en förklaring kommer Datum informationen från förklaringensbiblioteket automatiskt fylla i fälten. Välj Spara.

    Datum.

Träna modellen

När du sparar förklaringen startas träningen. Om din modell har tillräckligt med information för att extrahera data från dina märkta exempelfiler ser du varje fil märkt med Match.

Matcha.

Om förklaringen inte har tillräckligt med information för att hitta de data som du vill extrahera, kommer varje fil att märkas med Matchningsfel. Du kan välja Felmatchade filer om du vill se mer information om varför det uppstod ett matchningsfel.

Lägga till en till förklaring

Ofta är matchningsfelet en indikation på att förklaringen vi angav inte gav tillräckligt med information för att extrahera tjänstens startdatumvärde för att matcha våra märkta filer. Du kan behöva redigera den eller lägga till en annan förklaring.

I vårt exempel kan du se att textsträngen Starta Tjänstedatumet för föregår alltid det verkliga värdet. För att identifiera Tjänstens Startdatum behöver du skapa en förklaring av frasen.

  1. I Förklaringssektionen välj Ny och sedan skriv ett namn (t. ex. Prefixsträng).

  2. För Typ välj Fraslista.

  3. Använd Tjänstens Startdatum som värde.

  4. Välj Spara.

    Prefixsträng.

Träna modellen igen

Om du sparar förklaringen startar utbildningen igen, den här gången med hjälp av båda förklaringarna i exemplet. Om din modell har tillräcklig information för att extrahera data från dina etiketterade exempelfiler, kommer du att se varje fil etiketterade medMatch.

Om du får en Matchningsfel igen på dina etiketterade filer behöver du antagligen skapa ytterligare en förklaring för att ge modellen mer information för att identifiera dokumenttypen, eller så kan du göra ändringar i dina befintliga.

Testa din modell

Om du får en matchning för dina etiketterade exempelfiler kan du nu testa din modell på de återstående omärkta exempelfilerna. Det här steget är valfritt, men användbart för att utvärdera modellens "lämplighet" eller beredskap innan den används, genom att testa den på filer som modellen inte har sett tidigare.

  1. På modellens startsida väljer du fliken Test . Då körs modellen på dina omärkta exempelfiler.

  2. I Testfil-listan visas dina exempelfiler för att visa om modellen kan extrahera informationen som du behöver. Använd den här informationen för att ta reda på hur effektivt din klassificerare är för att identifiera dina dokument.

    Testa med dina filer.

Ytterligare förfina en extraktor

Om du har duplicerade entiteter och bara vill extrahera ett värde eller ett visst antal värden kan du ange en regel för att ange hur du vill att den ska bearbetas. Följ dessa steg om du vill lägga till en regel för att förfina extraherad information:

  1. På modellens startsida går du till avsnittet Entitetsextraktorer och väljer den extraktor som du vill förfina och väljer sedan Förfina extraherad information.

    Skärmbild av avsnittet Entitetsextraktorer som visar alternativet Förfina extraherad information markerat.

  2. På sidan Förfina extraherad information väljer du någon av följande regler:

    • Behåll ett eller flera av de första värdena
    • Behåll ett eller flera av de sista värdena
    • Ta bort dubblettvärden
    • Behåll en eller flera av de första raderna
    • Behåll en eller flera av de sista raderna

    Skärmbild av sidan Förfina extraherad information som visar regelalternativen.

  3. Ange antalet rader eller värden som du vill använda och välj sedan Förfina.

  4. Om du vill redigera en regel genom att ändra antalet rader eller värden väljer du den extraktor som du vill redigera, väljer Förfina extraherad information, ändrar numret och väljer sedan Spara.

  5. När du testar extraktorn kan du se förfining i kolumnen Förfiningsresultat i listan Testfiler .

    Listan Testfiler som visar kolumnen Förfiningsresultat.

  6. Om du vill ta bort en förfiningsregel för en extraktor väljer du den extraktor som du vill ta bort regeln från, väljer Förfina extraherad information och väljer sedan Ta bort.

Se även

Skapa en klassificerare

Förklaringstyper

Använd termlagringstaxonomi vid skapande av extraktor

Syntex-hjälpmedelsläge