Förklaringstyper i Microsoft Syntex
Gäller för: ✔ Ostrukturerad dokumentbearbetning
Förklaringar används för att definiera den information som du vill märka och extrahera i dina ostrukturerade modeller för dokumentbearbetning i Microsoft Syntex. När du skapar en förklaring måste du välja en förklaringstyp. Den här artikeln hjälper dig förstå olika förklaringstyper och hur de används.
Följande förklaringstyper är tillgängliga:
Fraslista: lista med ord, fraser, siffror eller andra tecken som du kan använda i det dokument eller den information du extraherar. Exempel: textsträngen hänvisande läkare finns i alla medicinska referensdokument som du identifierar. Eller den hänvisande läkarens telefonnummer i alla medicinsk referensdokument som du identifierar.
Ett reguljärt uttryck: använder en notation för mönstermatchning för att hitta specifika teckenmönster. Du kan till exempel använda ett reguljärt uttryck för att hitta alla förekomster av ett postadresmönstret i en uppsättning dokument.
Närhet: beskriver hur nära förklaringar är med varandra. En fraslista för gatunummer hamnar till exempel precis före fraslistan för gatunamn , utan token däremellan (du lär dig mer om token senare i den här artikeln). Med närhetstypen måste du ha minst två förklaringar i modellen, annars är alternativet inaktiverat.
Fraslista
Förklaringstypen fraslista används vanligtvis för att identifiera och klassificera ett dokument via modellen. Så som det beskrivs i exemplet med etikett för hänvisande läkare är det en sträng med ord, fraser, siffror eller tecken är konsekventa i de dokument som du identifierar.
Även om det inte är obligatoriskt kan du få mer framgång med din förklaring om frasen du hämtar finns på en konsekvent plats i ditt dokument. Till exempel kan etiketten hänvisande läkare konsekvent finnas i det första stycket i dokumentet. Du kan också använda avancerad inställning för Konfigurera var fraser ska visas i dokumentet för att markera specifika områden där frasen finns, särskilt om det finns en möjlighet att frasen förekommer på flera platser i ditt dokument.
Om skifteslägeskänslighet är obligatorisk för att identifiera din etikett tillåter användning av fraslista dig att ange det i förklaringen genom att markera kryssrutan Endast exakta versaler.
En frastyp är särskilt användbar när du skapar en förklaring som identifierar och extraherar information i olika format, till exempel datum, telefonnummer och kreditkortsnummer. Till exempel kan ett datum visas i flera olika format (1/1/2020, 1-1-2020, 01/01/20, 01/01/2020, eller Jan 1, 2020). Genom att definiera en fraslista blir förklaringen mer effektiv genom att fånga alla möjliga variationer i de data som du försöker identifiera och extrahera.
För exemplet telefonnummer extraherar du telefonnumret till varje hänvisande läkare från alla medicinska referensdokument som modellen identifierar. När du skapar förklaringen skriver du de olika formaten som ett telefonnummer kan visa i ditt dokument så att du kan fånga upp möjliga variationer.
I det här exemplet iAvancerad Inställningar väljer du Valfri siffra mellan 0-9 i kryssrutan för att känna igen alla "0"-värden som används i din fraslista som valfri siffra mellan 0 och 9.
Om du på liknande sätt skapar en fraslista som innehåller texttecken markerar du kryssrutan Valfri bokstav mellan a-ö för att känna igen alla "a"-tecken som används i fraslistan att vara valfri tecken mellan "a" till "ö".
Om du, till exempel, skapar en fraslista för Datum och vill se till att ett datumformat som 1 januari 2020 känns igen, måste du:
- Lägga till 0 aaaaaaa 0000 och 00 aaaaaaa 0000 i din fraslista.
- Kontrollera att Valfri bokstav från a-ö också är markerad.
Om du har kapitaliseringskrav i din fraslista kan du välja kryssrutan Endast exakta kapitalisering. Om du kräver att den första bokstaven i månaden för datumexemplet ska kapitaliseras behöver du:
- Lägga till Aaa 0, 0000 och Aaa 00 0000 till din fraslista.
- Kontrollera att Endast exakta versaler också är markerad.
Obs!
I stället för att manuellt skapa en förklaring för en fraslista kan du använda förklaringsbiblioteket för att använda mallar för en vanlig fraslista, till exempel datum, telefonnummerellerkreditkortsnummer.
Reguljärt uttryck
Med en förklaringstyp för reguljära uttryck kan du skapa mönster som hjälper dig att hitta och identifiera vissa textsträngar i dokumenten. Du kan använda reguljära uttryck för att snabbt tolka stora mängder text för att:
- Söka efter specifika teckenmönster.
- Verifiera text för att säkerställa att den matchar ett fördefinierat mönster (till exempel en e-postadress).
- Extrahera, redigera, ersätta eller ta bort textundersträngar.
En typ av reguljära uttryck är särskilt användbar när du skapar en förklaring som identifierar och extraherar information i liknande format, till exempel e-postadresser, bankkontonummer eller url-adresser. Till exempel visas en e-postadress, till exempel megan@contoso.com, i ett visst mönster ("megan" är den första delen och "com" är den sista delen).
Det vanliga uttrycket för en e-postadress är: [A-Basist-z0-9._%-]+@[A-An-z0-9.-]+. [A-<3>-z]{2,6}.
Det här uttrycket består av fem delar, i denna ordning:
några av följande tecken:
a. Bokstäver från a till z
b. Siffror från 0 till 9
c. Punkt, understreck, procent eller tankstreck
@-symbol
Några tecken från den första delen av e-postadressen
En punkt
Två till sex bokstäver
Så här lägger du till en förklaringstyp för reguljära uttryck:
På panelen Skapa en förklaring går du till panelen Förklaringstyp och väljer Reguljärt uttryck.
Du kan antingen skriva ett uttryck i textrutan Reguljära uttryck eller välja Lägg till ett reguljärt uttryck från en mall.
När du lägger till ett reguljärt uttryck med hjälp av en mall läggs namnet och det reguljära uttrycket automatiskt till i textrutan. Om du till exempel väljer Email adressmall fylls panelen Skapa en förklaring i.
Begränsningar
I följande tabell visas alternativ för infogade tecken som för närvarande inte är tillgängliga för användning i mönster för reguljära uttryck.
Alternativ | Region | Aktuella funktioner |
---|---|---|
Skiftlägeskänslighet | Stöds inte för närvarande. | Alla matchningar som utförs är inte skiftlägeskänsliga. |
Linjeankare | Stöds inte för närvarande. | Det går inte att ange en specifik position i en sträng där en matchning måste ske. |
Närhet
Typen närhetsförklaring hjälper modellen att lättare identifiera data genom att definiera hur nära ett annat data kommer till den. I din modell har du till exempel två förklaringar som etiketterar både kundens gatunummer och telefonnummer.
Notera att kundens telefonnummer alltid visas före gatunumret.
Alex Wilburn
555-555-5555
One Microsoft Way
Redmond, WA 98034
Använd närhetsförklaringen för att definiera hur långt bort det är för att bättre identifiera gatunumret i dina dokument.
Obs!
Reguljära uttryck kan för närvarande inte användas med närhetsförklaringstypen.
Vad är tokens?
Om du vill använda typen för närhetsförklaring måste du förstå vad en token är. Antalet tokens är hur närhetsförklaringen mäter avståndet från en förklaring till en annan. En token är ett sammanhängande intervall (exklusive blanksteg eller skiljetecken) för bokstäver och siffror.
I tabellen nedan visas exempel på hur du kan ta reda på antalet tokens i en fras.
Fras | Antal tokens | Förklaring |
---|---|---|
Dog |
1 | Ett enstaka ord utan skiljetecken eller blanksteg. |
RMT33W |
1 | Ett lokaliseringsnummer för posten. Det kan innehålla siffror och bokstäver men inga skiljetecken. |
425-555-5555 |
5 | Ett telefonnummer. Varje skiljetecken är ett enda token, så 425-555-5555 är 5 tokens:425 - 555 - 5555 |
https://luis.ai |
7 | https : / / luis . ai |
Konfigurera typen närhetsförklaring
Konfigurera inställningen närhet för detta exempel att definiera intervallet för antalet tokens i förklaringen för telefonnummer från förklaringen gatunummer. Notera att det minsta intervallet är "0" eftersom det inte finns några tokens mellan telefonnumret och gatunumret.
Men vissa telefonnummer i urvalsdokumenten har tillägget (mobil).
Viktor Magnusson
111-111-1111 (mobil)
One Microsoft Way
Redmond, WA 98034
Det finns tre tokens i (mobil):
Fras | Antal tokens |
---|---|
( | 1 |
mobil | 2 |
) | 3 |
Konfigurera inställningen för närhet så att den har ett område med 0 till 3.
Konfigurera var fraser förekommer i dokumentet
När du skapar en förklaring söks som standard hela dokumentet efter frasen du försöker extrahera. Du kan dock använda inställningen Där fraserna förekommer avancerade inställning för att hjälpa till att isolera en specifik plats i dokumentet som en fras förekommer på. Den här inställningen är användbart i situationer där liknande förekomster av en fras kan förekomma någon annanstans i dokumentet, och du vill kontrollera att rätt förekomst är markerad.
Med hänvisning till vårt exempel på medicinsk remiss nämns alltid den hänvisande läkaren i första stycket i dokumentet. Med inställningen Var dessa fraser förekommer kan du i det här exemplet konfigurera förklaringen så att den bara söker efter den här etiketten i början av dokumentet eller någon annan plats där den kan förekomma.
Du kan välja följande alternativ för den här inställningen:
Var som helst i filen: Hela dokumentet söks efter frasen.
Början av filen: Dokumentet genomsöks från början till frasplatsen.
I visningsprogrammet kan du manuellt justera urvalsrutan så att den inkluderar platsen där fasen inträffar. Värdet för slutposition uppdateras för att visa antalet token som ditt valda område innehåller. Du kan uppdatera slutpositionsvärdet för att justera det valda området.
Slutet av filen: dokumentet genomsöks från slutet till frasens plats.
I visningsprogrammet kan du manuellt justera urvalsrutan så att den inkluderar platsen där fasen inträffar. Värdet Startposition uppdateras för att visa antalet token som ditt valda område innehåller. Observera att du också kan uppdatera startpositionens värde för att justera det markerade området.
Anpassat intervall: Dokumentet genomsöks inom ett angivet intervall för frasplatsen.
I visningsprogrammet kan du manuellt justera urvalsrutan så att den inkluderar platsen där fasen inträffar. För den här inställningen måste du välja en start- och en slutposition. De här värdena representerar antalet tokens från början av dokumentet. Även om du kan ange dessa värden manuellt är det enklare att justera urvalsrutan i visningsprogrammet manuellt.
Att tänka på när du konfigurerar förklaringar
När du tränar en klassificerare finns det några saker att tänka på som ger mer förutsägbara resultat:
Ju fler dokument du tränar med, desto mer exakt blir klassificeraren. När det är möjligt kan du använda fler än fem bra dokument och använda mer än ett felaktigt dokument. Om de bibliotek som du arbetar med har flera olika dokumenttyper leder flera av varje typ till mer förutsägbara resultat.
Etikettering av dokumentet spelar en viktig roll i träningsprocessen. De används tillsammans med förklaringar för att träna modellen. Du kan se vissa avvikelser när du tränar en klassificerare med dokument som inte har mycket innehåll i dem. Förklaringen kanske inte matchar något i dokumentet, men eftersom det har märkts som ett "bra" dokument kan det vara en matchning under träningen.
När du skapar förklaringar används OR-logik i kombination med etiketten för att avgöra om det är en matchning. Reguljära uttryck som använder AND-logik kan vara mer förutsägbart. Här är ett exempel på reguljära uttryck som du kan använda i verkliga dokument när du tränar dem. Observera att texten som är markerad i rött är den fras eller de fraser som du letar efter.
(?=.*network provider)(?=.*participating providers).*
Etiketter och förklaringar fungerar tillsammans och används för att träna modellen. Det är inte en serie regler som kan kopplas bort och exakta vikter eller förutsägelser tillämpas på varje variabel som har konfigurerats. Ju större variation av dokument som används i utbildningen ger mer noggrannhet i modellen.