Elszívó létrehozása Microsoft Syntex
A következőkre vonatkozik: ✓ Strukturálatlan dokumentumfeldolgozás
Az egyes dokumentumtípusok azonosításának és besorolásának automatizálására szolgáló osztályozómodell létrehozása előtt vagy után igény szerint hozzáadhat kinyerőket a modellhez, hogy konkrét információkat nyerjen ki ezekből a dokumentumokból. Előfordulhat például, hogy a modell nem csak a dokumentumtárhoz hozzáadott szerződésmegújítási dokumentumokat azonosítja, hanem az egyes dokumentumok szolgáltatás kezdési dátumát is oszlopértékként szeretné megjeleníteni a dokumentumtárban.
Létre kell hoznia egy elszívót a kinyerni kívánt dokumentum minden entitásához. Példánkban ki szeretnénk nyerni a szolgáltatás kezdési dátumát a modell által azonosított összes szerződésmegújítási dokumentumhoz. Szeretnénk látni egy nézetet az összes szerződésmegújítási dokumentum dokumentumtárában egy oszloppal, amely az egyes dokumentumok Szolgáltatás kezdési dátuma értékét mutatja.
Megjegyzés:
Kinyerő létrehozásához ugyanazokat a fájlokat kell használnia, mint a korábban feltöltött osztályozó betanítása.
Az elszívó elnevezése
A modell kezdőlapján, az Elszívók létrehozása és betanítása csempén válassza az Elszívó betanítása lehetőséget.
Az Új entitáselszívó képernyőn írja be az elszívó nevét az Új kinyerő neve mezőbe. Ha például ki szeretné nyerni a szolgáltatás kezdési dátumát az egyes Szerződésmegújítási dokumentumokból, adja neki a Szolgáltatás kezdési dátuma nevet. Dönthet úgy is, hogy újra felhasznál egy korábban létrehozott oszlopot (például egy felügyelt metaadatoszlopot).
Alapértelmezés szerint az oszlop típusa Egysoros szöveg. Ha módosítani szeretné az oszloptípust, válassza a Speciális beállítások>Oszloptípus lehetőséget, majd válassza ki a használni kívánt típust.
Megjegyzés:
Az Egysoros szöveg oszloptípusú kinyerők esetében a maximális karakterkorlát 255. A korlátot túllépő karakterek csonkulnak. Ha 255 karakternél hosszabb karaktert szeretne kijelölni, válassza a Több sornyi szöveg oszloptípust az elszívó létrehozásakor.
Alapértelmezés szerint több sornyi szövegoszlop jön létre a hozzáadható szöveg mennyiségének korlátozásával. Ebben az esetben a kinyert szöveg csonkolva jelenhet meg. Ha ez történik, a korlát eltávolításához használhatja a Korlátlan hossz engedélyezése a dokumentumtárakban oszlopbeállítást.
Amikor elkészült, válassza a Létrehozás lehetőséget.
Címke hozzáadása
A következő lépés a kinyerni kívánt entitás címkézése a példa betanítási fájlokban.
Az elszívó létrehozása megnyitja az elszívó oldalt. Itt láthatja a mintafájlok listáját, amelyben az első fájl látható a megtekintőben.
A megtekintőben válassza ki a fájlokból kinyerni kívánt adatokat. Ha például ki szeretné nyerni a Szolgáltatás indítása dátumot, jelölje ki a dátumértéket az első fájlban (2022. október 14., hétfő). majd válassza a Mentés lehetőséget. Az értéknek meg kell jelennie a fájlban a Címkézett példák listában, a Címke oszlop alatt.
Válassza a Következő fájl lehetőséget az automatikus mentéshez, és nyissa meg a következő fájlt a listában a megtekintőben. Vagy válassza a Mentés lehetőséget, majd válasszon ki egy másik fájlt a Címkézett példák listából.
A megjelenítőben ismételje meg az 1. és a 2. lépést, majd ismételje meg addig, amíg a címkét mind az öt fájlba nem mentette.
Öt fájl címkézése után egy értesítési szalagcím jelenik meg, amely tájékoztatja, hogy válthat a betanításra. Dönthet úgy, hogy több dokumentumot címkéz, vagy továbblép a betanításra.
Keresés a fájlban a Keresés funkcióval
A Keresés funkcióval megkereshet egy címkézni kívánt entitást a dokumentumban.
A Keresés funkció akkor hasznos, ha nagy méretű dokumentumban keres, vagy ha az entitásnak több példánya van a dokumentumban. Ha több példányt talál, kiválaszthatja azt, amelyikre szüksége van a keresési eredmények között, hogy a megtekintőben erre a helyre lépjen a címkéhez.
Magyarázat hozzáadása
Példánkban egy olyan magyarázatot hozunk létre, amely a mintadokumentumokban található entitásformátumra és változatokra vonatkozó tippet ad. A dátumértékek például többféle formátumban is lehetnek, például:
- 10/14/2022
- 2022. október 14.
- 2022. október 14., hétfő
A szolgáltatás kezdési dátumának azonosításához létrehozhat egy mintamagyarázatot.
- A Magyarázat szakaszban válassza az Új lehetőséget, és írjon be egy nevet (például Dátum).
- A Típus mezőben válassza a Mintalista lehetőséget.
- Az Érték beállításnál adja meg a mintafájlokban megjelenő dátumváltozást. Ha például a dátumformátumok 0/00/0000 formátumban jelennek meg, a dokumentumokban megjelenő változatokat adja meg, például:
- 0/0/0000
- 0/00/0000
- 00/0/0000
- 00/00/0000
- Válassza a Mentés elemet.
Megjegyzés:
További információ a magyarázattípusokról: Magyarázattípusok.
A magyarázattár használata
A dátumokhoz hasonló elemek magyarázatának létrehozásához egyszerűbb a magyarázattár használata , mint az összes változat manuális megadása. A magyarázattár előre összeállított kifejezés- és mintamagyarázatok halmaza. A kódtár igyekszik minden formátumot megadni a gyakori kifejezés- vagy mintalistákhoz, például dátumokhoz, telefonszámokhoz, irányítószámokhoz és sok máshoz.
A Szolgáltatás kezdési dátuma minta esetében hatékonyabb, ha a magyarázattárban a Date előre elkészített magyarázatát használja:
A Magyarázat szakaszban válassza az Új, majd a Magyarázattárból lehetőséget.
A magyarázattárban válassza a Dátum lehetőséget. A felismert dátumok összes változatát megtekintheti.
Válassza a Hozzáadás lehetőséget.
A Magyarázat létrehozása lapon a magyarázattár dátumadatai automatikusan kitöltik a mezőket. Válassza a Mentés elemet.
A modell betanítása
A magyarázat mentése elindítja a betanítást. Ha a modell elegendő információval rendelkezik ahhoz, hogy kinyerje az adatokat a címkézett mintafájlokból, minden fájl egyezés címkével jelenik meg.
Ha a magyarázat nem rendelkezik elegendő információval a kinyerni kívánt adatok megkereséséhez, minden fájl eltérő címkével lesz ellátva. A Nem egyező fájlok lehetőséget választva további információt kaphat arról, hogy miért volt eltérés.
További magyarázat hozzáadása
Az eltérés gyakran azt jelzi, hogy a megadott magyarázat nem adott meg elegendő információt a szolgáltatás kezdő dátumértékének kinyeréséhez a címkézett fájlokkal való egyeztetéshez. Lehet, hogy szerkesztenie kell, vagy meg kell adnia egy másik magyarázatot.
A példánkban megfigyelheti, hogy a Start Service date (Szolgáltatás indítása) dátumának szöveges karakterlánca mindig a tényleges értéket előzi meg. A szolgáltatás kezdési dátumának azonosításához létre kell hoznia egy kifejezésmagyarázatot.
A Magyarázat szakaszban válassza az Új lehetőséget, majd írjon be egy nevet (például: Sztring előtag).
A Típus mezőben válassza a Kifejezéslista lehetőséget.
Értékként használja a service start date (Szolgáltatás kezdési dátuma ) értéket.
Válassza a Mentés elemet.
A modell ismételt betanítása
A magyarázat mentése újra elindítja a betanítást, ezúttal mindkét magyarázatot használva a példában. Ha a modell elegendő információval rendelkezik ahhoz, hogy kinyerje az adatokat a címkézett mintafájlokból, minden fájl egyezés címkével jelenik meg.
Ha ismét eltérést kap a címkézett fájlokon, valószínűleg létre kell hoznia egy másik magyarázatot a modell további információinak megadásához a dokumentumtípus azonosításához, vagy fontolja meg a meglévők módosítását.
A modell tesztelése
Ha egyezést kap a címkézett mintafájlokon, tesztelheti a modellt a többi címkézetlen mintafájlon. Ez a lépés nem kötelező, de hasznos a modell "alkalmasságának" vagy készültségének kiértékeléséhez a használat előtt, ha teszteli a modellt korábban nem látott fájlokon.
A modell kezdőlapján válassza a Teszt lapot. Ez futtatja a modellt a címkézetlen mintafájlokon.
A Tesztfájlok listában megjelennek a példafájlok, hogy a modell ki tudja-e nyerni a szükséges információkat. Ez az információ segít meghatározni az osztályozó hatékonyságát a dokumentumok azonosításában.
Az elszívó további finomítása
Ha duplikált entitásokkal rendelkezik, és csak egy vagy bizonyos számú értéket szeretne kinyerni, beállíthat egy szabályt a feldolgozás módjának megadásához. Ha szabályt szeretne hozzáadni a kinyert információk pontosításához, kövesse az alábbi lépéseket:
A modell kezdőlapján, az Entitás-kinyerők szakaszban válassza ki a pontosítani kívánt kinyerőt, majd válassza a Kinyert adatok pontosítása lehetőséget.
A Kinyert adatok pontosítása lapon válasszon az alábbi szabályok közül:
- Egy vagy több első érték megtartása
- Egy vagy több utolsó érték megtartása
- Ismétlődő értékek eltávolítása
- Egy vagy több első sor megtartása
- Egy vagy több utolsó sor megtartása
Adja meg a használni kívánt sorok vagy értékek számát, majd válassza a Pontosítás lehetőséget.
Ha módosítani szeretne egy szabályt a sorok vagy értékek számának módosításával, jelölje ki a szerkeszteni kívánt kiválasztót, válassza a Kinyert adatok finomítása, a szám módosítása, majd a Mentés lehetőséget.
Az elszívó tesztelésekor láthatja a pontosítást a Tesztfájlok lista Pontosítás eredménye oszlopában.
Ha törölni szeretne egy pontosítási szabályt egy kinyerőn, jelölje ki azt az elszívót, amelyből el szeretné távolítani a szabályt, válassza a Kinyert adatok pontosítása, majd a Törlés lehetőséget.