Trénování modelu nestrukturovaného zpracování dokumentů v Microsoft Syntex
Platí pro: ✓ Nestrukturované zpracování dokumentů
Postupujte podle pokynů v tématu Vytvoření modelu v Syntexu a vytvořte nestrukturovaný model zpracování dokumentů v centru obsahu. Nebo postupujte podle pokynů v tématu Vytvoření modelu na místním sharepointovém webu a vytvořte model na místním webu. Pak začněte tímto článkem a začněte trénovat model.
Vytvoření klasifikátoru
Klasifikátor je typ modelu, který můžete použít k automatizaci identifikace a klasifikace typu dokumentu.
Můžete například chtít identifikovat všechny dokumenty pro prodloužení smlouvy , které jsou přidány do knihovny dokumentů, jak je znázorněno na následujícím obrázku.
Vytvoření klasifikátoru vám umožní vytvořit nový typ obsahu SharePointu , který bude přidružený k modelu.
Při vytváření klasifikátoru je potřeba vytvořit vysvětlení , která model definují. Tento krok vám umožní poznamenat si běžná data, u které byste očekávali, že bude tento typ dokumentu konzistentně hledat.
Pomocí příkladů typu dokumentu ("ukázkové soubory") můžete model vytrénovat tak, aby identifikoval soubory se stejným typem obsahu.
Pokud chcete vytvořit klasifikátor, musíte:
- Pojmenujte model.
- Přidejte ukázkové soubory.
- Označte ukázkové soubory.
- Vytvořte vysvětlení.
- Otestujte model.
Poznámka
I když váš model používá k identifikaci a klasifikaci typů dokumentů klasifikátor, můžete se také rozhodnout, že z každého souboru identifikovaného modelem načítá určité informace. Uděláte to tak, že vytvoříte extraktor , který přidáte do modelu. Viz Vytvoření extraktoru.
Pojmenování modelu
Prvním krokem k vytvoření modelu je pojmenovat ho:
V centru obsahu vyberte Nový a pak Model.
Na stránce Možnosti pro vytvoření modelu vyberte Metoda výuky.
Na stránce Metoda výuky: Podrobnosti vyberte Další.
Na stránce Vytvořit model s metodou výuky zadejte do pole Název modelu název modelu. Pokud například chcete identifikovat dokumenty pro prodloužení smlouvy, můžete model pojmenovat prodloužení platnosti smlouvy.
Zvolte Vytvořit. Tato akce vytvoří domovskou stránku modelu.
Když vytváříte model, vytváříte také nový typ obsahu webu. Typ obsahu představuje kategorii dokumentů, které mají společné charakteristiky a sdílejí kolekci sloupců nebo vlastností metadat pro daný konkrétní obsah. Typy obsahu SharePointu se spravují prostřednictvím galerie typů obsahu. V tomto příkladu při vytváření modelu vytváříte nový typ obsahu Prodlužování smlouvy .
Vyberte Upřesnit nastavení , pokud chcete tento model mapovat na existující podnikový typ obsahu v galerii typů obsahu SharePointu, aby se použilo jeho schéma. Typy podnikového obsahu jsou uložené v centru typů obsahu v Centru pro správu SharePointu a jsou syndikované na všechny weby v tenantovi. Mějte na paměti, že i když můžete použít existující typ obsahu k využití jeho schématu k identifikaci a klasifikaci, musíte model vytrénovat tak, aby extrahovali informace ze souborů, které identifikuje.
Přidání ukázkových souborů
Na domovskou stránku modelu přidejte ukázkové soubory, které budete potřebovat k natrénování modelu tak, aby identifikoval typ dokumentu.
Poznámka
Pro trénování klasifikátoru i extraktoru byste měli použít stejné soubory. Vždy máte možnost přidat další později, ale obvykle přidáváte úplnou sadu ukázkových souborů. Označte některé z nich, abyste model vytrénovali, a otestujte zbývající neoznačené, abyste vyhodnotili jeho kondice.
Pro trénovací sadu chcete použít pozitivní i negativní příklady:
- Pozitivní příklad: Dokumenty, které představují typ dokumentu. Obsahují řetězce a informace, které by vždy byly v tomto typu dokumentu.
- Negativní příklad: Jakýkoli jiný dokument, který nepředstavuje dokument, který chcete klasifikovat.
K trénování modelu nezapomeňte použít alespoň pět pozitivních příkladů a alespoň jeden negativní příklad. Po trénování chcete vytvořit další model k otestování.
Postup přidání ukázkových souborů:
Na domovské stránce modelu na dlaždici Přidat ukázkové soubory vyberte Přidat soubory.
Na stránce Vyberte ukázkové soubory pro váš model vyberte ukázkové soubory z knihovny trénovacích souborů v centru obsahu. Pokud jste je tam ještě nenahráli, klikněte na Nahrát a zkopírujte je do knihovny trénovacích souborů.
Po výběru ukázkových souborů, které chcete použít k trénování modelu, vyberte Přidat.
Označení ukázkových souborů
Po přidání ukázkových souborů je potřeba je označit jako kladné nebo záporné příklady.
Na domovské stránce modelu na dlaždici Klasifikovat soubory a spustit trénování vyberte Trénovat klasifikátor. Tento krok zobrazí stránku popisku se seznamem ukázkových souborů s prvním souborem viditelným v prohlížeči.
V prohlížeči v horní části prvního ukázkového souboru by se měl zobrazit text s dotazem, jestli je soubor příkladem modelu, který jste právě vytvořili. Pokud se jedná o pozitivní příklad, vyberte Ano. Pokud se jedná o negativní příklad, vyberte Ne.
V seznamu Příklady s popisky na levé straně vyberte další soubory, které chcete použít jako příklady, a označte je popiskem.
Poznámka
Označte alespoň pět pozitivních příkladů. Musíte také označit alespoň jeden negativní příklad.
Vytvoření vysvětlení
Dalším krokem je vytvoření vysvětlení na stránce Trénovat. Vysvětlení pomáhá modelu pochopit, jak rozpoznat dokument. Například dokumenty pro prodloužení smlouvy vždy obsahují textový řetězec Žádosti o další zpřístupnění .
Poznámka
Při použití s extraktory, vysvětlení identifikuje řetězec, který chcete extrahovat z dokumentu.
Pokud chcete vytvořit vysvětlení:
Na domovské stránce modelu vyberte kartu Train ( Trénování ) a přejděte na stránku Train (Trénování).
Na stránce Train (Trénovat) by se v části Natrénované soubory měl zobrazit seznam ukázkových souborů, které jste dříve označili. Vyberte jeden z pozitivních souborů ze seznamu a zobrazí se v prohlížeči.
V části Vysvětlení vyberte Nový a pak Prázdné.
Na stránce Vytvořit vysvětlení :
a. Zadejte Název (například "Disclosure Block").
B. Vyberte Typ. Pro ukázku vyberte Seznam frází, protože přidáte textový řetězec.
C. Do pole Sem zadejte řetězec. Pro ukázku přidejte "Žádost o další zpřístupnění". Pokud řetězec potřebuje rozlišovat malá a velká písmena, můžete vybrat možnost Rozlišovat malá a velká písmena.
D. Vyberte Uložit.Centrum obsahu teď zkontroluje, jestli je vytvořené vysvětlení dostatečně dokončené, aby správně identifikovalo zbývající soubory s popisky jako pozitivní a negativní příklady. V části Natrénované soubory zkontrolujte po dokončení trénování sloupec Vyhodnocení a podívejte se na výsledky. Soubory zobrazují hodnotu Shoda, pokud vámi vytvořená vysvětlení stačila k tomu, aby odpovídala tomu, co jste označili jako kladné nebo záporné.
Pokud se u označených souborů zobrazí neshoda , možná budete muset vytvořit další vysvětlení, které modelu poskytne další informace k identifikaci typu dokumentu. Pokud dojde k neshodě, vyberte soubor a získejte další informace o tom, proč k neshodě došlo.
Jakmile vytrénujete extraktor, můžete ho použít jako vysvětlení. V části Vysvětlení se zobrazí jako referenční informace k modelu.
Otestování modelu
Pokud jste u ukázkových souborů s popiskem obdrželi shodu, můžete teď model otestovat na zbývajících neoznačené ukázkové soubory, které model ještě neviděl. Tento krok je nepovinný, ale je to užitečný krok k vyhodnocení "kondice" nebo připravenosti modelu před jeho použitím, a to testováním na souborech, které model ještě neviděl.
Na domovské stránce modelu vyberte kartu Test . Tím se model spustí na neoznačené ukázkové soubory.
V seznamu Testovací soubory se ukázkové soubory zobrazí a zobrazí, jestli model předpověděl, že jsou kladné nebo záporné. Tyto informace vám pomůžou určit efektivitu klasifikátoru při identifikaci dokumentů.