Číst v angličtině

Sdílet prostřednictvím


Použití předem vytvořeného modelu k extrakci informací z jednoduchých dokumentů v Microsoft Syntex

Jednoduchý model zpracování dokumentů nabízí flexibilní a předem vytrénované řešení pro extrakci informací ze základních strukturovaných dokumentů, včetně informací, jako jsou:

  • Páry klíč-hodnota – představte si, jako jsou popisky a odpovídající informace, například "Name: Adele Vance" (Jméno: Adele Vanceová).

  • Značky výběru – jedná se o zaškrtávací políčka nebo jiné značky, které označují volby nebo výběry v dokumentu.

  • Pojmenované entity – jedná se o konkrétní položky, jako jsou jména lidí, míst nebo organizací uvedených v textu dokumentu.

  • Čárové kódy – jedná se o strojově čitelná vyjádření dat, která se dají použít pro účely sledování nebo identifikace v dokumentu.

Na rozdíl od jiných předem připravených modelů s pevnými schématy dokáže tento model identifikovat klíče, které můžou ostatním chybět, a poskytuje cennou alternativu k vlastnímu označování a trénování modelů. Tento model také podporuje čárové kódy a rozpoznávání jazyka.

Typy dokumentů

Jednoduché zpracování dokumentů funguje nejlépe s typy dokumentů, které obsahují strukturované informace, například:

  • Forms – často mají jasná pole a popisky, což usnadňuje extrakci párů klíč-hodnota.

  • Faktury – obvykle obsahují konzistentní rozložení s tabulkami a páry klíč-hodnota.

  • Účtenky – podobně jako faktury mají strukturovaná data, která se dají snadno extrahovat.

  • Kontrakty – obsahují dobře definované oddíly a klauzule, které je možné efektivně analyzovat.

  • Bankovní výpisy – zahrnují tabulky a strukturovaná data, která jsou ideální pro extrakci.

Tyto dokumenty těží z možností optického rozpoznávání znaků (OCR) a procesů hlubokého učení, které se používají k extrakci párů klíč-hodnota, výběrových značek, tabulek a pojmenovaných entit.

Poznámka

V současné době je tento model k dispozici pro typy souborů .pdf a obrázků a ve více než 100 jazycích. Další podporované typy souborů budou přidány v budoucích verzích.

Pokud chcete použít jednoduchý model zpracování dokumentů, postupujte takto:

Krok 1: Vytvoření modelu

Postupujte podle pokynů v tématu Vytvoření modelu v Syntexu a vytvořte jednoduchý model zpracování dokumentů. Pak pokračujte následujícími kroky a dokončete model.

Krok 2: Nahrání ukázkového souboru k analýze

  1. Na stránce Modely v části Přidat soubor k analýze vyberte Přidat soubor.

    Snímek obrazovky s novou stránkou modelů zobrazující část Přidání souboru k analýze

  2. Na stránce Soubory pro analýzu modelu vyberte Přidat a vyhledejte soubor, který chcete použít.

    Snímek obrazovky se stránkou Soubory pro analýzu modelu s tlačítkem Přidat

  3. Na stránce Přidat soubor z knihovny trénovacích souborů vyberte soubor a pak vyberte Přidat.

    Snímek obrazovky se stránkou Přidat soubor ze stránky knihovny trénovacích souborů

  4. Na stránce Soubory k analýze modelu vyberte Další.

Krok 3: Výběr extraktorů pro váš model

Na stránce podrobností extraktoru uvidíte oblast dokumentu na pravé straně stránky a panel Extraktory na levé straně. Panel Extraktory zobrazuje seznam extraktorů, které byly v dokumentu identifikovány.

Snímek obrazovky se stránkou podrobností o extraktoru a panelem Extraktory

Pole entit, která jsou v oblasti dokumentu zvýrazněná zeleně, jsou položky, které model zjistil při analýze souboru. Když vyberete entitu, kterou chcete extrahovat, zvýrazněné pole se změní na modrou. Pokud se později rozhodnete entitu nezahrnovat, zvýrazněné pole se změní na šedé. Zvýraznění usnadňuje zobrazení aktuálního stavu extraktorů, které vyberete.

Tip

Pokud chcete pole entit přiblížit nebo oddálit, použijte kolečko myši nebo ovládací prvky lupy v dolní části oblasti dokumentu.

Výběr entity extraktoru

V závislosti na tom, co preferujete, můžete vybrat extraktor buď v oblasti dokumentu, nebo na panelu Extraktory .

  • Pokud chcete vybrat extraktor z oblasti dokumentu, vyberte pole entity.
  • Pokud chcete vybrat extraktor z panelu Extraktory , zaškrtněte ve sloupci Extrahovat odpovídající políčko napravo od názvu entity.

Když vyberete extraktor, zobrazí se v oblasti dokumentu pole Vybrat extraktor? . V poli se zobrazí název klíče (název vygenerovaný pro extraktor), zjištěná hodnota (hodnota tohoto pole v dokumentu), typ sloupce a možnost vybrat entitu jako extraktor.

Snímek obrazovky s polem Vybrat extraktor na stránce s podrobnostmi o extraktoru

Název klíče se použije jako název sloupce, když se model použije na knihovnu SharePointu. Pokud chcete, můžete název klíče změnit tak, aby byl popisnější. Typ sloupce ukazuje, jak se informace zobrazují v knihovně. Typ sloupce můžete změnit tak, aby zobrazoval, jak se mají informace zobrazovat. Když se model použije na knihovnu, můžete pomocí formátování sloupců určit, jak má vypadat v dokumentu.

Pokračujte výběrem dalších extraktorů, které chcete použít. Můžete také přidat další soubory pro analýzu této konfigurace modelu.

Přejmenování extraktoru

Existují tři způsoby, jak můžete přejmenovat extraktor:

  • V oblasti dokumentu na stránce podrobností extraktoru vyberte pole entity. Do pole Vybrat extraktor? zadejte do pole Název klíče nový název extraktoru.

  • Na panelu Extraktory na stránce s podrobnostmi o extraktoru vyberte extraktor, který chcete přejmenovat, a pak vyberte Přejmenovat.

  • Na domovské stránce modelu v části Extraktory vyberte extraktor, který chcete přejmenovat, a pak vyberte Přejmenovat.

Nastavení rozsahu stránek pro zpracování

Pro tento model můžete určit zpracování rozsahu stránek pro soubor místo celého souboru. Na panelu Extraktory vyberte v části Rozsah stránek stránku, kterou chcete zpracovat. Ve výchozím nastavení je nastavení Rozsah stránek prázdné. Pokud není k dispozici žádný rozsah stránek, zpracuje se celý dokument. Další informace najdete v tématu Nastavení rozsahu stránek pro extrahování informací z konkrétních stránek.

Rozpoznání jazyka dokumentu

U tohoto modelu můžete rozpoznat jazyk dokumentu a extrahovat ho do sloupce. Na panelu Extraktory v části Rozpoznávání jazyka přepněte rozpoznávání jazyka. Zobrazí kód ISO rozpoznaného jazyka.

Snímek obrazovky s částí Rozpoznávání jazyka na panelu Extraktory

Rozpoznávání jazyka můžete také zapnout nebo vypnout na panelu Nastavení modelu pro model.

Krok 4: Použití modelu

  • Pokud chcete uložit změny a vrátit se na domovskou stránku modelu, vyberte na panelu Extraktorymožnost Uložit a ukončit.

  • Pokud jste připravení použít model pro knihovnu, vyberte v oblasti dokumentu Další. Na panelu Přidat do knihovny zvolte knihovnu, do které chcete model přidat, a pak vyberte Přidat.

Informace o typech souborů, jazycích, optickém rozpoznávání znaků a dalších aspektech tohoto předem vytvořeného modelu najdete v tématu Požadavky a omezení pro předem připravené zpracování dokumentů v SharePointu.