Osvědčené postupy: Generování datových sad označených popiskem

Článek
10/16/2024

Tento obsah se vztahuje na: v4.0 (Preview) | Předchozí verze: v3.1 (GA) v3.0 (GA)

Důležité

Osvědčené postupy pro generování označených datových sad se vztahují pouze na vlastní šablony a vlastní neurální modely pro vlastní generování, odkazují na vlastní generování.

Vlastní modely (šablona a neurální) vyžadují pro trénování modelu datovou sadu s popiskem nejméně pěti dokumentů. Kvalita označené datové sady ovlivňuje přesnost natrénovaného modelu. Tato příručka vám pomůže získat další informace o generování modelu s vysokou přesností sestavením různorodé datové sady a poskytuje osvědčené postupy pro označování dokumentů.

Vysvětlení komponent datové sady s popiskem

Datová sada s popiskem se skládá z několika souborů:

Zadáte sadu ukázkových dokumentů (obvykle PDF nebo obrázky). K trénování modelu je potřeba minimálně pět dokumentů.
Proces popisování navíc vygeneruje následující soubory:
- Soubor fields.json se vytvoří při přidání prvního pole. Pro celou trénovací datovou sadu existuje jeden fields.json soubor, seznam polí obsahuje název pole a přidružená dílčí pole a typy.
- Studio spouští jednotlivé dokumenty prostřednictvím rozhraní API rozložení. Odpověď rozložení pro každý z ukázkových souborů v datové sadě se přidá jako {file}.ocr.json. Odpověď rozložení se používá k vygenerování popisků polí při označení konkrétního rozsahu textu.
- Soubor {file}.labels.json se vytvoří nebo aktualizuje, když je pole označené v dokumentu. Soubor popisku obsahuje rozsahy textu a přidružené mnohoúhelníky z výstupu rozložení pro každé rozpětí textu, který uživatel přidá jako hodnotu pro konkrétní pole.

Video: Vlastní popisky a ukazatele

Následující video je první ze dvou prezentací, které vám pomůžou vytvářet vlastní modely s vyšší přesností (druhá prezentace zkoumá osvědčené postupy pro označování dokumentů).
Prozkoumáme, jak vytvořit vyváženou datovou sadu a vybrat správné dokumenty, které chcete označit. Tento proces vás nastaví na cestu k modelům s vyšší kvalitou.

Vytvoření vyvážené datové sady

Než začnete popisovat, je vhodné se podívat na několik různých ukázek dokumentu a zjistit, které ukázky chcete použít ve své datové sadě s popiskem. Vyvážená datová sada představuje všechny typické varianty, které byste očekávali pro dokument. Vytvoření vyvážené datové sady vede k vytvoření modelu s nejvyšší možnou přesností. Několik příkladů, které je potřeba vzít v úvahu, jsou:

Formáty dokumentů: Pokud očekáváte, že budete analyzovat digitální i naskenované dokumenty, přidejte do trénovací datové sady několik příkladů každého typu.
Varianty (model šablony):: Zvažte rozdělení datové sady do složek a trénování modelu pro každou variantu. Všechny varianty, které zahrnují strukturu nebo rozložení, by se měly rozdělit do různých modelů. Jednotlivé modely pak můžete vytvořit do jednoho složeného modelu.
Varianty (neurální modely): Pokud vaše datová sada obsahuje spravovatelnou sadu variant, přibližně 15 nebo méně, vytvořte jednu datovou sadu s několika ukázkami každé z různých variant pro trénování jednoho modelu. Pokud je počet variant šablon větší než 15, vytrénujete více modelů a vytvoříte je společně.
Tabulky: Pro dokumenty obsahující tabulky s proměnlivým počtem řádků zajistěte, aby trénovací datová sada také představovala dokumenty s různými čísly řádků.
Vícestrákové tabulky: Když tabulky pokrývají více stránek, označte jednu tabulku. Přidejte dokumenty do trénovací datové sady se znázorněnými očekávanými variantami – dokumenty s tabulkou jenom na jedné stránce a dokumenty s tabulkou, která obsahuje dvě nebo více stránek se všemi řádky označenými.
Nepovinná pole: Pokud datová sada obsahuje dokumenty s volitelnými poli, ověřte, že trénovací datová sada obsahuje několik dokumentů s možnostmi, které jsou reprezentované.

Začněte tím, že identifikujete pole.

Najděte si čas, abyste identifikovali jednotlivá pole, která chcete v datové sadě označovat. Věnujte pozornost volitelným polím. Definujte pole s popisky, které nejlépe odpovídají podporovaným typům.

K definování polí použijte následující pokyny:

Pro vlastní neurální modely použijte pro pole sémanticky relevantní názvy. Pokud je například extrahovaná hodnota , pojmenujte ji effective_date nebo ne obecný název, jako je Effective Datedatum1EffectiveDate.
V ideálním případě pojmenujte pole pomocí Pascalu nebo velbloudího případu.
Pokud je hodnota součástí vizuálně opakující se struktury a potřebujete jen jednu hodnotu, označte ji jako tabulku a extrahujte požadovanou hodnotu během následného zpracování.
Pro tabulková pole, která pokrývají více stránek, definujte a označte pole jako jednu tabulku.

Poznámka:

Vlastní neurální modely sdílejí stejný formát a strategii popisování jako vlastní modely šablon. Vlastní neurální modely v současné době podporují pouze podmnožinu typů polí podporovaných vlastními modely šablon.

Možnosti modelu

Vlastní neurální modely v současné době podporují pouze páry klíč-hodnota, strukturovaná pole (tabulky) a značky výběru.

Typ modelu	Pole formuláře	Značky výběru	Tabulková pole	Podpis	Oblast	Překrývající se pole
Vlastní neurální	✔️Podporovaný	✔️Podporovaný	✔️Podporovaný	Nepodporované	✔️Podporováno¹	✔️Podporováno²
Vlastní šablona	✔️Podporovaný	✔️Podporovaný	✔️Podporovaný	✔️Podporovaný	✔️Podporovaný	Nepodporované

¹ Implementace popisování oblastí se liší mezi šablonami a neurálními modely. V případě modelů šablon proces trénování vloží syntetická data v době trénování, pokud se v dané oblasti nenajde žádný text. U neurálních modelů se nevkážou žádný syntetický text a rozpoznaný text se použije tak, jak je.
² Překrývající se pole se podporují od verze 2024-02-29-preview rozhraní API a novější. Překrývající se pole mají určitá omezení. Další informace najdete v překrývajících se polích.

Tabulková pole

Tabulková pole (tabulky) jsou podporována u vlastních neurálních modelů počínaje verzí 2022-06-30-previewrozhraní API. Modely natrénované pomocí rozhraní API verze 2022-06-30-preview nebo novější přijímají popisky tabulkových polí a dokumenty analyzované pomocí modelu s rozhraním API verze 2022-06-30-preview nebo novějším, vytvoří ve výstupu tabulková pole v documents rámci oddílu výsledku v objektu analyzeResult .

Tabulková pole ve výchozím nastavení podporují tabulky křížových stránek . Pokud chcete označit tabulku, která zahrnuje více stránek, označte každý řádek tabulky napříč různými stránkami v jedné tabulce. Osvědčeným postupem je zajistit, aby vaše datová sada obsahovala několik ukázek očekávaných variant. Zahrnout například obě ukázky, kde je celá tabulka na jedné stránce, a ukázky tabulky, které pokrývají dvě nebo více stránek.

Tabulková pole jsou užitečná také při extrahování opakujících se informací v dokumentu, který není rozpoznán jako tabulka. Například opakující se část pracovních zkušeností v životopisu může být označena a extrahována jako tabulkové pole.

Poznámka:

Pole tabulky při označení se extrahuje jako součást documents oddílu odpovědi. Odpověď obsahuje tables také oddíl, který obsahuje tabulky extrahované z dokumentu modelem rozložení. Pokud jste označili pole jako tabulku, vyhledejte pole v části dokumenty odpovědi.

Pokyny pro označování

Hodnoty popisků jsou povinné. Nezahrnujte okolní text. Například při označování zaškrtávacího políčka pojmenujte pole, které označuje výběr zaškrtávacího políčka, například selectionYes místo selectionNo označení ano nebo ne textu v dokumentu.
Nezadávejte hodnoty prokládání polí. Hodnota slov a/nebo oblastí jednoho pole musí být po sobě jdoucí sekvence v přirozeném pořadí čtení.
Konzistentní označování. Pokud se hodnota zobrazí v několika kontextech v dokumentu, konzistentně vyberte stejný kontext v dokumentech a označte hodnotu.
Vizuálně se opakující data. Tabulky podporují vizuálně opakující se skupiny informací, nejen explicitní tabulky. Explicitní tabulky jsou identifikovány v oddílu tabulek analyzovaných dokumentů jako součást výstupu rozložení a nemusí být označeny jako tabulky. Označte pole tabulky pouze v případě, že se informace vizuálně opakují a nejsou identifikované jako tabulka jako součást odpovědi rozložení. Příkladem je část opakujícího se pracovního prostředí životopisu.
Popisování oblastí (vlastní šablona) Popisování konkrétních oblastí umožňuje definovat hodnotu, pokud neexistuje. Pokud je hodnota nepovinná, ujistěte se, že necháte několik ukázkových dokumentů s oblastí, která není označená. Při označování oblastí nezahrnujte okolní text do popisku.
Překrývající se pole (vlastní neurální) Označte pole překrývající se pomocí popisků oblastí. Ujistěte se, že máte alespoň ukázku, která popisuje, jak se pole můžou překrývat v trénovací datové sadě.

Další kroky

Trénování vlastního modelu:

Jak vytrénovat model
Zobrazení rozhraní REST API:

Rozhraní API pro analýzu dokumentů verze 4.0:2024-07-31-preview

Rozhraní DOCUMENT Intelligence API v3.1:2023-07-31 (GA)

Sdílet prostřednictvím