Vytváření vlastních modelů

Tento obsah se vztahuje na:Zaškrtnutív4.0 (Preview) | Předchozí verze:modrá značka zaškrtnutív3.1 (GA)modrá značka zaškrtnutív3.0 (GA)modrá značka zaškrtnutív2.1 (GA)

Tento obsah se vztahuje na:Zaškrtnutív3.1 (GA) | Nejnovější verze:nachová značka zaškrtnutív4.0 (Preview) | Předchozí verze:modrá značka zaškrtnutív3.0modrá značka zaškrtnutív2.1

Tento obsah se vztahuje na:Zaškrtnutív3.0 (GA) | Nejnovější verze:nachová značka zaškrtnutív4.0 (Preview)nachová značka zaškrtnutív3.1 | Předchozí verze:modrá značka zaškrtnutív2.1

Tento obsah se vztahuje na:Zaškrtnutív2.1 | Nejnovější verze:modrá značka zaškrtnutív4.0 (Preview)

Složený model se vytvoří tak, že vezme kolekci vlastních modelů a přiřadí je k jednomu ID modelu. K jednomu složeným ID modelu můžete přiřadit až 200 trénovaných vlastních modelů. Když je dokument odeslán do složeného modelu, služba provede krok klasifikace a rozhodne, který vlastní model přesně představuje formulář prezentovaný pro analýzu. Složené modely jsou užitečné, když jste natrénovali několik modelů a chcete je seskupit za účelem analýzy podobných typů formulářů. Složený model může například zahrnovat vlastní modely natrénované k analýze dodávek, vybavení a nákupních objednávek nábytku. Místo ručního výběru vhodného modelu můžete použít složený model k určení vhodného vlastního modelu pro každou analýzu a extrakci.

Další informace najdete v tématu Složené vlastní modely.

V tomto článku se dozvíte, jak vytvářet a používat složené vlastní modely k analýze formulářů a dokumentů.

Požadavky

Abyste mohli začít, potřebujete následující zdroje informací:

  • Předplatné Azure. Můžete vytvořit bezplatné předplatné Azure.

  • Instance funkce Document Intelligence. Jakmile budete mít předplatné Azure, vytvořte na webu Azure Portal prostředek Document Intelligence, abyste získali klíč a koncový bod. Pokud máte existující prostředek Document Intelligence, přejděte přímo na stránku prostředku. Službu můžete vyzkoušet pomocí cenové úrovně Free (F0) a později upgradovat na placenou úroveň pro produkční prostředí.

    1. Po nasazení prostředku vyberte Přejít k prostředku.

    2. Zkopírujte hodnoty klíčů a koncových bodů z webu Azure Portal a vložte je do vhodného umístění, jako je Microsoft Poznámkový blok. K připojení aplikace k rozhraní DOCUMENT Intelligence API potřebujete hodnoty klíče a koncového bodu.

    Pořád fotka znázorňující, jak získat přístup k klíči prostředku a adrese URL koncového bodu

    Tip

    Další informace najdete v tématu vytvoření prostředku Document Intelligence.

  • Účet úložiště Azure. Pokud nevíte, jak vytvořit účet úložiště Azure, postupujte podle rychlého startu pro Azure Storage pro Azure Portal. Službu můžete vyzkoušet pomocí cenové úrovně Free (F0) a později upgradovat na placenou úroveň pro produkční prostředí.

Vytvoření vlastních modelů

Nejprve potřebujete sadu vlastních modelů k vytvoření. Můžete použít sady SDK sady Document Intelligence Studio, REST API nebo klientské knihovny. Kroky jsou následující:

Sestavení trénovací datové sady

Vytvoření vlastního modelu začíná vytvořením trénovací datové sady. Pro ukázkovou datovou sadu potřebujete minimálně pět dokončených formulářů stejného typu. Můžou mít různé typy souborů (jpg, png, pdf, tiff) a obsahují text i rukopis. Formuláře musí splňovat vstupní požadavky pro funkci Document Intelligence.

Tip

Pokud chcete optimalizovat sadu dat pro trénování, postupujte podle těchto tipů:

  • Pokud je to možné, místo obrázkových dokumentů používejte textové dokumenty PDF. Naskenované dokumenty PDF se zpracovávají jako obrázky.
  • U vyplněných formulářů použijte příklady, které mají vyplněna všechna pole.
  • Používejte formuláře s různými hodnotami v každém poli.
  • Pokud jsou obrázky formuláře méně kvalitní, použijte větší datovou sadu (např. 10 až 15 obrázků).

Tipy ke shromažďování trénovacích dokumentů najdete v tématu Vytvoření trénovací sady dat.

Nahrání trénovací datové sady

Když jste shromáždili sadu trénovacích dokumentů, musíte nahrát trénovací data do kontejneru úložiště objektů blob v Azure.

Pokud chcete použít ručně označená data, musíte nahrát .labels.json a .ocr.json soubory, které odpovídají vašim trénovacím dokumentům.

Trénování vlastního modelu

Při trénování modelu s označenými daty model pomocí učení pod dohledem extrahuje hodnoty zájmu pomocí vámi zadaných formulářů s popisky. Označená data mají za následek výkonnější modely a můžou vytvářet modely, které pracují se složitými formuláři nebo formuláři obsahujícími hodnoty bez klíčů.

Funkce Document Intelligence používá předem připravené rozhraní API modelu rozložení k získání informací o očekávaných velikostech a pozicích písma a ručně psaných textových prvků a extrahování tabulek. Potom pomocí popisků určených uživatelem zjistí přidružení klíč/hodnota a tabulky v dokumentech. K zahájení trénování nového modelu doporučujeme použít pět ručně označených formulářů stejného typu (stejné struktury). Potom podle potřeby přidejte další označená data, aby se zlepšila přesnost modelu. Funkce Document Intelligence umožňuje trénování modelu k extrakci párů klíč-hodnota a tabulek pomocí funkcí učení pod dohledem.

Pokud chcete vytvořit vlastní modely, začněte konfigurací projektu:

  1. Na domovské stránce studia vyberte Vytvořit nový na kartě Vlastní model.

  2. Pomocí příkazu Vytvořit projekt spusťte průvodce konfigurací nového projektu.

  3. Zadejte podrobnosti o projektu, vyberte předplatné a prostředek Azure a kontejner úložiště objektů blob Azure, který obsahuje vaše data.

  4. Zkontrolujte a odešlete nastavení pro vytvoření projektu.

Animace znázorňující vytvoření vlastního projektu v sadě Document Intelligence Studio

Při vytváření vlastních modelů možná budete muset extrahovat kolekce dat z dokumentů. Kolekce můžou mít jeden ze dvou formátů. Použití tabulek jako vizuálního vzoru:

  • Dynamický nebo proměnný počet hodnot (řádků) pro danou sadu polí (sloupců)

  • Konkrétní kolekce hodnot pro danou sadu polí (sloupce nebo řádky)

Viz Document Intelligence Studio: označení jako tabulky

Vytvoření složeného modelu

Poznámka:

create compose model operace je k dispozici pouze pro vlastní modely natrénované pomocí popisků. Při pokusu o vytvoření neoznačeného modelu dojde k chybě.

Pomocí operace vytvoření vytvoření modelu můžete přiřadit až 100 trénovaných vlastních modelů k jednomu ID modelu. Při analýze dokumentů s složeným modelem funkce Document Intelligence nejprve klasifikuje odeslaný formulář, pak zvolí nejlepší přiřazený model a vrátí výsledky pro daný model. Tato operace je užitečná, když příchozí formuláře můžou patřit do jedné z několika šablon.

Po úspěšném dokončení trénovacího procesu můžete začít sestavovat složený model. Tady jsou kroky pro vytváření a používání složených modelů:

Shromáždění ID modelů

Při trénování modelů pomocí nástroje Document Intelligence Studio se ID modelu nachází v nabídce modelů pod projektem:

Snímek obrazovky s oknem konfigurace modelu v nástroji Document Intelligence Studio

Vytvoření vlastních modelů

  1. Vyberte projekt vlastních modelů.

  2. V projektu vyberte Models položku nabídky.

  3. Ve výsledném seznamu modelů vyberte modely, které chcete vytvořit.

  4. V levém horním rohu zvolte tlačítko Vytvořit.

  5. V automaticky otevíraných otevíraných oknech pojmenujte nově složený model a vyberte Vytvořit.

  6. Po dokončení operace se v seznamu zobrazí nově složený model.

  7. Jakmile je model připravený, pomocí příkazu Test ho ověřte pomocí testovacích dokumentů a prohlédněte si výsledky.

Analýza dokumentů

Operace Analýza vlastního modelu vyžaduje, abyste zadali modelID volání funkce Document Intelligence. Pro parametr v aplikacích byste měli zadat složené ID modelID modelu.

Snímek obrazovky s složeným ID modelu v nástroji Document Intelligence Studio

Správa složených modelů

Vlastní modely můžete spravovat v průběhu životního cyklu:

  • Otestujte a ověřte nové dokumenty.
  • Stáhněte si model, který chcete použít ve svých aplikacích.
  • Po dokončení životního cyklu odstraňte model.

Snímek obrazovky s složeným modelem v nástroji Document Intelligence Studio

Výborně! Naučili jste se vytvářet vlastní a složené modely a používat je v projektech a aplikacích Document Intelligence.

Další kroky

Vyzkoušejte jeden z našich rychlých zprovoznění funkce Document Intelligence:

C#

Funkce Document Intelligence používá pokročilou technologii strojového učení k detekci a extrakci informací z obrázků dokumentů a vrácení extrahovaných dat ve strukturovaném výstupu JSON. Pomocí funkce Document Intelligence můžete trénovat samostatné vlastní modely nebo kombinovat vlastní modely a vytvářet složené modely.

  • Vlastní modely. Vlastní modely Document Intelligence umožňují analyzovat a extrahovat data z formulářů a dokumentů specifických pro vaši firmu. Vlastní modely se trénují pro různá data a případy použití.

  • Složené modely. Složený model se vytvoří tak, že vezme kolekci vlastních modelů a přiřadí je jednomu modelu, který zahrnuje vaše typy formulářů. Když je dokument odeslán do složeného modelu, služba provede krok klasifikace a rozhodne, který vlastní model přesně představuje formulář prezentovaný pro analýzu.

V tomto článku se dozvíte, jak vytvářet vlastní a složené modely document intelligence pomocí našeho nástroje pro popisování ukázek document intelligence, rozhraní REST API nebo sad SDK klientské knihovny.

Ukázkový nástroj popisování

Zkuste extrahovat data z vlastních formulářů pomocí našeho nástroje Pro označování ukázek. Potřebujete následující zdroje informací:

  • Předplatné Azure – můžete si ho zdarma vytvořit.

  • Instance Document Intelligence na webu Azure Portal K vyzkoušení služby můžete použít cenovou úroveň Free (F0). Po nasazení prostředku vyberte Přejít k prostředku a získejte klíč a koncový bod.

Snímek obrazovky s klíči a umístěním koncového bodu na webu Azure Portal

V uživatelském rozhraní funkce Document Intelligence:

  1. Vyberte Použít vlastní k trénování modelu s popisky a získání párů klíč-hodnota.

    Snímek obrazovky s možností výběru vlastního modelu v nástroji FOTT

  2. V dalším okně vyberte Nový projekt:

    Snímek obrazovky s nástrojem FOTT vyberte možnost nový projekt.

Vytvoření modelů

Postup vytváření, trénování a používání vlastních a složených modelů je následující:

Sestavení trénovací datové sady

Vytvoření vlastního modelu začíná vytvořením trénovací datové sady. Pro ukázkovou datovou sadu potřebujete minimálně pět dokončených formulářů stejného typu. Můžou mít různé typy souborů (jpg, png, pdf, tiff) a obsahují text i rukopis. Formuláře musí splňovat vstupní požadavky pro funkci Document Intelligence.

Nahrání trénovací datové sady

Trénovací data musíte nahrát do kontejneru úložiště objektů blob v Azure. Pokud nevíte, jak vytvořit účet úložiště Azure s kontejnerem, přečtěte si rychlýstart pro Azure Storage pro Azure Portal. Službu můžete vyzkoušet pomocí cenové úrovně Free (F0) a později upgradovat na placenou úroveň pro produkční prostředí.

Trénování vlastního modelu

Model vytrénujete pomocí označených datových sad. Datové sady s popisky spoléhají na předem připravené rozhraní API pro rozložení, ale další lidské vstupy jsou zahrnuté, například vaše konkrétní popisky a umístění polí. Začněte alespoň s pěti vyplněnými formuláři stejného typu pro trénovací data s popiskem.

Při trénování s označenými daty model pomocí učení pod dohledem extrahuje hodnoty zájmu pomocí vámi zadaných formulářů s popiskem. Označená data mají za následek výkonnější modely a můžou vytvářet modely, které pracují se složitými formuláři nebo formuláři obsahujícími hodnoty bez klíčů.

Funkce Document Intelligence používá rozhraní API rozložení k získání informací o očekávaných velikostech a pozicích písma a ručně psaných textových prvků a extrakci tabulek. Potom pomocí popisků určených uživatelem zjistí přidružení klíč/hodnota a tabulky v dokumentech. K zahájení trénování nového modelu doporučujeme použít pět ručně označených formulářů stejného typu (stejné struktury). Podle potřeby přidejte další označená data, aby se zlepšila přesnost modelu. Funkce Document Intelligence umožňuje trénování modelu k extrakci párů klíčových hodnot a tabulek s využitím schopností učení pod dohledem.

Začínáme s trénem s popisky

[! VIDEO https://learn.microsoft.com/Shows/Docs-Azure/Azure-Form-Recognizer/player]

Vytvoření složeného modelu

Poznámka:

Vytváření modelů je k dispozici pouze pro vlastní modely natrénované pomocí popisků. Při pokusu o vytvoření neoznačeného modelu dojde k chybě.

Pomocí operace Vytváření modelů můžete přiřadit až 200 trénovaných vlastních modelů k jednomu ID modelu. Když zavoláte analyzovat s složeným ID modelu, funkce Document Intelligence klasifikuje formulář, který jste odeslali jako první, zvolí nejlepší přiřazený model a pak vrátí výsledky pro daný model. Tato operace je užitečná, když příchozí formuláře můžou patřit do jedné z několika šablon.

Pomocí nástroje Popisování ukázek document intelligence, rozhraní REST API nebo sad SDK klientské knihovny nastavte složený model podle kroků:

  1. Shromáždění ID vlastních modelů
  2. Vytvoření vlastních modelů

Shromáždění ID vlastních modelů

Po úspěšném dokončení procesu trénování se vašemu vlastnímu modelu přiřadí ID modelu. ID modelu můžete načíst následujícím způsobem:

Při trénování modelů pomocí nástroje Popisování ukázek funkce Document Intelligence se ID modelu nachází v okně Výsledek trénování:

Snímek obrazovky s oknem výsledků trénování

Vytvoření vlastních modelů

Po shromáždění vlastních modelů odpovídajících jednomu typu formuláře je můžete vytvořit do jednoho modelu.

Nástroj Sample Labeling umožňuje rychle začít s trénováním modelů a jejich vytvářením do jednoho ID modelu.

Po dokončení trénování vytvořte modely následujícím způsobem:

  1. V nabídce vlevo vyberte ikonu Pro vytvoření modelu (slučovací šipka).

  2. V hlavním okně vyberte modely, které chcete přiřadit k jednomu ID modelu. Modely s ikonou šipek už jsou složené modely.

  3. V levém horním rohu zvolte tlačítko Vytvořit.

  4. V automaticky otevíraných otevíraných oknech pojmenujte nově složený model a vyberte Vytvořit.

Po dokončení operace se v seznamu zobrazí nově složený model.

Snímek obrazovky s oknem pro vytvoření modelu

Analýza dokumentů pomocí vlastního nebo složeného modelu

Operace Analýza vlastního formuláře vyžaduje, abyste zadali modelID volání funkce Document Intelligence. Pro parametr můžete zadat jedno VLASTNÍ ID modelu nebo složené ID modelID modelu.

  1. V nabídce levého podokna nástroje vyberte ikonu Analyzovat (žárovka).

  2. Zvolte adresu URL místního souboru nebo obrázku, který chcete analyzovat.

  3. Vyberte tlačítko Spustit analýzu.

  4. Nástroj použije značky v ohraničujících polích a hlásí procento spolehlivosti pro každou značku.

Snímek obrazovky nástroje Document Intelligence s možností analyzovat okno vlastního formuláře

Otestujte nově natrénované modely analýzou formulářů , které nebyly součástí trénovací datové sady. V závislosti na hlášené přesnosti můžete chtít provést další trénování, aby se model zlepšil. Můžete pokračovat v dalším trénování, abyste zlepšili výsledky.

Správa vlastních modelů

Vlastní modely můžete spravovat po celý jejich životní cyklus zobrazením seznamu všech vlastních modelů v rámci předplatného, načtením informací o konkrétním vlastním modelu a odstraněním vlastních modelů z vašeho účtu.

Výborně! Naučili jste se vytvářet vlastní a složené modely a používat je v projektech a aplikacích Document Intelligence.

Další kroky

Další informace o klientské knihovně Document Intelligence najdete v referenční dokumentaci k rozhraní API.