Začínáme: Document Intelligence Studio

Tento obsah se vztahuje na:Zaškrtnutív4.0 (Preview) | Předchozí verze:modrá značka zaškrtnutív3.1 (GA)modrá značka zaškrtnutív3.0 (GA)

Document Intelligence Studio je online nástroj pro vizuální zkoumání, porozumění a integraci funkcí ze služby Document Intelligence ve vašich aplikacích. Můžete začít prozkoumáním předem natrénovaných modelů s ukázkovými nebo vlastními dokumenty. Můžete také vytvářet projekty pro vytváření vlastních modelů šablon a odkazovat na modely ve vašich aplikacích pomocí sady Python SDK a dalších rychlých startů.

Požadavky pro nové uživatele

Tip

Pokud plánujete přístup k více službám Azure AI v rámci jednoho koncového bodu nebo klíče, vytvořte prostředek služeb Azure AI. Pouze pro přístup k funkci Document Intelligence vytvořte prostředek Document Intelligence. Upozorňujeme, že pokud máte v úmyslu používat ověřování Microsoft Entra, budete potřebovat prostředek s jednou službou.

Přiřazení rolí Azure

Pro analýzu dokumentů a předem připravené modely jsou pro různé scénáře vyžadována následující přiřazení rolí.

  • Základní
    • Uživatel služeb Cognitive Services: K zadání stránky analýzy potřebujete tuto roli pro prostředek služby Document Intelligence nebo služby Azure AI.
  • Pokročilé
    • Přispěvatel: Tuto roli potřebujete k vytvoření skupiny prostředků, služby Document Intelligence nebo prostředku služeb Azure AI.

Modely

Předem připravené modely vám pomůžou přidat do aplikací funkce Document Intelligence, aniž byste museli vytvářet, trénovat a publikovat vlastní modely. Můžete si vybrat z několika předem připravených modelů, z nichž každá má svou vlastní sadu podporovaných datových polí. Volba modelu, který se má použít pro operaci analýzy, závisí na typu dokumentu, který se má analyzovat. Funkce Document Intelligence v současné době podporuje následující předem připravené modely:

Analýza dokumentů

  • Rozložení: extrakce textu, tabulek, značek výběru a informací o struktuře z dokumentů (PDF, TIFF) a obrázků (JPG, PNG, BMP).
  • Čtení: extrahujte textové čáry, slova, jejich umístění, rozpoznané jazyky a ručně psaný styl, pokud jsou zjištěny z dokumentů (PDF, TIFF) a obrázků (JPG, PNG, BMP).

Předpřipravený

  • Faktura: extrakce textu, značek výběru, tabulek, párů klíč-hodnota a informací o klíčích z faktur.
  • Potvrzení: extrahujte z účtenek text a klíčové informace.
  • Zdravotní pojištění: extrahujte pojištění, člena, předpis, číslo skupiny a další klíčové informace z amerických zdravotních pojištění.
  • W-2: Extrahujte text a klíčové informace z daňových formulářů W-2.
  • Dokument s ID: extrahujte text a klíčové informace z řidičských licencí a mezinárodních pasů.

Vlastní

  • Vlastní modely extrakce: extrahujte informace z formulářů a dokumentů pomocí vlastních modelů extrakce. Rychle vytrénujte model tak, že označíte jenom pět ukázkových dokumentů.
  • Vlastní klasifikační model: Vytrénujte vlastní klasifikátor tak, aby rozlišoval mezi různými typy dokumentů v aplikacích. Rychle vytrénujte model s několika než dvěma třídami a pěti vzorky na třídu.

Po dokončení požadavků přejděte do nástroje Document Intelligence Studio.

  1. Na domovské stránce studia vyberte funkci služby Document Intelligence.

  2. Tento krok je jednorázový proces, pokud jste ještě nevybrali prostředek služby z předchozího použití. Vyberte své předplatné Azure, skupinu prostředků a prostředek. (Prostředky můžete kdykoli změnit v části "Nastavení" v horní nabídce.) Zkontrolujte a potvrďte výběry.

  3. Výběrem tlačítka Analyzovat spusťte analýzu v ukázkovém dokumentu nebo zkuste dokument pomocí příkazu Přidat.

  4. Pomocí ovládacích prvků v dolní části obrazovky můžete zobrazení dokumentu přiblížit nebo oddálit a otočit.

  5. Podívejte se na zvýrazněný extrahovaný obsah v zobrazení dokumentu. Najeďte myší na klávesy a hodnoty a zobrazte podrobnosti.

  6. Na kartě Výsledek výstupního oddílu procházejte výstup JSON a seznamte se s formátem odpovědi služby.

  7. Na kartě Kód procházejte vzorový kód pro integraci. Začněte kopírováním a stahováním.

Přidání požadavků pro vlastní projekty

Kromě účtu Azure a prostředku služby Document Intelligence nebo azure AI potřebujete:

Kontejner Azure Blob Storage

Účet služby Azure Blob Storage úrovně Standard. Kontejnery vytvoříte pro ukládání a uspořádání trénovacích dokumentů v rámci účtu úložiště. Pokud nevíte, jak vytvořit účet úložiště Azure s kontejnerem, postupujte podle těchto rychlých startů:

  • Vytvoření účtu úložiště Při vytváření účtu úložiště nezapomeňte v poli Podrobnosti instance → Výkon vybrat výkon úrovně Standard.
  • Vytvořte kontejner. Při vytváření kontejneru nastavte pole Úrovně veřejného přístupu na Kontejner (anonymní přístup pro čtení kontejnerů a objektů blob) v okně Nový kontejner .

Přiřazení rolí Azure

Pro vlastní projekty jsou pro různé scénáře vyžadována následující přiřazení rolí.

  • Základní
    • Uživatel služeb Cognitive Services: Tuto roli potřebujete pro prostředek Document Intelligence nebo služby Azure AI k trénování vlastního modelu nebo analýze pomocí natrénovaných modelů.
    • Přispěvatel dat objektů blob úložiště: Pro účet úložiště potřebujete tuto roli k vytvoření projektu a označení dat.
  • Pokročilé
    • Přispěvatel účtu úložiště: Pro účet úložiště potřebujete tuto roli k nastavení CORS (to je jednorázové úsilí, pokud se stejný účet úložiště znovu použije).
    • Přispěvatel: Tuto roli potřebujete k vytvoření skupiny prostředků a prostředků.

Konfigurace CORS

CORS (sdílení prostředků mezi zdroji) musí být nakonfigurované ve vašem účtu úložiště Azure, aby byl přístupný z Document Intelligence Studia. Ke konfiguraci CORS na webu Azure Portal potřebujete přístup na kartu CORS vašeho účtu úložiště.

  1. Vyberte kartu CORS pro účet úložiště.

    Snímek obrazovky s nabídkou nastavení CORS na webu Azure Portal

  2. Začněte vytvořením nové položky CORS ve službě Blob Service.

  3. Nastavte povolený původ na https://documentintelligence.ai.azure.comhodnotu .

    Snímek obrazovky znázorňující konfiguraci CORS pro účet úložiště

    Tip

    Zástupný znak *můžete použít místo zadané domény, abyste umožnili všem počátečním doménám provádět žádosti prostřednictvím CORS.

  4. Vyberte všechny dostupné 8 možností pro povolené metody.

  5. Potvrďte všechna povolená záhlaví a vystavená záhlaví zadáním * do každého pole.

  6. Nastavte maximální věk na 120 sekund nebo libovolnou přijatelnou hodnotu.

  7. Výběrem tlačítka Uložit v horní části stránky uložte změny.

CORS by teď mělo být nakonfigurované tak, aby používalo účet úložiště ze sady Document Intelligence Studio.

Sada ukázkových dokumentů

  1. Přihlaste se k webu Azure Portal a přejděte na Kontejnery úložiště>dat účtu>úložiště.

    Snímek obrazovky s nabídkou Úložiště dat na webu Azure Portal

  2. Ze seznamu vyberte kontejner.

  3. V nabídce v horní části stránky vyberte Nahrát .

    Snímek obrazovky s tlačítkem pro nahrání kontejneru na webu Azure Portal

  4. Zobrazí se okno Nahrát objekt blob .

  5. Vyberte soubory, které chcete nahrát.

    Snímek obrazovky s oknem nahrání objektu blob na webu Azure Portal

Poznámka:

Ve výchozím nastavení bude Studio používat dokumenty, které jsou umístěné v kořenovém adresáři kontejneru. Data uspořádaná do složek však můžete použít zadáním cesty ke složce v krocích vytvoření projektu vlastního formuláře. Viz Uspořádánídat v podsložkách.

Vlastní modely

Pokud chcete vytvořit vlastní modely, začněte konfigurací projektu:

  1. Na domovské stránce studia vyberte kartu Vlastní model a otevřete stránku Vlastní modely.

  2. Pomocí příkazu Vytvořit projekt spusťte průvodce konfigurací nového projektu.

  3. Zadejte podrobnosti o projektu, vyberte předplatné a prostředek Azure a kontejner úložiště objektů blob Azure, který obsahuje vaše data.

  4. Zkontrolujte a odešlete nastavení pro vytvoření projektu.

  5. K rychlému zprovoznění procesu popisování použijte funkci automatického popisku k označení pomocí už natrénovaného modelu nebo některého z našich předem připravených modelů.

  6. Pro ruční popisování od začátku definujte popisky a jejich typy, které vás zajímají extrahování.

  7. Vyberte text v dokumentu a v rozevíracím seznamu nebo podokně popisků vyberte popisek.

  8. Označit čtyři další dokumenty, abyste získali aspoň pět dokumentů s popiskem.

  9. Vyberte příkaz Trénovat a zadejte název modelu, vyberte, jestli chcete, aby neurální (doporučeno) nebo model šablony začal trénovat vlastní model.

  10. Jakmile je model připravený, pomocí příkazu Test ho ověřte pomocí testovacích dokumentů a prohlédněte si výsledky.

Ukázka vlastního modelu Document Intelligence

Označení jako tabulky

Poznámka:

  • Ve verzi API verze 2022-06-30-preview a novějších verzích budou vlastní modely šablon přidávat podporu pro tabulková pole napříč stránkami (tabulky).
  • Ve verzi API verze 2022-06-30-preview a novějších verzích budou vlastní neurální modely podporovat tabulková pole (tabulky) a modely natrénované pomocí rozhraní API verze 2022-08-31 nebo novější budou přijímat popisky tabulkových polí.
  1. K odstranění modelů, které nejsou potřeba, použijte příkaz Odstranit.

  2. Stáhněte si podrobnosti o modelu pro zobrazení offline.

  3. Vyberte více modelů a vytvořte je do nového modelu, který se použije ve vašich aplikacích.

Použití tabulek jako vizuálního vzoru:

Pro vlastní modely formulářů při vytváření vlastních modelů možná budete muset extrahovat kolekce dat z dokumentů. Kolekce dat se můžou objevit v několika formátech. Použití tabulek jako vizuálního vzoru:

  • Dynamický nebo proměnný počet hodnot (řádků) pro danou sadu polí (sloupců)

  • Konkrétní kolekce hodnot pro danou sadu polí (sloupce nebo řádky)

Označení jako dynamická tabulka

Pomocí dynamických tabulek extrahujte počet hodnot (řádků) pro danou sadu polí (sloupců):

  1. Přidejte nový popisek typu Tabulka, vyberte typ Dynamická tabulka a pojmenujte ho.

  2. Přidejte požadovaný počet sloupců (polí) a řádků (pro data).

  3. Vyberte text na stránce a pak zvolte buňku, která se má k textu přiřadit. Opakujte pro všechny řádky a sloupce na všech stránkách ve všech dokumentech.

Příklad popisování funkce Document Intelligence jako dynamické tabulky

Označení jako pevná tabulka

Pomocí pevných tabulek extrahujte konkrétní kolekci hodnot pro danou sadu polí (sloupce nebo řádky):

  1. Vytvořte nový popisek typu Tabulka, vyberte typ Pevná tabulka a pojmenujte ho.

  2. Přidejte počet sloupců a řádků, které potřebujete odpovídající dvěma sadám polí.

  3. Vyberte text na stránce a pak vyberte buňku, která se má přiřadit k textu. Opakujte pro ostatní dokumenty.

Příklad popisování funkcí Document Intelligence jako opravených tabulek

Detekce podpisu

Poznámka:

Pole podpisů jsou v současné době podporována pouze pro vlastní modely šablon. Při trénování vlastního neurálního modelu se pole označených podpisů ignorují.

Označení pro detekci podpisu: (pouze vlastní formulář)

  1. V zobrazení popisků vytvořte nový popisek typu Podpis a pojmenujte ho.

  2. Pomocí příkazu Oblast vytvořte obdélníkovou oblast v očekávaném umístění podpisu.

  3. Vyberte nakreslenou oblast a zvolte popisek typu podpisu, který chcete přiřadit k nakreslené oblasti. Opakujte pro ostatní dokumenty.

Příklad detekce podpisu pomocí popisků funkce Document Intelligence

Další kroky

  • Postupujte podle našeho průvodce migrací Document Intelligence v3.1 a seznamte se s rozdíly oproti předchozí verzi rozhraní REST API.
  • Prozkoumejte naše rychlé starty sady SDK v3.0 a vyzkoušejte funkce v3.0 ve vašich aplikacích pomocí nových sad SDK.
  • V našich rychlých startech k rozhraní REST API v3.0 si můžete vyzkoušet funkce v3.0 pomocí nového rozhraní REST API.

Začínáme se sadou Document Intelligence Studio