Sdílet prostřednictvím


Začínáme: Document Intelligence Studio

Tento obsah se vztahuje na:Zaškrtnutí v4.0 (Preview) | Předchozí verze:modrá značka zaškrtnutí v3.1 (GA)modrá značka zaškrtnutí v3.0 (GA)

Document Intelligence Studio je online nástroj pro vizuální zkoumání, porozumění a integraci funkcí ze služby Document Intelligence ve vašich aplikacích. Můžete začít prozkoumáním předem natrénovaných modelů s ukázkovými nebo vlastními dokumenty. Můžete také vytvářet projekty pro vytváření vlastních modelů šablon a odkazovat na modely ve vašich aplikacích pomocí sady Python SDK a dalších rychlých startů.

Požadavky pro nové uživatele

Pokud chcete používat Document Intelligence Studio, potřebujete následující prostředky a nastavení:

Tip

Pokud plánujete přístup k více službám Azure AI v rámci jednoho koncového bodu nebo klíče, vytvořte prostředek služeb Azure AI. Pouze pro přístup k funkci Document Intelligence vytvořte prostředek Document Intelligence. Upozorňujeme, že pokud máte v úmyslu používat ověřování Microsoft Entra, budete potřebovat prostředek s jednou službou.

Funkce Document Intelligence teď při přístupu k prostředkům Document Intelligence a účtům úložiště podporuje ověřování pomocí tokenu AAD navíc k místnímu ověřování (založenému na klíčích). Při nastavování správných přístupových rolí nezapomeňte postupovat podle následujících pokynů, zejména pokud se vaše prostředky použijí se DisableLocalAuth zásadami.

  • Přiřazení rolí Azure s odpovídajícím oborem pro analýzu dokumentů a předem připravené modely vyžadují následující přiřazení rolí pro různé scénáře.

    • Základní ✔️ uživatel služeb Cognitive Services: K zadání stránky analýzy potřebujete tuto roli k prostředku služby Document Intelligence nebo služeb Azure AI.

    • Pokročilý ✔️ přispěvatel: Tuto roli potřebujete k vytvoření skupiny prostředků, služby Document Intelligence nebo prostředku služeb Azure AI.

      Další informace o autorizaci najdete v tématu Zásady autorizace nástroje Document Intelligence Studio.

      Poznámka:

      Pokud je pro váš prostředek služby Document Intelligence zakázané místní ověřování (založené na klíčích), nezapomeňte získat roli uživatele služeb Cognitive Services a token AAD se použije k ověřování požadavků v nástroji Document Intelligence Studio. Role Přispěvatel umožňuje pouze vypsat klíče, ale neuděluje vám oprávnění k používání prostředku, pokud je přístup ke klíči zakázaný.

  • Jakmile je váš prostředek nakonfigurovaný, můžete vyzkoušet různé modely nabízené nástrojem Document Intelligence Studio. Na úvodní stránce vyberte libovolný model Document Intelligence a zkuste ho použít bez kódu.

  • Pokud chcete otestovat některou z analýz dokumentů nebo předem vytvořených modelů, vyberte model a použijte jeden z ukázkových dokumentů nebo nahrajte vlastní dokument k analýze. Výsledek analýzy se zobrazí vpravo v okně s kódem content-result.

  • Vlastní modely je potřeba vytrénovat na dokumentech. Přehled vlastních modelů najdete v přehledu vlastních modelů.

Ověřování

Přejděte do sady Document Intelligence Studio. Pokud se přihlašujete poprvé, zobrazí se automaticky otevírané okno s výzvou ke konfiguraci prostředku služby. V souladu se zásadami vaší organizace máte jednu nebo dvě možnosti:

  • Ověřování Microsoft Entra: přístup podle prostředku (doporučeno).

    • Zvolte své stávající předplatné.

    • Vyberte existující skupinu prostředků v rámci předplatného nebo vytvořte novou.

    • Vyberte existující prostředek Document Intelligence nebo služby Azure AI.

      Snímek obrazovky s formulářem pro konfiguraci prostředku služby v nástroji Document Intelligence Studio

  • Místní ověřování: přístup podle koncového bodu rozhraní API a klíče.

    • Načtěte svůj koncový bod a klíč z webu Azure Portal.

    • Přejděte na stránku přehledu vašeho prostředku a v levém navigačním panelu vyberte Klíče a koncový bod .

    • Zadejte hodnoty do příslušných polí.

      Snímek obrazovky se stránkou klíčů a koncového bodu na webu Azure Portal

  • Po ověření scénáře v sadě Document Intelligence Studio použijte klientské knihovny jazyka C#, Java, JavaScript nebo Python nebo rozhraní REST API, abyste mohli začít začlenit modely Document Intelligence do vlastních aplikací.

Další informace o jednotlivých modelech najdete na našich stránkách konceptů.

Zobrazení podrobností o prostředku

Pokud chcete zobrazit podrobnosti o prostředcích, jako je název a cenová úroveň, vyberte ikonu Nastavení v pravém horním rohu domovské stránky Aplikace Document Intelligence Studio a vyberte kartu Prostředek . Pokud máte přístup k jiným prostředkům, můžete také přepnout prostředky.

Modely

Předem připravené modely vám pomůžou přidat do aplikací funkce Document Intelligence, aniž byste museli vytvářet, trénovat a publikovat vlastní modely. Můžete si vybrat z několika předem připravených modelů, z nichž každá má svou vlastní sadu podporovaných datových polí. Volba modelu, který se má použít pro analyze operaci, závisí na typu dokumentu, který se má analyzovat. Funkce Document Intelligence v současné době podporuje následující předem připravené modely:

Analýza dokumentů

  • Rozložení: extrakce textu, tabulek, značek výběru a informací o struktuře z dokumentů (PDF, TIFF) a obrázků (JPG, PNG, BMP).
  • Čtení: extrahujte textové čáry, slova, jejich umístění, rozpoznané jazyky a ručně psaný styl, pokud jsou zjištěny z dokumentů (PDF, TIFF) a obrázků (JPG, PNG, BMP).

Předpřipravený

  • Faktura: extrakce textu, značek výběru, tabulek, párů klíč-hodnota a informací o klíčích z faktur.
  • Potvrzení: extrahujte z účtenek text a klíčové informace.
  • Zdravotní pojištění: extrahujte pojištění, člena, předpis, číslo skupiny a další klíčové informace z amerických zdravotních pojištění.
  • W-2: Extrahujte text a klíčové informace z daňových formulářů W-2.
  • Dokument s ID: extrahujte text a klíčové informace z řidičských licencí a mezinárodních pasů.

Vlastní

  • Vlastní modely extrakce: extrahujte informace z formulářů a dokumentů pomocí vlastních modelů extrakce. Rychle vytrénujte model tak, že označíte jenom pět ukázkových dokumentů.
  • Vlastní klasifikační model: Vytrénujte vlastní klasifikátor tak, aby rozlišoval mezi různými typy dokumentů v aplikacích. Rychle vytrénujte model s několika než dvěma třídami a pěti vzorky na třídu.

Po dokončení požadavků přejděte do nástroje Document Intelligence Studio.

  1. Na domovské stránce studia vyberte funkci služby Document Intelligence. Tento krok je jednorázový proces, pokud jste ještě nevybrali prostředek služby z předchozího použití. Vyberte své předplatné Azure, skupinu prostředků a prostředek. (Prostředky můžete kdykoli změnit v nastavení v horní nabídce.) Zkontrolujte a potvrďte výběry.

  2. Výběrem tlačítka Analyzovat spusťte analýzu v ukázkovém dokumentu nebo zkuste dokument pomocí příkazu Přidat.

  3. Přiblížení a oddálení, otočení zobrazení dokumentu a použití ovládacích prvků v dolní části obrazovky

  4. Podívejte se na zvýrazněný extrahovaný obsah v zobrazení dokumentu. Pokud chcete zobrazit podrobnosti, najeďte myší na klíče a hodnoty.

  5. Naformátujte kartu výsledků výstupního oddílu a projděte si výstup JSON, který vám pomůže porozumět odpovědi služby.

  6. Vyberte kartu Kód a projděte si ukázkový kód pro integraci. Začněte kopírováním a stahováním.

Přidání požadavků pro vlastní projekty

Kromě účtu Azure a prostředku služby Document Intelligence nebo azure AI potřebujete:

Kontejner Azure Blob Storage

Účet služby Azure Blob Storage úrovně Standard. Kontejnery vytvoříte pro ukládání a uspořádání trénovacích dokumentů v rámci účtu úložiště. Pokud nevíte, jak vytvořit účet úložiště Azure s kontejnerem, postupujte podle těchto rychlých startů:

  • Vytvoření účtu úložiště Při vytváření účtu úložiště nezapomeňte v poli Podrobnosti instance → Výkon vybrat výkon úrovně Standard.
  • Vytvořte kontejner. Při vytváření kontejneru nastavte pole Úrovně veřejného přístupu na Kontejner (anonymní přístup pro čtení kontejnerů a objektů blob) v okně Nový kontejner .

Přiřazení rolí Azure

Pro vlastní projekty jsou pro různé scénáře vyžadována následující přiřazení rolí.

  • Basic

    • Uživatel služeb Cognitive Services: Tuto roli potřebujete pro prostředek Document Intelligence nebo služby Azure AI k trénování vlastního modelu nebo analýze pomocí natrénovaných modelů.
    • Přispěvatel dat objektů blob úložiště: Pro účet úložiště potřebujete tuto roli k vytvoření projektu a označení dat.
  • Rozšířený

    • Přispěvatel účtu úložiště: Tuto roli potřebujete pro účet úložiště k nastavení CORS (tato akce je jednorázová, pokud se stejný účet úložiště znovu použije).
    • Přispěvatel: Tuto roli potřebujete k vytvoření skupiny prostředků a prostředků.

    Poznámka:

    Pokud je pro váš prostředek služby Document Intelligence a účet úložiště zakázané místní ověřování (založené na klíčích), ujistěte se, že získáte role Přispěvatel dat objektů blob služby Cognitive Services a Uživatelů služby Storage, abyste měli dostatečná oprávnění k používání nástroje Document Intelligence Studio. Role Přispěvatel a Přispěvatel účtu úložiště umožňují vypsat jenom klíče, ale neuděluje vám oprávnění používat prostředky, pokud je přístup k klíčům zakázaný.

Konfigurace CORS

CORS (sdílení prostředků mezi zdroji) musí být nakonfigurované ve vašem účtu úložiště Azure, aby byl přístupný z Document Intelligence Studia. Ke konfiguraci CORS na webu Azure Portal potřebujete přístup na kartu CORS vašeho účtu úložiště.

  1. Vyberte kartu CORS pro účet úložiště.

    Snímek obrazovky s nabídkou nastavení CORS na webu Azure Portal

  2. Začněte vytvořením nové položky CORS ve službě Blob Service.

  3. Nastavte povolený původ na https://documentintelligence.ai.azure.comhodnotu .

    Snímek obrazovky znázorňující konfiguraci CORS pro účet úložiště

    Tip

    Zástupný znak *můžete použít místo zadané domény, abyste umožnili všem počátečním doménám provádět žádosti prostřednictvím CORS.

  4. Vyberte všechny dostupné 8 možností pro povolené metody.

  5. Potvrďte všechna povolená záhlaví a vystavená záhlaví zadáním * do každého pole.

  6. Nastavte maximální věk na 120 sekund nebo libovolnou přijatelnou hodnotu.

  7. Pokud chcete změny uložit, vyberte tlačítko Uložit v horní části stránky.

CORS by teď mělo být nakonfigurované tak, aby používalo účet úložiště ze sady Document Intelligence Studio.

Sada ukázkových dokumentů

  1. Přihlaste se k webu Azure Portal a přejděte na Kontejnery úložiště>dat účtu>úložiště.

    Snímek obrazovky s nabídkou Úložiště dat na webu Azure Portal

  2. Ze seznamu vyberte kontejner.

  3. V nabídce v horní části stránky vyberte Nahrát .

    Snímek obrazovky s tlačítkem pro nahrání kontejneru na webu Azure Portal

  4. Zobrazí se okno Nahrát objekt blob .

  5. Vyberte soubory, které chcete nahrát.

    Snímek obrazovky s oknem nahrání objektu blob na webu Azure Portal

Poznámka:

Ve výchozím nastavení bude Studio používat dokumenty, které jsou umístěné v kořenovém adresáři kontejneru. Data uspořádaná do složek však můžete použít zadáním cesty ke složce v krocích vytvoření projektu vlastního formuláře. Viz Uspořádání dat v podsložkách.

Vlastní modely

Pokud chcete vytvořit vlastní modely, začněte konfigurací projektu:

  1. Vyberte kartu Vlastní model z domovské stránky Studio a otevřete stránku Vlastní modely.

  2. Použijte příkaz Vytvořit projekt a spusťte průvodce konfigurací nového projektu.

  3. Zadejte podrobnosti o projektu, vyberte předplatné a prostředek Azure a kontejner úložiště objektů blob Azure, který obsahuje vaše data.

  4. Zkontrolujte nastavení, odešlete a vytvořte projekt.

  5. Použijte funkci automatického popisku k označení pomocí již natrénovaného modelu nebo některého z našich předem připravených modelů.

  6. Definujte popisky a jejich typy pro extrakci pomocí ručního popisování.

  7. Vyberte text v dokumentu a v rozevíracím seznamu nebo podokně popisků vyberte popisek.

  8. Označit čtyři další dokumenty, abyste získali aspoň pět dokumentů s popiskem.

  9. Vyberte příkaz Trénovat a zadejte název modelu, vyberte, jestli chcete, aby neurální (doporučeno) nebo model šablony začal trénovat vlastní model.

  10. Jakmile je model připravený, použijte příkaz Test a ověřte ho pomocí testovacích dokumentů a sledujte výsledky.

Ukázka vlastního modelu Document Intelligence

Označení jako tabulky

Poznámka:

  • Ve verzi API verze 2022-06-30-preview a novějších verzích budou vlastní modely šablon přidávat podporu pro tabulková pole napříč stránkami (tabulky).
  • Ve verzi API verze 2022-06-30-preview a novějších verzích budou vlastní neurální modely podporovat tabulková pole (tabulky) a modely natrénované pomocí rozhraní API verze 2022-08-31 nebo novější budou přijímat popisky tabulkových polí.
  1. K odstranění modelů, které nejsou potřeba, použijte příkaz Odstranit.

  2. Stáhněte si podrobnosti o modelu pro zobrazení offline.

  3. Vyberte více modelů a vytvořte je do nového modelu, který se použije ve vašich aplikacích.

Použití tabulek jako vizuálního vzoru:

Pro vlastní modely formulářů při vytváření vlastních modelů možná budete muset extrahovat kolekce dat z dokumentů. Kolekce dat se můžou objevit v několika formátech. Použití tabulek jako vizuálního vzoru:

  • Dynamický nebo proměnný počet hodnot (řádků) pro danou sadu polí (sloupců)

  • Konkrétní kolekce hodnot pro danou sadu polí (sloupce nebo řádky)

Označení jako dynamická tabulka

Pomocí dynamických tabulek extrahujte počet hodnot (řádků) pro danou sadu polí (sloupců):

  1. Přidejte nový popisek typu Tabulka, vyberte typ Dynamická tabulka a pojmenujte ho.

  2. Přidejte požadovaný počet sloupců (polí) a řádků (pro data).

  3. Vyberte text na stránce a pak vyberte buňku a přiřaďte ji k textu. Opakujte pro všechny řádky a sloupce na všech stránkách ve všech dokumentech.

Příklad popisování funkce Document Intelligence jako dynamické tabulky

Označení jako pevná tabulka

Pomocí pevných tabulek extrahujte konkrétní kolekci hodnot pro danou sadu polí (sloupce nebo řádky):

  1. Vytvořte nový popisek typu Tabulka, vyberte typ Pevná tabulka a pojmenujte ho.

  2. Přidejte počet sloupců a řádků, které potřebujete odpovídající dvěma sadám polí.

  3. Vyberte text na stránce a pak vyberte buňku a přiřaďte ji k textu. Opakujte pro ostatní dokumenty.

Příklad popisování funkcí Document Intelligence jako opravených tabulek

Detekce podpisu

Poznámka:

Pole podpisů jsou v současné době podporována pouze pro vlastní modely šablon. Při trénování vlastního neurálního modelu se pole označených podpisů ignorují.

Označení pro detekci podpisu: (pouze vlastní formulář)

  1. Vytvořte nový popisek typu Podpis a pojmenujte ho pomocí zobrazení popisků.

  2. Pomocí příkazu Oblast vytvořte obdélníkovou oblast v očekávaném umístění podpisu.

  3. Vyberte nakreslenou oblast a zvolte popisek typu podpisu a přiřaďte ho k nakreslené oblasti. Opakujte pro ostatní dokumenty.

Příklad detekce podpisu pomocí popisků funkce Document Intelligence

Další kroky

  • Postupujte podle našeho průvodce migrací Document Intelligence v3.1 a seznamte se s rozdíly oproti předchozí verzi rozhraní REST API.
  • Prozkoumejte naše rychlé starty sady SDK v3.0 a vyzkoušejte funkce v3.0 ve vašich aplikacích pomocí nových klientských knihoven.
  • V našich rychlých startech k rozhraní REST API v3.0 si můžete vyzkoušet funkce v3.0 pomocí nového rozhraní REST API.

Začínáme se sadou Document Intelligence Studio