Model vlastních šablon Document Intelligence

Důležité

  • Verze Document Intelligence ve verzi Public Preview poskytují dřívější přístup k funkcím, které jsou aktivní ve vývoji.
  • Funkce, přístupy a procesy se můžou před obecnou dostupností (GA) změnit na základě zpětné vazby uživatelů.
  • Verze Public Preview klientských knihoven Document Intelligence ve výchozím nastavení je rest API verze 2024-02-29-preview.
  • Verze Public Preview 2024-02-29-preview je aktuálně dostupná jenom v následujících oblastech Azure:
  • USA – východ
  • USA – západ 2
  • Západní Evropa

Tento obsah se vztahuje na:Zaškrtnutív4.0 (Preview) | Předchozí verze:modrá značka zaškrtnutív3.1 (GA)modrá značka zaškrtnutív3.0 (GA)modrá značka zaškrtnutív2.1 (GA)

Tento obsah se vztahuje na:Zaškrtnutív3.1 (GA) | Nejnovější verze:nachová značka zaškrtnutív4.0 (Preview) | Předchozí verze:modrá značka zaškrtnutív3.0modrá značka zaškrtnutív2.1

Tento obsah se vztahuje na:Zaškrtnutív3.0 (GA) | Nejnovější verze:nachová značka zaškrtnutív4.0 (Preview)nachová značka zaškrtnutív3.1 | Předchozí verze:modrá značka zaškrtnutív2.1

Tento obsah se vztahuje na:Zaškrtnutív2.1 | Nejnovější verze:modrá značka zaškrtnutív4.0 (Preview)

Vlastní šablona (dříve vlastní formulář) je snadno natrénovaný model dokumentu, který z dokumentů přesně extrahuje páry klíč-hodnota s popiskem, značky výběru, tabulky, oblasti a podpisy. Modely šablon používají k extrakci hodnot z dokumentů pomůcky rozložení a jsou vhodné k extrakci polí z vysoce strukturovaných dokumentů s definovanými vizuálními šablonami.

Vlastní modely šablon sdílejí stejný formát a strategii popisování jako vlastní neurální modely s podporou více typů polí a jazyků.

Možnosti modelu

Vlastní modely šablon podporují páry klíč-hodnota, značky výběru, tabulky, pole podpisu a vybrané oblasti.

Pole formuláře Značky výběru Tabulková pole (tabulky) Podpis Vybrané oblasti
Podporováno Podporováno Podporováno Podporováno Podporováno

Tabulková pole

Ve verzi API verze 2022-06-30-preview a novějších verzích vlastní šablony přidají podporu pro tabulková pole napříč stránkami (tabulky):

  • Pokud chcete označit tabulku, která zahrnuje více stránek, označte každý řádek tabulky napříč různými stránkami v jedné tabulce.
  • Osvědčeným postupem je zajistit, aby vaše datová sada obsahovala několik ukázek očekávaných variant. Můžete například zahrnout ukázky, kde je celá tabulka na jedné stránce a kde tabulky pokrývají dvě nebo více stránek, pokud očekáváte, že se tyto varianty zobrazí v dokumentech.

Tabulková pole jsou užitečná také při extrahování opakujících se informací v dokumentu, který není rozpoznán jako tabulka. Například opakující se část pracovních zkušeností v životopisu může být označena a extrahována jako tabulkové pole.

Práce s variantami

Modely šablon spoléhají na definovanou vizuální šablonu, změny šablony mají za následek nižší přesnost. V těchto případech rozdělte trénovací datovou sadu tak, aby obsahovala aspoň pět ukázek každé šablony a vytrénuje model pro každou variantu. Modely pak můžete vytvořit do jednoho koncového bodu. U drobných variant, jako jsou digitální dokumenty PDF a obrázky, je nejlepší zahrnout alespoň pět příkladů každého typu do stejné trénovací datové sady.

Požadavky na vstup

  • Nejlepšíchvýsledkůch

  • Podporované formáty souborů:

    Model PDF Obrázek:
    JPEG/JPG, PNG, BMP, TIFF, HEIF
    systém Microsoft Office:
    Word (DOCX), Excel (XLSX), PowerPoint (PPTX) a HTML
    Čteno
    Rozložení ✔ (2024-02-29-preview, 2023-10-31-preview nebo novější)
    Obecný dokument
    Předpřipravený
    Vlastní

    ✱ systém Microsoft Office soubory nejsou v současné době podporovány pro jiné modely nebo verze.

  • U SOUBORŮ PDF a TIFF je možné zpracovat až 2000 stránek (s předplatným úrovně Free se zpracovávají pouze první dvě stránky).

  • Velikost souboru pro analýzu dokumentů je 500 MB pro placenou úroveň (S0) a 4 MB pro bezplatnou úroveň (F0).

  • Rozměry obrázku musí být mezi 50 x 50 pixelů a 10 000 px x 10 000 pixelů.

  • Pokud jsou soubory PDF uzamčené heslem, musíte před odesláním toto uzamčení odebrat.

  • Minimální výška extrahovaného textu je 12 pixelů pro obrázek o velikosti 1024 x 768 pixelů. Tato dimenze odpovídá 8150 bodům na palec (DPI).

  • Pro trénování vlastního modelu je maximální počet stránek pro trénovací data 500 pro vlastní model šablony a 50 000 pro vlastní neurální model.

  • Pro trénování vlastního modelu extrakce je celková velikost trénovacích dat 50 MB pro model šablony a 1G MB pro neurální model.

  • Pro trénování modelu vlastní klasifikace je 1GB celková velikost trénovacích dat s maximálně 10 000 stránkami.

Trénování modelu

Vlastní modely šablon jsou obecně dostupné s rozhraním API verze 4.0. Pokud začínáte s novým projektem nebo máte existující datovou sadu označenou jako datovou sadu, použijte rozhraní API v3.1 nebo v3.0 se sadou Document Intelligence Studio k trénování vlastního modelu šablony.

Model REST API Sada SDK Popisky a testovací modely
Vlastní šablona Rozhraní API v3.1 Document Intelligence SDK Document Intelligence Studio

S rozhraními API verze 3.0 a novějšími rozhraními API podporuje operace sestavení pro trénování modelu novou buildMode vlastnost, pro trénování vlastního modelu šablony buildMode nastavte na templatehodnotu .

https://{endpoint}/documentintelligence/documentModels:build?api-version=2024-02-29-preview

{
  "modelId": "string",
  "description": "string",
  "buildMode": "template",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}

Vlastní modely šablon jsou obecně dostupné s rozhraním API verze 3.1. Pokud začínáte s novým projektem nebo máte existující datovou sadu označenou jako datovou sadu, použijte rozhraní API v3.1 nebo v3.0 se sadou Document Intelligence Studio k trénování vlastního modelu šablony.

Model REST API Sada SDK Popisky a testovací modely
Vlastní šablona Rozhraní API v3.1 Document Intelligence SDK Document Intelligence Studio

S rozhraními API verze 3.0 a novějšími rozhraními API podporuje operace sestavení pro trénování modelu novou buildMode vlastnost, pro trénování vlastního modelu šablony buildMode nastavte na templatehodnotu .

https://{endpoint}/formrecognizer/documentModels:build?api-version=2023-07-31

{
  "modelId": "string",
  "description": "string",
  "buildMode": "template",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}

Podporované jazyky a národní prostředí

Úplný seznam podporovaných jazyků najdete na naší stránce podpory jazyků – vlastní modely .

Vlastní modely (šablony) jsou obecně dostupné s rozhraním API verze 2.1.

Model REST API Sada SDK Popisky a testovací modely
Vlastní model (šablona) Document Intelligence 2.1 Document Intelligence SDK Nástroj pro popisování ukázka funkce Document Intelligence

Další kroky

Naučte se vytvářet a vytvářet vlastní modely: