Model kontraktů Document Intelligence

Tento obsah se vztahuje na:checkmarkZaškrtnutí v4.0 (GA) | Předchozí verze:blue-checkmarkv3.1 (GA) :::moniker-end

Tento obsah se vztahuje na:checkmarkv3.1 (GA)Nejnovější verze:nachová značka zaškrtnutív4.0 (GA)

Model kontraktů Document Intelligence používá výkonné funkce optického rozpoznávání znaků (OCR) k analýze a extrakci klíčových polí a řádkových položek z vybrané skupiny důležitých entit kontraktu. Kontrakty můžou mít různé formáty a kvalitu, včetně obrázků zachycených telefonem, naskenovaných dokumentů a digitálních souborů PDF. Rozhraní API analyzuje text dokumentu; extrahuje klíčové informace, jako jsou strany, jurisdikce, ID smlouvy a titul; a vrátí strukturovanou reprezentaci dat JSON. Model v současné době podporuje formáty dokumentů v angličtině.

Automatizované zpracování kontraktů

Automatizované zpracování kontraktů je proces extrakce klíčových polí kontraktů z dokumentů. Proces analýzy kontraktů se historicky dosahuje ručně, a proto je velmi časově náročný. Přesná extrakce klíčových dat z kontraktů je obvykle první a jeden z nejdůležitějších kroků v procesu automatizace kontraktů.

Možnosti vývoje

Document Intelligence v4.0: 2024-11-30 (GA) podporuje následující nástroje, aplikace a knihovny:

Funkce Zdroje informací ID modelu
Model kontraktů Document Intelligence Studio


předem připravená smlouva

Document Intelligence v3.1 podporuje následující nástroje, aplikace a knihovny:

Funkce Zdroje informací ID modelu
Model kontraktů Document Intelligence Studio


předem připravená smlouva

Document Intelligence v3.0 podporuje následující nástroje, aplikace a knihovny:

Funkce Zdroje informací ID modelu
Model kontraktů Document Intelligence Studio


předem připravená smlouva

Požadavky na vstup

Podporují se následující formáty souborů.

Model soubor PDF Obrázek:
JPEG/JPG, PNG, BMP, TIFF, HEIF
Office:
Word (DOCX), Excel (XLSX), PowerPoint (PPTX), HTML
Čteno
Rozložení
Obecný dokument
Předpřipravený
Vlastní extrakce
Vlastní klasifikace
  • Fotky a skenování: Nejlepších výsledků dosáhnete tak, že poskytnete jednu jasnou fotku nebo vysoce kvalitní skenování na dokument.
  • SOUBORY PDF a TIFF: U souborů PDF a TIFF je možné zpracovat až 2 000 stránek. (S předplatným úrovně Free se zpracovávají pouze první dvě stránky.)
  • Velikost souboru: Velikost souboru pro analýzu dokumentů je 500 MB pro placenou úroveň (S0) a 4 MB pro bezplatnou úroveň (F0).
  • Rozměry obrázku: Rozměry musí být mezi 50 pixely x 50 pixelů a 10 000 pixelů x 10 000 pixelů.
  • Zámky hesel: Pokud jsou soubory PDF uzamčené heslem, musíte zámek před odesláním odebrat.
  • Výška textu: Minimální výška extrahovaného textu je 12 pixelů pro obrázek o velikosti 1024 x 768 pixelů. Tato velikost odpovídá přibližně textu s velikostí 8 bodů při 150 DPI.
  • Trénování vlastního modelu: Maximální počet stránek pro trénovací data je 500 pro vlastní model šablony a 50 000 pro vlastní neurální model.
  • Trénování vlastního modelu extrakce: Celková velikost trénovacích dat je 50 MB pro model šablony a 1 GB pro neurální model.
  • Trénování modelu vlastní klasifikace: Celková velikost trénovacích dat je 1 GB s maximálně 10 000 stránkami. V případě 2024-11-30 (GA) je celková velikost trénovacích dat 2 GB s maximálně 10 000 stránkami.
  • Typy souborů Office (DOCX, XLSX, PPTX):: Maximální limit délky řetězce je 8 milionů znaků.

Vyzkoušení extrakce dat dokumentu kontraktu

Podívejte se, jak se data, včetně informací o zákazníci, podrobností o dodavateli a řádkových položek, extrahují ze smluv. Potřebujete následující zdroje informací:

  • Předplatné Azure – můžete si ho zdarma vytvořit.

  • Instance Document Intelligence na webu Azure Portal K vyzkoušení služby můžete použít cenovou úroveň Free (F0). Po nasazení prostředku vyberte Přejít k prostředku a získejte klíč a koncový bod.

Snímek obrazovky s klíči a umístěním koncového bodu na webu Azure Portal

Document Intelligence Studio

  1. Na domovské stránce nástroje Document Intelligence Studio vyberte Daňové doklady.

  2. Můžete analyzovat ukázkové daňové doklady nebo nahrát vlastní soubory.

  3. Vyberte tlačítko Spustit analýzu a v případě potřeby nakonfigurujte možnosti Analyzovat:

    Snímek obrazovky s tlačítky Možnosti Spustit analýzu a Analýza v nástroji Document Intelligence Studio

Podporované jazyky a národní prostředí

Úplný seznam podporovaných jazyků najdete na naší stránce Jazykové podpory – předem připravené modely .

Extrakce polí

  • Podporovaná pole pro extrakci dokumentů najdete na stránce schématu modelu kontraktu v našem ukázkovém úložišti GitHubu.

  • Páry klíč-hodnota kontraktu a extrahované řádkové položky jsou v documentResults části výstupu JSON.

Další kroky