Sdílet prostřednictvím


Možnosti doplňku Document Intelligence

Důležité

  • Verze Document Intelligence ve verzi Public Preview poskytují dřívější přístup k funkcím, které jsou aktivní ve vývoji. Funkce, přístupy a procesy se můžou před obecnou dostupností (GA) změnit na základě zpětné vazby uživatelů.
  • Verze Public Preview klientských knihoven Document Intelligence je výchozí pro rozhraní REST API verze 2024-07-31-preview.
  • Verze Public Preview 2024-07-31-preview je aktuálně dostupná jenom v následujících oblastech Azure. Všimněte si, že vlastní model generování (extrakce polí dokumentu) v AI Studiu je k dispozici pouze v oblasti USA – středosever:
    • USA – východ
    • USA – západ 2
    • Západní Evropa
    • USA – středosever

Tento obsah se vztahuje na:Zaškrtnutí v4.0 (Preview) | Předchozí verze: modrá značka zaškrtnutí v3.1 (GA)

Tento obsah se vztahuje na:Zaškrtnutí v3.1 (GA) | Nejnovější verze: nachová značka zaškrtnutí v4.0 (Preview)

Poznámka:

Možnosti doplňků jsou dostupné ve všech modelech s výjimkou modelu vizitky.

Možnosti

Funkce Document Intelligence podporuje sofistikovanější a modulární možnosti analýzy. Pomocí funkcí doplňku můžete výsledky rozšířit tak, aby zahrnovaly další funkce extrahované z dokumentů. Za některé funkce doplňku se účtují další náklady. Tyto volitelné funkce je možné povolit a zakázat v závislosti na scénáři extrakce dokumentů. Pokud chcete funkci povolit, přidejte název přidružené funkce do features vlastnosti řetězce dotazu. V požadavku můžete povolit více než jednu funkci doplňku tak, že poskytnete seznam funkcí oddělených čárkami. Následující možnosti doplňku jsou k dispozici pro 2023-07-31 (GA) a novější verze.

Pro 2024-07-31-preview vydání a novější model pro čtení podporuje prohledávatelný výstup PDF:

Poznámka:

  • Všechny funkce doplňku nejsou podporovány všemi modely. Další informace najdete v tématu extrakce dat modelu.

  • Možnosti doplňků se v současné době nepodporují pro typy souborů systém Microsoft Office.

Funkce Document Intelligence podporuje volitelné funkce, které je možné povolit a zakázat v závislosti na scénáři extrakce dokumentů. Pro a novější verze jsou k dispozici 2023-10-31-previewnásledující možnosti doplňku:

Poznámka:

Implementace polí dotazu v rozhraní API verze 2023-10-30-Preview se liší od poslední verze Preview. Nová implementace je levnější a dobře funguje se strukturovanými dokumenty.

Dostupnost verzí

Funkce doplňku Doplněk nebo zdarma 2024-02-29-preview 2023-07-31 (GA) 2022-08-31 (GA) v2.1 (GA)
Extrakce vlastností písma Doplněk ✔️ ✔️ Není k dispozici Není k dispozici
Extrakce vzorců Doplněk ✔️ ✔️ Není k dispozici Není k dispozici
Extrakce s vysokým rozlišením Doplněk ✔️ ✔️ Není k dispozici Není k dispozici
Extrakce čárových kódů Bezplatný ✔️ ✔️ Není k dispozici Není k dispozici
Rozpoznávání jazyka Bezplatný ✔️ ✔️ Není k dispozici Není k dispozici
Páry klíč-hodnota Bezplatný ✔️ Není k dispozici Není k dispozici
Pole dotazu Doplněk* ✔️ Není k dispozici Není k dispozici

✱ Doplňky – Pole dotazu se za ceny liší od ostatních funkcí doplňku. Podrobnosti najdete na stránce s cenami .

Podporované formáty souborů

  • PDF

  • Obrázky: JPEG/JPG, PNG, BMP, TIFFHEIF

✱ systém Microsoft Office soubory se v současné době nepodporují.

Extrakce s vysokým rozlišením

Úkolem rozpoznání malého textu z rozsáhlých dokumentů, jako jsou technické výkresy, je výzva. Text je často smíšený s jinými grafickými prvky a má různá písma, velikosti a orientace. Kromě toho lze text rozdělit do samostatných částí nebo spojit s jinými symboly. Funkce Document Intelligence teď podporuje extrakci obsahu z těchto typů dokumentů s ocr.highResolution možností. Díky povolení této možnosti doplňku získáte lepší kvalitu extrakce obsahu z dokumentů A1/A2/A3.

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=ocrHighResolution
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=ocrHighResolution

Extrakce vzorců

Funkce ocr.formula extrahuje všechny identifikované vzorce, jako jsou matematické rovnice, v formulas kolekci jako objekt nejvyšší úrovně v části content. Uvnitř content, zjištěné vzorce jsou reprezentovány jako :formula:. Každá položka v této kolekci představuje vzorec, který obsahuje typ vzorce jako inline nebo displaya jeho reprezentaci LaTeX stejně jako value souřadnice polygon . Na začátku se vzorce zobrazí na konci každé stránky.

Poznámka:

Skóre confidence je pevně zakódované.

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=formulas
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=formulas

Extrakce vlastností písma

Funkce ocr.font extrahuje všechny vlastnosti písma textu extrahovaného v kolekci jako objekt nejvyšší úrovně v styles části content. Každý objekt stylu určuje jednu vlastnost písma, rozsah textu, na který se vztahuje, a odpovídající skóre spolehlivosti. Existující vlastnost stylu je rozšířena o další vlastnosti písma, například similarFontFamily pro písmo textu, pro styly, fontStyle jako je kurzíva a normální, pro tučné nebo normální, color fontWeight pro barvu textu a backgroundColor barvu ohraničujícího pole textu.

  {your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=styleFont
  {your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=styleFont

Extrakce vlastností čárového kódu

Funkce ocr.barcode extrahuje všechny identifikované čárové kódy v kolekci jako objekt nejvyšší úrovně v barcodes části content. contentUvnitř , zjištěné čárové kódy jsou reprezentovány jako :barcode:. Každá položka v této kolekci představuje čárový kód a zahrnuje typ čárového kódu jako kind a vložený obsah čárového kódu spolu value s jeho polygon souřadnicemi. Na začátku se na konci každé stránky zobrazí čárové kódy. Kód confidence je pevně zakódován jako 1.

Podporované typy čárových kódů

Typ čárového kódu Příklad
QR Code Snímek obrazovky s kódem QR
Code 39 Snímek obrazovky s kódem 39
Code 93 Snímek obrazovky s kódem 93
Code 128 Snímek obrazovky s kódem 128
UPC (UPC-A & UPC-E) Snímek obrazovky upC
PDF417 Snímek obrazovky s PDF417
EAN-8 Snímek obrazovky s čárovým kódem číslo evropského článku ean-8
EAN-13 Snímek obrazovky s čárovým kódem evropského článku ean-13
Codabar Snímek obrazovky s panelem Codabar
Databar Snímek obrazovky s datovým pruhem
Databar Rozšířený Snímek obrazovky s rozbaleným datovým pruhem
ITF Snímek obrazovky s prokládáním dvou z pěti čárových kódů (ITF).
Data Matrix Snímek obrazovky s datovou maticí
{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=barcodes
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=barcodes

Rozpoznávání jazyka

languages Přidání funkce do analyzeResult požadavku předpovídá rozpoznaný primární jazyk pro každý řádek textu spolu s textem confidence v kolekci languages v části analyzeResult.

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=languages
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=languages

Prohledávatelný SOUBOR PDF

Funkce prohledávatelného PDF umožňuje převést analogové SOUBORY PDF, jako jsou naskenované soubory PDF, do PDF s vloženým textem. Vložený text umožňuje hloubkové vyhledávání textu v extrahovaném obsahu PDF tak, že překryjí zjištěné textové entity nad soubory obrázků.

Důležité

  • V současné době je prohledávatelná funkce PDF podporována pouze pro čtení modelu prebuilt-readOCR . Při použití této funkce zadejte modelId jako prebuilt-read, protože jiné typy modelů vrátí chybu pro tuto verzi Preview.
  • Prohledávatelný SOUBOR PDF je součástí modelu 2024-07-31-preview prebuilt-read bez nákladů na využití pro obecnou spotřebu PDF.

Použití prohledávatelného PDF

Pokud chcete použít prohledávatelný SOUBOR PDF, vytvořte POST požadavek pomocí Analyze operace a zadejte výstupní formát takto pdf:


POST /documentModels/prebuilt-read:analyze?output=pdf
{...}
202

Analyze Po dokončení operace vytvořte GET požadavek na načtení Analyze výsledků operace.

Po úspěšném dokončení lze soubor PDF načíst a stáhnout jako application/pdf. Tato operace umožňuje přímé stažení vloženého textového formátu PDF místo formátu JSON s kódováním Base64.


// Monitor the operation until completion.
GET /documentModels/prebuilt-read/analyzeResults/{resultId}
200
{...}

// Upon successful completion, retrieve the PDF as application/pdf.
GET /documentModels/prebuilt-read/analyzeResults/{resultId}/pdf
200 OK
Content-Type: application/pdf

Páry klíč-hodnota

V dřívějších verzích prebuilt-document rozhraní API model extrahovali páry klíč-hodnota z formulářů a dokumentů. S přidáním keyValuePairs funkce k předem sestaveným rozložením teď model rozložení vytvoří stejné výsledky.

Páry klíč-hodnota jsou specifické rozsahy v dokumentu, které identifikují popisek nebo klíč a jeho přidruženou odpověď nebo hodnotu. Ve strukturovaném formuláři můžou být tyto páry popiskem a hodnotou, kterou uživatel zadal pro toto pole. V nestrukturovaném dokumentu můžou být datum, kdy byla smlouva provedena na základě textu v odstavci. Model AI se vytrénuje tak, aby extrahovala identifikovatelné klíče a hodnoty na základě široké škály typů dokumentů, formátů a struktur.

Klíče mohou existovat také izolovaně, když model zjistí, že klíč existuje, bez přidružené hodnoty nebo při zpracování volitelných polí. Například pole s prostředním názvem může být v některých případech prázdné ve formuláři. Páry klíč-hodnota jsou rozsahy textu obsaženého v dokumentu. U dokumentů, ve kterých je stejná hodnota popsaná různými způsoby, například zákazník/uživatel, je přidruženým klíčem zákazník nebo uživatel (na základě kontextu).

REST API

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=keyValuePairs

Pole dotazu

Pole dotazů jsou doplňkovou funkcí pro rozšíření schématu extrahovaného z libovolného předem vytvořeného modelu nebo definování konkrétního názvu klíče, pokud je název klíče proměnný. Pokud chcete použít pole dotazu, nastavte funkce tak, aby queryFields ve vlastnosti poskytovaly čárkami oddělený seznam názvů queryFields polí.

  • Funkce Document Intelligence teď podporuje extrakce polí dotazu. Pomocí extrakce polí dotazu můžete do procesu extrakce přidat pole pomocí požadavku na dotaz, aniž by bylo potřeba přidat trénování.

  • Pole dotazu použijte v případě, že potřebujete rozšířit schéma předem vytvořeného nebo vlastního modelu nebo potřebujete extrahovat několik polí s výstupem rozložení.

  • Pole dotazů jsou funkce doplňku Premium. Nejlepších výsledků dosáhnete tak, že definujete pole, která chcete extrahovat pomocí názvů polí velbloudí nebo Pascal pro názvy polí s více slovy.

  • Pole dotazu podporují maximálně 20 polí na požadavek. Pokud dokument obsahuje hodnotu pole, vrátí se pole a hodnota.

  • Tato verze obsahuje novou implementaci schopností polí dotazů, která má nižší cenu než předchozí implementace, a měla by být ověřena.

Poznámka:

Extrakce polí dotazu Document Intelligence Studio je aktuálně dostupná s rozhraním API rozložení a předem připravenými modely 2024-02-29-preview 2023-10-31-preview a novějšími verzemi s výjimkou US tax modelů (W2, 1098s a 1099s).

Extrakce polí dotazu

Pro extrakci polí dotazu zadejte pole, která chcete extrahovat, a funkce Document Intelligence dokument odpovídajícím způsobem analyzuje. Tady je příklad:

  • Pokud zpracováváte kontrakt v nástroji Document Intelligence Studio, použijte tyto 2024-02-29-preview verze 2023-10-31-preview :

    Snímek obrazovky s tlačítkem pole dotazu v nástroji Document Intelligence Studio

  • Můžete předat seznam popisků polí, jako Party1je , Party2, TermsOfUsePaymentTerms, PaymentDate, a TermEndDate jako součást analyze document požadavku.

    Snímek obrazovky s oknem výběru polí dotazu v nástroji Document Intelligence Studio

  • Funkce Document Intelligence dokáže analyzovat a extrahovat data polí a vracet hodnoty ve strukturovaném výstupu JSON.

  • Kromě polí dotazu odpověď zahrnuje text, tabulky, značky výběru a další relevantní data.

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=queryFields&queryFields=TERMS

Další kroky

Ukázky sady SDK: Python

Najít další ukázky: Možnosti doplňku

Najít další ukázky: Možnosti doplňku