Možnosti doplňku Document Intelligence

Důležité

  • Verze Document Intelligence ve verzi Public Preview poskytují dřívější přístup k funkcím, které jsou aktivní ve vývoji.
  • Funkce, přístupy a procesy se můžou před obecnou dostupností (GA) změnit na základě zpětné vazby uživatelů.
  • Verze Public Preview klientských knihoven Document Intelligence ve výchozím nastavení je rest API verze 2024-02-29-preview.
  • Verze Public Preview 2024-02-29-preview je aktuálně dostupná jenom v následujících oblastech Azure:
  • USA – východ
  • USA – západ 2
  • Západní Evropa

Tento obsah se vztahuje na:Zaškrtnutív4.0 (Preview) | Předchozí verze:modrá značka zaškrtnutív3.1 (GA)

Tento obsah se vztahuje na:Zaškrtnutív3.1 (GA) | Nejnovější verze:nachová značka zaškrtnutív4.0 (Preview)

Poznámka:

Možnosti doplňků jsou dostupné ve všech modelech s výjimkou modelu vizitky.

Funkce Document Intelligence podporuje sofistikovanější a modulární možnosti analýzy. Pomocí funkcí doplňku můžete výsledky rozšířit tak, aby zahrnovaly další funkce extrahované z dokumentů. Za některé funkce doplňku se účtují další náklady. Tyto volitelné funkce je možné povolit a zakázat v závislosti na scénáři extrakce dokumentů. Pokud chcete funkci povolit, přidejte název přidružené funkce do features vlastnosti řetězce dotazu. V požadavku můžete povolit více než jednu funkci doplňku tak, že poskytnete seznam funkcí oddělených čárkami. Následující možnosti doplňku jsou k dispozici pro 2023-07-31 (GA) a novější verze.

Poznámka:

Všechny funkce doplňku nejsou podporovány všemi modely. Další informace najdete v tématuextrakce dat modelu.

Pro a novější verze jsou k dispozici2024-02-29-preview2024-02-29-preview následující možnosti doplňku:

Poznámka:

Implementace polí dotazu v rozhraní API verze 2023-10-30-Preview se liší od poslední verze Preview. Nová implementace je levnější a dobře funguje se strukturovanými dokumenty.

Funkce doplňku Doplněk nebo zdarma 2024-02-29-preview 2023-07-31 (GA) 2022-08-31 (GA) v2.1 (GA)
Extrakce vlastností písma Doplněk ✔️ ✔️ Není k dispozici Není k dispozici
Extrakce vzorců Doplněk ✔️ ✔️ Není k dispozici Není k dispozici
Extrakce s vysokým rozlišením Doplněk ✔️ ✔️ Není k dispozici Není k dispozici
Extrakce čárových kódů Bezplatný ✔️ ✔️ Není k dispozici Není k dispozici
Rozpoznávání jazyka Bezplatný ✔️ ✔️ Není k dispozici Není k dispozici
Páry klíč-hodnota Bezplatný ✔️ Není k dispozici Není k dispozici
Pole dotazu Doplněk* ✔️ Není k dispozici Není k dispozici

Add-On* – Pole dotazu se za ceny liší od ostatních funkcí doplňku. Podrobnosti najdete na stránce s cenami .

Extrakce s vysokým rozlišením

Úkolem rozpoznání malého textu z rozsáhlých dokumentů, jako jsou technické výkresy, je výzva. Text je často smíšený s jinými grafickými prvky a má různá písma, velikosti a orientace. Kromě toho lze text rozdělit do samostatných částí nebo spojit s jinými symboly. Funkce Document Intelligence teď podporuje extrakci obsahu z těchto typů dokumentů s ocr.highResolution možností. Díky povolení této možnosti doplňku získáte lepší kvalitu extrakce obsahu z dokumentů A1/A2/A3.

REST API

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=ocrHighResolution
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=ocrHighResolution

Extrakce vzorců

Funkce ocr.formula extrahuje všechny identifikované vzorce, jako jsou matematické rovnice, v formulas kolekci jako objekt nejvyšší úrovně v části content. Uvnitř content, zjištěné vzorce jsou reprezentovány jako :formula:. Každá položka v této kolekci představuje vzorec, který obsahuje typ vzorce jako inline nebo displaya jeho reprezentaci LaTeX stejně jako value souřadnice polygon . Na začátku se vzorce zobrazí na konci každé stránky.

Poznámka:

Skóre confidence je pevně zakódované.

"content": ":formula:",
  "pages": [
    {
      "pageNumber": 1,
      "formulas": [
        {
          "kind": "inline",
          "value": "\\frac { \\partial a } { \\partial b }",
          "polygon": [...],
          "span": {...},
          "confidence": 0.99
        },
        {
          "kind": "display",
          "value": "y = a \\times b + a \\times c",
          "polygon": [...],
          "span": {...},
          "confidence": 0.99
        }
      ]
    }
  ]

REST API

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=formulas
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=formulas

Extrakce vlastností písma

Funkce ocr.font extrahuje všechny vlastnosti písma textu extrahovaného v kolekci jako objekt nejvyšší úrovně v styles části content. Každý objekt stylu určuje jednu vlastnost písma, rozsah textu, na který se vztahuje, a odpovídající skóre spolehlivosti. Existující vlastnost stylu je rozšířena o další vlastnosti písma, například similarFontFamily pro písmo textu, pro styly, fontStyle jako je kurzíva a normální, pro tučné nebo normální, colorfontWeight pro barvu textu a backgroundColor barvu ohraničujícího pole textu.

"content": "Foo bar",
"styles": [
    {
      "similarFontFamily": "Arial, sans-serif",
      "spans": [ { "offset": 0, "length": 3 } ],
      "confidence": 0.98
    },
    {
      "similarFontFamily": "Times New Roman, serif",
      "spans": [ { "offset": 4, "length": 3 } ],
      "confidence": 0.98
    },
    {
      "fontStyle": "italic",
      "spans": [ { "offset": 1, "length": 2 } ],
      "confidence": 0.98
    },
    {
      "fontWeight": "bold",
      "spans": [ { "offset": 2, "length": 3 } ],
      "confidence": 0.98
    },
    {
      "color": "#FF0000",
      "spans": [ { "offset": 4, "length": 2 } ],
      "confidence": 0.98
    },
    {
      "backgroundColor": "#00FF00",
      "spans": [ { "offset": 5, "length": 2 } ],
      "confidence": 0.98
    }
  ]

REST API

  {your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=styleFont
  {your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=styleFont

Extrakce vlastností čárového kódu

Funkce ocr.barcode extrahuje všechny identifikované čárové kódy v kolekci jako objekt nejvyšší úrovně v barcodes části content. contentUvnitř , zjištěné čárové kódy jsou reprezentovány jako :barcode:. Každá položka v této kolekci představuje čárový kód a zahrnuje typ čárového kódu jako kind a vložený obsah čárového kódu spolu value s jeho polygon souřadnicemi. Na začátku se na konci každé stránky zobrazí čárové kódy. Kód confidence je pevně zakódován jako 1.

Podporované typy čárových kódů

Typ čárového kódu Příklad
QR Code Snímek obrazovky s kódem QR
Code 39 Snímek obrazovky s kódem 39
Code 93 Snímek obrazovky s kódem 93
Code 128 Snímek obrazovky s kódem 128
UPC (UPC-A & UPC-E) Snímek obrazovky upC
PDF417 Snímek obrazovky s PDF417
EAN-8 Snímek obrazovky s čárovým kódem číslo evropského článku ean-8
EAN-13 Snímek obrazovky s čárovým kódem evropského článku ean-13
Codabar Snímek obrazovky s panelem Codabar
Databar Snímek obrazovky s datovým pruhem
Databar Rozšířené Snímek obrazovky s rozbaleným datovým pruhem
ITF Snímek obrazovky s prokládáním dvou z pěti čárových kódů (ITF).
Data Matrix Snímek obrazovky s datovou maticí

REST API

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=barcodes
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=barcodes

Rozpoznávání jazyka

languages Přidání funkce do analyzeResult požadavku předpovídá rozpoznaný primární jazyk pro každý řádek textu spolu s textem confidence v kolekci languages v části analyzeResult.

"languages": [
    {
        "spans": [
            {
                "offset": 0,
                "length": 131
            }
        ],
        "locale": "en",
        "confidence": 0.7
    },
]

REST API

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=languages
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=languages

Páry klíč-hodnota

Ve starších verzích rozhraní API model předem sestaveného dokumentu extrahovali páry klíč-hodnota z formulářů a dokumentů. S přidáním keyValuePairs funkce k předem sestaveným rozložením teď model rozložení vytvoří stejné výsledky.

Páry klíč-hodnota jsou specifické rozsahy v dokumentu, které identifikují popisek nebo klíč a jeho přidruženou odpověď nebo hodnotu. Ve strukturovaném formuláři můžou být tyto páry popiskem a hodnotou, kterou uživatel zadal pro toto pole. V nestrukturovaném dokumentu můžou být datum, kdy byla smlouva provedena na základě textu v odstavci. Model AI se vytrénuje tak, aby extrahovala identifikovatelné klíče a hodnoty na základě široké škály typů dokumentů, formátů a struktur.

Klíče mohou existovat také izolovaně, když model zjistí, že klíč existuje, bez přidružené hodnoty nebo při zpracování volitelných polí. Například pole s prostředním názvem může být v některých případech prázdné ve formuláři. Páry klíč-hodnota jsou rozsahy textu obsaženého v dokumentu. U dokumentů, ve kterých je stejná hodnota popsaná různými způsoby, například zákazník/uživatel, je přidruženým klíčem zákazník nebo uživatel (na základě kontextu).

REST API

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=keyValuePairs

Pole dotazu

Pole dotazů jsou doplňkovou funkcí pro rozšíření schématu extrahovaného z libovolného předem vytvořeného modelu nebo definování konkrétního názvu klíče, pokud je název klíče proměnný. Pokud chcete použít pole dotazu, nastavte funkce tak, aby queryFields ve vlastnosti poskytovaly čárkami oddělený seznam názvů queryFields polí.

  • Funkce Document Intelligence teď podporuje extrakce polí dotazu. Pomocí extrakce polí dotazu můžete do procesu extrakce přidat pole pomocí požadavku na dotaz, aniž by bylo potřeba přidat trénování.

  • Pole dotazu použijte v případě, že potřebujete rozšířit schéma předem vytvořeného nebo vlastního modelu nebo potřebujete extrahovat několik polí s výstupem rozložení.

  • Pole dotazů jsou funkce doplňku Premium. Nejlepších výsledků dosáhnete tak, že definujete pole, která chcete extrahovat pomocí názvů polí velbloudí nebo Pascal pro názvy polí s více slovy.

  • Pole dotazu podporují maximálně 20 polí na požadavek. Pokud dokument obsahuje hodnotu pole, vrátí se pole a hodnota.

  • Tato verze obsahuje novou implementaci schopností polí dotazů, která má nižší cenu než předchozí implementace, a měla by být ověřena.

Poznámka:

Extrakce polí dotazu Document Intelligence Studio je aktuálně dostupná s rozhraním API rozložení a předem připravenými modely 2024-02-29-preview2023-10-31-preview a novějšími verzemi s výjimkou US tax modelů (W2, 1098s a 1099s).

Extrakce polí dotazu

Pro extrakci polí dotazu zadejte pole, která chcete extrahovat, a funkce Document Intelligence dokument odpovídajícím způsobem analyzuje. Tady je příklad:

  • Pokud zpracováváte kontrakt v nástroji Document Intelligence Studio, použijte tyto 2024-02-29-preview verze 2023-10-31-preview :

    Snímek obrazovky s tlačítkem pole dotazu v nástroji Document Intelligence Studio

  • Můžete předat seznam popisků polí, jako Party1je , Party2, TermsOfUsePaymentTerms, PaymentDate, a TermEndDate jako součást analyze document požadavku.

    Snímek obrazovky s oknem výběru polí dotazu v nástroji Document Intelligence Studio

  • Funkce Document Intelligence dokáže analyzovat a extrahovat data polí a vracet hodnoty ve strukturovaném výstupu JSON.

  • Kromě polí dotazu odpověď zahrnuje text, tabulky, značky výběru a další relevantní data.

REST API

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=queryFields&queryFields=TERMS

Další kroky

Ukázky sady SDK: Python