Možnosti doplňku Document Intelligence
Důležité
- Verze Document Intelligence ve verzi Public Preview poskytují dřívější přístup k funkcím, které jsou aktivní ve vývoji.
- Funkce, přístupy a procesy se můžou před obecnou dostupností (GA) změnit na základě zpětné vazby uživatelů.
- Verze Public Preview klientských knihoven Document Intelligence ve výchozím nastavení je rest API verze 2024-02-29-preview.
- Verze Public Preview 2024-02-29-preview je aktuálně dostupná jenom v následujících oblastech Azure:
- USA – východ
- USA – západ 2
- Západní Evropa
Tento obsah se vztahuje na:v4.0 (Preview) | Předchozí verze:v3.1 (GA)
Tento obsah se vztahuje na:v3.1 (GA) | Nejnovější verze:v4.0 (Preview)
Poznámka:
Možnosti doplňků jsou dostupné ve všech modelech s výjimkou modelu vizitky.
Funkce Document Intelligence podporuje sofistikovanější a modulární možnosti analýzy. Pomocí funkcí doplňku můžete výsledky rozšířit tak, aby zahrnovaly další funkce extrahované z dokumentů. Za některé funkce doplňku se účtují další náklady. Tyto volitelné funkce je možné povolit a zakázat v závislosti na scénáři extrakce dokumentů. Pokud chcete funkci povolit, přidejte název přidružené funkce do features
vlastnosti řetězce dotazu. V požadavku můžete povolit více než jednu funkci doplňku tak, že poskytnete seznam funkcí oddělených čárkami. Následující možnosti doplňku jsou k dispozici pro 2023-07-31 (GA)
a novější verze.
Poznámka:
Všechny funkce doplňku nejsou podporovány všemi modely. Další informace najdete v tématuextrakce dat modelu.
Pro a novější verze jsou k dispozici2024-02-29-preview
2024-02-29-preview
následující možnosti doplňku:
Poznámka:
Implementace polí dotazu v rozhraní API verze 2023-10-30-Preview se liší od poslední verze Preview. Nová implementace je levnější a dobře funguje se strukturovanými dokumenty.
Funkce doplňku | Doplněk nebo zdarma | 2024-02-29-preview | 2023-07-31 (GA) |
2022-08-31 (GA) |
v2.1 (GA) |
---|---|---|---|---|---|
Extrakce vlastností písma | Doplněk | ✔️ | ✔️ | Není k dispozici | Není k dispozici |
Extrakce vzorců | Doplněk | ✔️ | ✔️ | Není k dispozici | Není k dispozici |
Extrakce s vysokým rozlišením | Doplněk | ✔️ | ✔️ | Není k dispozici | Není k dispozici |
Extrakce čárových kódů | Bezplatný | ✔️ | ✔️ | Není k dispozici | Není k dispozici |
Rozpoznávání jazyka | Bezplatný | ✔️ | ✔️ | Není k dispozici | Není k dispozici |
Páry klíč-hodnota | Bezplatný | ✔️ | Není k dispozici | – | Není k dispozici |
Pole dotazu | Doplněk* | ✔️ | Není k dispozici | – | Není k dispozici |
Add-On* – Pole dotazu se za ceny liší od ostatních funkcí doplňku. Podrobnosti najdete na stránce s cenami .
Extrakce s vysokým rozlišením
Úkolem rozpoznání malého textu z rozsáhlých dokumentů, jako jsou technické výkresy, je výzva. Text je často smíšený s jinými grafickými prvky a má různá písma, velikosti a orientace. Kromě toho lze text rozdělit do samostatných částí nebo spojit s jinými symboly. Funkce Document Intelligence teď podporuje extrakci obsahu z těchto typů dokumentů s ocr.highResolution
možností. Díky povolení této možnosti doplňku získáte lepší kvalitu extrakce obsahu z dokumentů A1/A2/A3.
REST API
{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=ocrHighResolution
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=ocrHighResolution
Extrakce vzorců
Funkce ocr.formula
extrahuje všechny identifikované vzorce, jako jsou matematické rovnice, v formulas
kolekci jako objekt nejvyšší úrovně v části content
. Uvnitř content
, zjištěné vzorce jsou reprezentovány jako :formula:
. Každá položka v této kolekci představuje vzorec, který obsahuje typ vzorce jako inline
nebo display
a jeho reprezentaci LaTeX stejně jako value
souřadnice polygon
. Na začátku se vzorce zobrazí na konci každé stránky.
Poznámka:
Skóre confidence
je pevně zakódované.
"content": ":formula:",
"pages": [
{
"pageNumber": 1,
"formulas": [
{
"kind": "inline",
"value": "\\frac { \\partial a } { \\partial b }",
"polygon": [...],
"span": {...},
"confidence": 0.99
},
{
"kind": "display",
"value": "y = a \\times b + a \\times c",
"polygon": [...],
"span": {...},
"confidence": 0.99
}
]
}
]
REST API
{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=formulas
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=formulas
Extrakce vlastností písma
Funkce ocr.font
extrahuje všechny vlastnosti písma textu extrahovaného v kolekci jako objekt nejvyšší úrovně v styles
části content
. Každý objekt stylu určuje jednu vlastnost písma, rozsah textu, na který se vztahuje, a odpovídající skóre spolehlivosti. Existující vlastnost stylu je rozšířena o další vlastnosti písma, například similarFontFamily
pro písmo textu, pro styly, fontStyle
jako je kurzíva a normální, pro tučné nebo normální, color
fontWeight
pro barvu textu a backgroundColor
barvu ohraničujícího pole textu.
"content": "Foo bar",
"styles": [
{
"similarFontFamily": "Arial, sans-serif",
"spans": [ { "offset": 0, "length": 3 } ],
"confidence": 0.98
},
{
"similarFontFamily": "Times New Roman, serif",
"spans": [ { "offset": 4, "length": 3 } ],
"confidence": 0.98
},
{
"fontStyle": "italic",
"spans": [ { "offset": 1, "length": 2 } ],
"confidence": 0.98
},
{
"fontWeight": "bold",
"spans": [ { "offset": 2, "length": 3 } ],
"confidence": 0.98
},
{
"color": "#FF0000",
"spans": [ { "offset": 4, "length": 2 } ],
"confidence": 0.98
},
{
"backgroundColor": "#00FF00",
"spans": [ { "offset": 5, "length": 2 } ],
"confidence": 0.98
}
]
REST API
{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=styleFont
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=styleFont
Extrakce vlastností čárového kódu
Funkce ocr.barcode
extrahuje všechny identifikované čárové kódy v kolekci jako objekt nejvyšší úrovně v barcodes
části content
. content
Uvnitř , zjištěné čárové kódy jsou reprezentovány jako :barcode:
. Každá položka v této kolekci představuje čárový kód a zahrnuje typ čárového kódu jako kind
a vložený obsah čárového kódu spolu value
s jeho polygon
souřadnicemi. Na začátku se na konci každé stránky zobrazí čárové kódy. Kód confidence
je pevně zakódován jako 1.
Podporované typy čárových kódů
Typ čárového kódu | Příklad |
---|---|
QR Code |
|
Code 39 |
|
Code 93 |
|
Code 128 |
|
UPC (UPC-A & UPC-E) |
|
PDF417 |
|
EAN-8 |
|
EAN-13 |
|
Codabar |
|
Databar |
|
Databar Rozšířené |
|
ITF |
|
Data Matrix |
REST API
{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=barcodes
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=barcodes
Rozpoznávání jazyka
languages
Přidání funkce do analyzeResult
požadavku předpovídá rozpoznaný primární jazyk pro každý řádek textu spolu s textem confidence
v kolekci languages
v části analyzeResult
.
"languages": [
{
"spans": [
{
"offset": 0,
"length": 131
}
],
"locale": "en",
"confidence": 0.7
},
]
REST API
{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=languages
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=languages
Páry klíč-hodnota
Ve starších verzích rozhraní API model předem sestaveného dokumentu extrahovali páry klíč-hodnota z formulářů a dokumentů. S přidáním keyValuePairs
funkce k předem sestaveným rozložením teď model rozložení vytvoří stejné výsledky.
Páry klíč-hodnota jsou specifické rozsahy v dokumentu, které identifikují popisek nebo klíč a jeho přidruženou odpověď nebo hodnotu. Ve strukturovaném formuláři můžou být tyto páry popiskem a hodnotou, kterou uživatel zadal pro toto pole. V nestrukturovaném dokumentu můžou být datum, kdy byla smlouva provedena na základě textu v odstavci. Model AI se vytrénuje tak, aby extrahovala identifikovatelné klíče a hodnoty na základě široké škály typů dokumentů, formátů a struktur.
Klíče mohou existovat také izolovaně, když model zjistí, že klíč existuje, bez přidružené hodnoty nebo při zpracování volitelných polí. Například pole s prostředním názvem může být v některých případech prázdné ve formuláři. Páry klíč-hodnota jsou rozsahy textu obsaženého v dokumentu. U dokumentů, ve kterých je stejná hodnota popsaná různými způsoby, například zákazník/uživatel, je přidruženým klíčem zákazník nebo uživatel (na základě kontextu).
REST API
{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=keyValuePairs
Pole dotazu
Pole dotazů jsou doplňkovou funkcí pro rozšíření schématu extrahovaného z libovolného předem vytvořeného modelu nebo definování konkrétního názvu klíče, pokud je název klíče proměnný. Pokud chcete použít pole dotazu, nastavte funkce tak, aby queryFields
ve vlastnosti poskytovaly čárkami oddělený seznam názvů queryFields
polí.
Funkce Document Intelligence teď podporuje extrakce polí dotazu. Pomocí extrakce polí dotazu můžete do procesu extrakce přidat pole pomocí požadavku na dotaz, aniž by bylo potřeba přidat trénování.
Pole dotazu použijte v případě, že potřebujete rozšířit schéma předem vytvořeného nebo vlastního modelu nebo potřebujete extrahovat několik polí s výstupem rozložení.
Pole dotazů jsou funkce doplňku Premium. Nejlepších výsledků dosáhnete tak, že definujete pole, která chcete extrahovat pomocí názvů polí velbloudí nebo Pascal pro názvy polí s více slovy.
Pole dotazu podporují maximálně 20 polí na požadavek. Pokud dokument obsahuje hodnotu pole, vrátí se pole a hodnota.
Tato verze obsahuje novou implementaci schopností polí dotazů, která má nižší cenu než předchozí implementace, a měla by být ověřena.
Poznámka:
Extrakce polí dotazu Document Intelligence Studio je aktuálně dostupná s rozhraním API rozložení a předem připravenými modely 2024-02-29-preview
2023-10-31-preview
a novějšími verzemi s výjimkou US tax
modelů (W2, 1098s a 1099s).
Extrakce polí dotazu
Pro extrakci polí dotazu zadejte pole, která chcete extrahovat, a funkce Document Intelligence dokument odpovídajícím způsobem analyzuje. Tady je příklad:
Pokud zpracováváte kontrakt v nástroji Document Intelligence Studio, použijte tyto
2024-02-29-preview
verze2023-10-31-preview
:Můžete předat seznam popisků polí, jako
Party1
je ,Party2
,TermsOfUse
PaymentTerms
,PaymentDate
, aTermEndDate
jako součástanalyze document
požadavku.Funkce Document Intelligence dokáže analyzovat a extrahovat data polí a vracet hodnoty ve strukturovaném výstupu JSON.
Kromě polí dotazu odpověď zahrnuje text, tabulky, značky výběru a další relevantní data.
REST API
{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=queryFields&queryFields=TERMS
Další kroky
Další informace: Čtení modelu rozložení modelu
Ukázky sady SDK: Python