A Dokumentumintelligencia bővítmény képességei
Fontos
- A Document Intelligence nyilvános előzetes verziójú kiadásai korai hozzáférést biztosítanak az aktív fejlesztés alatt lévő funkciókhoz.
- A funkciók, a megközelítések és a folyamatok az általános rendelkezésre állás (GA) előtt változhatnak a felhasználói visszajelzések alapján.
- A Document Intelligence ügyfélkódtárak nyilvános előzetes verziója alapértelmezés szerint a REST API 2024-02-29-preview verziója.
- A nyilvános előzetes verzió 2024-02-29 előzetes verziója jelenleg csak a következő Azure-régiókban érhető el:
- USA keleti régiója
- USA2 nyugati régiója
- Nyugat-Európa
Ez a tartalom a következőre vonatkozik::v4.0 (előzetes verzió) | Korábbi verziók:v3.1 (GA)
Ez a tartalom a következőre vonatkozik::v3.1 (GA) | Legújabb verzió:v4.0 (előzetes verzió)
Feljegyzés
A bővítmények a névjegykártya-modell kivételével minden modellben elérhetők.
Képességek
A Dokumentumintelligencia kifinomultabb és modulárisabb elemzési képességeket támogat. A bővítményfunkciókkal kibővítheti az eredményeket, hogy további, a dokumentumokból kinyert funkciókat is tartalmazzon. Egyes bővítményfunkciók többletköltséggel járnak. Ezek az opcionális funkciók a dokumentum kinyerésének forgatókönyvétől függően engedélyezhetők és letilthatók. A szolgáltatás engedélyezéséhez adja hozzá a társított szolgáltatásnevet a lekérdezési sztring features
tulajdonsághoz. Egy kérelemben több bővítmény funkciót is engedélyezhet vesszővel tagolt funkciók listájának megadásával. A következő bővítményfunkciók érhetők el a későbbi és újabb kiadásokhoz 2023-07-31 (GA)
.
Feljegyzés
Az összes modell nem minden bővítményfunkciót támogat. További információ: modelladatok kinyerése.
A következő bővítményfunkciók érhetők el a 2024-02-29-preview
későbbi és újabb kiadásokhoz2024-02-29-preview
:
Feljegyzés
A lekérdezésmezők implementációja a 2023-10-30 előzetes verziójú API-ban eltér a legutóbbi előzetes verziótól. Az új implementáció kevésbé költséges, és jól működik a strukturált dokumentumokkal.
Verzió rendelkezésre állása
Bővítmény képessége | Bővítmény/ingyenes | 2024-02-29-preview | 2023-07-31 (GA) |
2022-08-31 (GA) |
v2.1 (GA) |
---|---|---|---|---|---|
Betűtípustulajdonságok kinyerése | Összead | ✔️ | ✔️ | n.a. | n.a. |
Képlet kinyerése | Összead | ✔️ | ✔️ | n.a. | n.a. |
Nagy felbontású kinyerés | Összead | ✔️ | ✔️ | n.a. | n.a. |
Vonalkód kinyerése | Ingyenes | ✔️ | ✔️ | n.a. | n.a. |
Nyelvfelismerés | Ingyenes | ✔️ | ✔️ | n.a. | n.a. |
Kulcsértékpárok | Ingyenes | ✔️ | n.a. | n.a. | n.a. |
Lekérdezési mezők | Összead* | ✔️ | n.a. | n.a. | n.a. |
✱ Bővítmény – A lekérdezésmezők ára eltér a többi bővítményfunkciótól. Részletekért tekintse meg a díjszabást .
Támogatott fájlformátumok
PDF
Képek:
JPEG
/JPG
,PNG
,BMP
,TIFF
HEIF
✱ A Microsoft Office-fájlok jelenleg nem támogatottak.
Nagy felbontású kinyerés
A nagy méretű dokumentumokból, például a mérnöki rajzokból származó kis szövegek felismerése kihívást jelent. A szöveg gyakran keveredik más grafikus elemekkel, és különböző betűtípusokkal, méretekkel és tájolásokkal rendelkezik. Ezenkívül a szöveg külön részekre bontható, vagy más szimbólumokhoz is csatlakoztatható. A Dokumentumintelligencia mostantól támogatja a tartalom kinyerését az ilyen típusú dokumentumokból a ocr.highResolution
képességgel. A bővítmény funkció engedélyezésével jobb minőségű tartalomkinyerést kaphat az A1/A2/A3-dokumentumokból.
REST API
{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=ocrHighResolution
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=ocrHighResolution
Képlet kinyerése
A ocr.formula
képesség kinyeri a gyűjteményben lévő összes azonosított képletet, például matematikai egyenletet, felső szintű objektumkéntcontent
.formulas
Belül content
az észlelt képletek a következőképpen jelennek meg :formula:
: . A gyűjtemény minden bejegyzése egy képletet jelöl, amely tartalmazza a képlettípust inline
mint vagy display
, és annak LaTeX-ábrázolása a value
koordinátáival polygon
együtt. Kezdetben a képletek az egyes lapok végén jelennek meg.
Feljegyzés
A confidence
pontszám keményen kódolt.
"content": ":formula:",
"pages": [
{
"pageNumber": 1,
"formulas": [
{
"kind": "inline",
"value": "\\frac { \\partial a } { \\partial b }",
"polygon": [...],
"span": {...},
"confidence": 0.99
},
{
"kind": "display",
"value": "y = a \\times b + a \\times c",
"polygon": [...],
"span": {...},
"confidence": 0.99
}
]
}
]
REST API
{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=formulas
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=formulas
Betűtípustulajdonságok kinyerése
A ocr.font
funkció a gyűjteményben kinyert szöveg összes betűtulajdonságát legfelső szintű objektumként content
nyeri ki.styles
Minden stílusobjektum egyetlen betűtípustulajdonságot, a rá vonatkozó szöveget és annak megbízhatósági pontszámát adja meg. A meglévő stílustulajdonság további betűtípus-tulajdonságokkal bővül, például similarFontFamily
a szöveg betűtípusa, fontStyle
a dőlt és normál stílusok, a félkövér vagy normál stílusok fontWeight
, color
a szöveg színe és backgroundColor
a szöveg határolókeretének színe.
"content": "Foo bar",
"styles": [
{
"similarFontFamily": "Arial, sans-serif",
"spans": [ { "offset": 0, "length": 3 } ],
"confidence": 0.98
},
{
"similarFontFamily": "Times New Roman, serif",
"spans": [ { "offset": 4, "length": 3 } ],
"confidence": 0.98
},
{
"fontStyle": "italic",
"spans": [ { "offset": 1, "length": 2 } ],
"confidence": 0.98
},
{
"fontWeight": "bold",
"spans": [ { "offset": 2, "length": 3 } ],
"confidence": 0.98
},
{
"color": "#FF0000",
"spans": [ { "offset": 4, "length": 2 } ],
"confidence": 0.98
},
{
"backgroundColor": "#00FF00",
"spans": [ { "offset": 5, "length": 2 } ],
"confidence": 0.98
}
]
REST API
{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=styleFont
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=styleFont
Vonalkódtulajdonságok kinyerése
A ocr.barcode
képesség kinyeri a gyűjteményben lévő összes azonosított vonalkódot legfelső szintű objektumkéntcontent
.barcodes
A rendszer az észlelt vonalkódokat a content
következőként :barcode:
jeleníti meg: . A gyűjtemény minden bejegyzése egy vonalkódot jelöl, és tartalmazza a vonalkód típusát és kind
a beágyazott vonalkód tartalmát value
a koordinátáival polygon
együtt. Kezdetben a vonalkódok az egyes oldalak végén jelennek meg. A confidence
kód az 1-hez van beállítva.
Támogatott vonalkódtípusok
Vonalkód típusa | Példa |
---|---|
QR Code |
|
Code 39 |
|
Code 93 |
|
Code 128 |
|
UPC (UPC-A & UPC-E) |
|
PDF417 |
|
EAN-8 |
|
EAN-13 |
|
Codabar |
|
Databar |
|
Databar Bővített |
|
ITF |
|
Data Matrix |
REST API
{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=barcodes
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=barcodes
Nyelvfelismerés
Ha hozzáadja a languages
funkciót a analyzeResult
kéréshez, az előrejelzi az észlelt elsődleges nyelvet az egyes szövegsorokhoz, valamint a languages
confidence
gyűjtemény alatt lévő analyzeResult
nyelvhez.
"languages": [
{
"spans": [
{
"offset": 0,
"length": 131
}
],
"locale": "en",
"confidence": 0.7
},
]
REST API
{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=languages
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=languages
Kulcs-érték párok
A korábbi API-verziókban az előre összeállított dokumentummodell kulcs-érték párokat nyert ki űrlapokból és dokumentumokból. A funkció előre összeállított elrendezéshez való hozzáadásával keyValuePairs
az elrendezési modell ugyanazokat az eredményeket hozza létre.
A kulcs-érték párok a dokumentum azon meghatározott tartományai, amelyek azonosítják a címkét vagy kulcsot, valamint a hozzá tartozó választ vagy értéket. Strukturált formában ezek a párok lehetnek az adott mezőhöz megadott címke és érték. Strukturálatlan dokumentumokban a szerződés végrehajtásának dátuma lehet egy bekezdés szövege alapján. Az AI-modell betanítása az azonosítható kulcsok és értékek kinyerésére a dokumentumtípusok, formátumok és struktúrák széles választéka alapján történik.
A kulcsok külön is létezhetnek, ha a modell észleli, hogy egy kulcs létezik, nincs hozzárendelt érték, vagy ha nem kötelező mezőket dolgoz fel. Előfordulhat például, hogy egy középső név mező üresen hagyható egy űrlapon egyes példányokban. A kulcs-érték párok a dokumentumban található szövegtartományok. Azokban a dokumentumokban, ahol ugyanazt az értéket különböző módokon írják le, például ügyfél/felhasználó, a társított kulcs ügyfél vagy felhasználó (környezet alapján).
REST API
{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=keyValuePairs
Lekérdezésmezők
A lekérdezésmezők olyan bővítmények, amelyek kibővítik az előre összeállított modellből kinyert sémát, vagy meghatároznak egy adott kulcsnevet, ha a kulcs neve változó. A lekérdezésmezők használatához állítsa be a tulajdonságokat queryFields
a tulajdonság mezőneveinek vesszővel tagolt listájára, és adja meg őket queryFields
.
A Dokumentumintelligencia mostantól támogatja a lekérdezési mezők kinyeréseit. A lekérdezési mezők kinyerése során mezőket adhat hozzá az extrakciós folyamathoz egy lekérdezési kéréssel anélkül, hogy további betanításra van szükség.
Lekérdezésmezőket akkor használjon, ha ki kell terjesztenie egy előre összeállított vagy egyéni modell sémáját, vagy ki kell nyernie néhány mezőt az elrendezés kimenetével.
A lekérdezésmezők prémium szintű bővítmények. A legjobb eredmény érdekében adja meg a kinyerni kívánt mezőket teve- vagy Pascal-mezőnevek használatával a többszavas mezőnevekhez.
A lekérdezési mezők kérésenként legfeljebb 20 mezőt támogatnak. Ha a dokumentum a mező értékét tartalmazza, a rendszer visszaadja a mezőt és az értéket.
Ez a kiadás új implementációval rendelkezik a lekérdezésmezők funkcióhoz, amely alacsonyabb, mint a korábbi implementációé, és amelyet ellenőrizni kell.
Feljegyzés
A Document Intelligence Studio lekérdezésmező-kinyerése jelenleg az Layout és az Előre összeállított modellek 2024-02-29-preview
2023-10-31-preview
API-val érhető el, és a modellek (W2, 1098s és 1099s modellek) kivételével US tax
újabb kiadásokban érhető el.
Lekérdezésmező kinyerése
A lekérdezési mezők kinyeréséhez adja meg a kinyerni kívánt mezőket, és a Dokumentumintelligencia ennek megfelelően elemzi a dokumentumot. Példa:
Ha a Document Intelligence Studióban dolgoz fel szerződést, használja a
2024-02-29-preview
2023-10-31-preview
következő verziókat:A kérelem részeként átadhatja az olyan mezőfeliratok listáját, mint
Party1
a ,Party2
,TermsOfUse
PaymentDate
PaymentTerms
ésTermEndDate
aanalyze document
kérelem részeként.A Dokumentumintelligencia képes elemezni és kinyerni a mezőadatokat, és visszaadni az értékeket egy strukturált JSON-kimenetben.
A lekérdezési mezők mellett a válasz szövegeket, táblázatokat, kijelölési jeleket és egyéb releváns adatokat is tartalmaz.
REST API
{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=queryFields&queryFields=TERMS
Következő lépések
További információ: Modellelrendezési modell olvasása
SDK-minták: python