A Dokumentumintelligencia bővítmény képességei

Fontos

  • A Document Intelligence nyilvános előzetes verziójú kiadásai korai hozzáférést biztosítanak az aktív fejlesztés alatt lévő funkciókhoz.
  • A funkciók, a megközelítések és a folyamatok az általános rendelkezésre állás (GA) előtt változhatnak a felhasználói visszajelzések alapján.
  • A Document Intelligence ügyfélkódtárak nyilvános előzetes verziója alapértelmezés szerint a REST API 2024-02-29-preview verziója.
  • A nyilvános előzetes verzió 2024-02-29 előzetes verziója jelenleg csak a következő Azure-régiókban érhető el:
  • USA keleti régiója
  • USA2 nyugati régiója
  • Nyugat-Európa

Ez a tartalom a következőre vonatkozik::Sakkv4.0 (előzetes verzió) | Korábbi verziók:kék pipav3.1 (GA)

Ez a tartalom a következőre vonatkozik::Sakkv3.1 (GA) | Legújabb verzió:lila pipav4.0 (előzetes verzió)

Feljegyzés

A bővítmények a névjegykártya-modell kivételével minden modellben elérhetők.

A Dokumentumintelligencia kifinomultabb és modulárisabb elemzési képességeket támogat. A bővítményfunkciókkal kibővítheti az eredményeket, hogy további, a dokumentumokból kinyert funkciókat is tartalmazzon. Egyes bővítményfunkciók többletköltséggel járnak. Ezek az opcionális funkciók a dokumentum kinyerésének forgatókönyvétől függően engedélyezhetők és letilthatók. A szolgáltatás engedélyezéséhez adja hozzá a társított szolgáltatásnevet a lekérdezési sztring features tulajdonsághoz. Egy kérelemben több bővítmény funkciót is engedélyezhet vesszővel tagolt funkciók listájának megadásával. A következő bővítményfunkciók érhetők el a későbbi és újabb kiadásokhoz 2023-07-31 (GA) .

Feljegyzés

Az összes modell nem minden bővítményfunkciót támogat. További információ: modelladatok kinyerése.

A következő bővítményfunkciók érhetők el a 2024-02-29-previewkésőbbi és újabb kiadásokhoz2024-02-29-preview:

Feljegyzés

A lekérdezésmezők implementációja a 2023-10-30 előzetes verziójú API-ban eltér a legutóbbi előzetes verziótól. Az új implementáció kevésbé költséges, és jól működik a strukturált dokumentumokkal.

Bővítmény képessége Bővítmény/ingyenes 2024-02-29-preview 2023-07-31 (GA) 2022-08-31 (GA) v2.1 (GA)
Betűtípustulajdonságok kinyerése Összead ✔️ ✔️ n.a. n.a.
Képlet kinyerése Összead ✔️ ✔️ n.a. n.a.
Nagy felbontású kinyerés Összead ✔️ ✔️ n.a. n.a.
Vonalkód kinyerése Ingyenes ✔️ ✔️ n.a. n.a.
Nyelvfelismerés Ingyenes ✔️ ✔️ n.a. n.a.
Kulcsértékpárok Ingyenes ✔️ n.a. n.a. n.a.
Lekérdezési mezők Összead* ✔️ n.a. n.a. n.a.

Bővítmény* – A lekérdezésmezők ára eltér a többi bővítményfunkciótól. Részletekért tekintse meg a díjszabást .

Nagy felbontású kinyerés

A nagy méretű dokumentumokból, például a mérnöki rajzokból származó kis szövegek felismerése kihívást jelent. A szöveg gyakran keveredik más grafikus elemekkel, és különböző betűtípusokkal, méretekkel és tájolásokkal rendelkezik. Ezenkívül a szöveg külön részekre bontható, vagy más szimbólumokhoz is csatlakoztatható. A Dokumentumintelligencia mostantól támogatja a tartalom kinyerését az ilyen típusú dokumentumokból a ocr.highResolution képességgel. A bővítmény funkció engedélyezésével jobb minőségű tartalomkinyerést kaphat az A1/A2/A3-dokumentumokból.

REST API

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=ocrHighResolution
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=ocrHighResolution

Képlet kinyerése

A ocr.formula képesség kinyeri a gyűjteményben lévő összes azonosított képletet, például matematikai egyenletet, felső szintű objektumkéntcontent.formulas Belül contentaz észlelt képletek a következőképpen jelennek meg :formula:: . A gyűjtemény minden bejegyzése egy képletet jelöl, amely tartalmazza a képlettípust inline mint vagy display, és annak LaTeX-ábrázolása a value koordinátáival polygon együtt. Kezdetben a képletek az egyes lapok végén jelennek meg.

Feljegyzés

A confidence pontszám keményen kódolt.

"content": ":formula:",
  "pages": [
    {
      "pageNumber": 1,
      "formulas": [
        {
          "kind": "inline",
          "value": "\\frac { \\partial a } { \\partial b }",
          "polygon": [...],
          "span": {...},
          "confidence": 0.99
        },
        {
          "kind": "display",
          "value": "y = a \\times b + a \\times c",
          "polygon": [...],
          "span": {...},
          "confidence": 0.99
        }
      ]
    }
  ]

REST API

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=formulas
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=formulas

Betűtípustulajdonságok kinyerése

A ocr.font funkció a gyűjteményben kinyert szöveg összes betűtulajdonságát legfelső szintű objektumként contentnyeri ki.styles Minden stílusobjektum egyetlen betűtípustulajdonságot, a rá vonatkozó szöveget és annak megbízhatósági pontszámát adja meg. A meglévő stílustulajdonság további betűtípus-tulajdonságokkal bővül, például similarFontFamily a szöveg betűtípusa, fontStyle a dőlt és normál stílusok, a félkövér vagy normál stílusok fontWeight , color a szöveg színe és backgroundColor a szöveg határolókeretének színe.

"content": "Foo bar",
"styles": [
    {
      "similarFontFamily": "Arial, sans-serif",
      "spans": [ { "offset": 0, "length": 3 } ],
      "confidence": 0.98
    },
    {
      "similarFontFamily": "Times New Roman, serif",
      "spans": [ { "offset": 4, "length": 3 } ],
      "confidence": 0.98
    },
    {
      "fontStyle": "italic",
      "spans": [ { "offset": 1, "length": 2 } ],
      "confidence": 0.98
    },
    {
      "fontWeight": "bold",
      "spans": [ { "offset": 2, "length": 3 } ],
      "confidence": 0.98
    },
    {
      "color": "#FF0000",
      "spans": [ { "offset": 4, "length": 2 } ],
      "confidence": 0.98
    },
    {
      "backgroundColor": "#00FF00",
      "spans": [ { "offset": 5, "length": 2 } ],
      "confidence": 0.98
    }
  ]

REST API

  {your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=styleFont
  {your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=styleFont

Vonalkódtulajdonságok kinyerése

A ocr.barcode képesség kinyeri a gyűjteményben lévő összes azonosított vonalkódot legfelső szintű objektumkéntcontent.barcodes A rendszer az észlelt vonalkódokat a contentkövetkezőként :barcode:jeleníti meg: . A gyűjtemény minden bejegyzése egy vonalkódot jelöl, és tartalmazza a vonalkód típusát és kind a beágyazott vonalkód tartalmát value a koordinátáival polygon együtt. Kezdetben a vonalkódok az egyes oldalak végén jelennek meg. A confidence kód az 1-hez van beállítva.

Támogatott vonalkódtípusok

Vonalkód típusa Példa
QR Code Képernyőkép a QR-kódról.
Code 39 Képernyőkép a Code 39-ről.
Code 93 Képernyőkép a Code 93-ról.
Code 128 Képernyőkép a Code 128-ról.
UPC (UPC-A & UPC-E) Képernyőkép a UPC-ről.
PDF417 Képernyőkép a PDF417-ről.
EAN-8 Képernyőkép az ean-8 európai cikkszámú vonalkódról.
EAN-13 Képernyőkép az ean-13 európai cikkszámú vonalkódról.
Codabar Képernyőkép a Codabarról.
Databar Képernyőkép az adatsávról.
Databar Bővített Képernyőkép a Kibontott adatsávról.
ITF Képernyőkép az ötből kettő vonalkódról (ITF).
Data Matrix Képernyőkép az adatmátrixról.

REST API

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=barcodes
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=barcodes

Nyelvfelismerés

Ha hozzáadja a languages funkciót a analyzeResult kéréshez, az előrejelzi az észlelt elsődleges nyelvet az egyes szövegsorokhoz, valamint a languagesconfidence gyűjtemény alatt lévő analyzeResultnyelvhez.

"languages": [
    {
        "spans": [
            {
                "offset": 0,
                "length": 131
            }
        ],
        "locale": "en",
        "confidence": 0.7
    },
]

REST API

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=languages
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=languages

Kulcs-érték párok

A korábbi API-verziókban az előre összeállított dokumentummodell kulcs-érték párokat nyert ki űrlapokból és dokumentumokból. A funkció előre összeállított elrendezéshez való hozzáadásával keyValuePairs az elrendezési modell ugyanazokat az eredményeket hozza létre.

A kulcs-érték párok a dokumentum azon meghatározott tartományai, amelyek azonosítják a címkét vagy kulcsot, valamint a hozzá tartozó választ vagy értéket. Strukturált formában ezek a párok lehetnek az adott mezőhöz megadott címke és érték. Strukturálatlan dokumentumokban a szerződés végrehajtásának dátuma lehet egy bekezdés szövege alapján. Az AI-modell betanítása az azonosítható kulcsok és értékek kinyerésére a dokumentumtípusok, formátumok és struktúrák széles választéka alapján történik.

A kulcsok külön is létezhetnek, ha a modell észleli, hogy egy kulcs létezik, nincs hozzárendelt érték, vagy ha nem kötelező mezőket dolgoz fel. Előfordulhat például, hogy egy középső név mező üresen hagyható egy űrlapon egyes példányokban. A kulcs-érték párok a dokumentumban található szövegtartományok. Azokban a dokumentumokban, ahol ugyanazt az értéket különböző módokon írják le, például ügyfél/felhasználó, a társított kulcs ügyfél vagy felhasználó (környezet alapján).

REST API

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=keyValuePairs

Lekérdezésmezők

A lekérdezésmezők olyan bővítmények, amelyek kibővítik az előre összeállított modellből kinyert sémát, vagy meghatároznak egy adott kulcsnevet, ha a kulcs neve változó. A lekérdezésmezők használatához állítsa be a tulajdonságokat queryFields a tulajdonság mezőneveinek vesszővel tagolt listájára, és adja meg őket queryFields .

  • A Dokumentumintelligencia mostantól támogatja a lekérdezési mezők kinyeréseit. A lekérdezési mezők kinyerése során mezőket adhat hozzá az extrakciós folyamathoz egy lekérdezési kéréssel anélkül, hogy további betanításra van szükség.

  • Lekérdezésmezőket akkor használjon, ha ki kell terjesztenie egy előre összeállított vagy egyéni modell sémáját, vagy ki kell nyernie néhány mezőt az elrendezés kimenetével.

  • A lekérdezésmezők prémium szintű bővítmények. A legjobb eredmény érdekében adja meg a kinyerni kívánt mezőket teve- vagy Pascal-mezőnevek használatával a többszavas mezőnevekhez.

  • A lekérdezési mezők kérésenként legfeljebb 20 mezőt támogatnak. Ha a dokumentum a mező értékét tartalmazza, a rendszer visszaadja a mezőt és az értéket.

  • Ez a kiadás új implementációval rendelkezik a lekérdezésmezők funkcióhoz, amely alacsonyabb, mint a korábbi implementációé, és amelyet ellenőrizni kell.

Feljegyzés

A Document Intelligence Studio lekérdezésmező-kinyerése jelenleg az Layout és az Előre összeállított modellek 2024-02-29-preview2023-10-31-preview API-val érhető el, és a modellek (W2, 1098s és 1099s modellek) kivételével US tax újabb kiadásokban érhető el.

Lekérdezésmező kinyerése

A lekérdezési mezők kinyeréséhez adja meg a kinyerni kívánt mezőket, és a Dokumentumintelligencia ennek megfelelően elemzi a dokumentumot. Példa:

  • Ha a Document Intelligence Studióban dolgoz fel szerződést, használja a 2024-02-29-preview2023-10-31-preview következő verziókat:

    Képernyőkép a Document Intelligence Studio lekérdezésmezői gombjáról.

  • A kérelem részeként átadhatja az olyan mezőfeliratok listáját, mint Party1a , Party2, TermsOfUsePaymentDatePaymentTermsés TermEndDate a analyze document kérelem részeként.

    Képernyőkép a Lekérdezésmezők kijelölési ablakáról a Document Intelligence Studióban.

  • A Dokumentumintelligencia képes elemezni és kinyerni a mezőadatokat, és visszaadni az értékeket egy strukturált JSON-kimenetben.

  • A lekérdezési mezők mellett a válasz szövegeket, táblázatokat, kijelölési jeleket és egyéb releváns adatokat is tartalmaz.

REST API

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=queryFields&queryFields=TERMS

Következő lépések

További információ: Modellelrendezési modell olvasása

SDK-minták: python