Dokument Intelligenz-Add-On-Funktionen

Artikel
03/19/2024

Wichtig

Public Preview-Releases von Dokument Intelligenz bieten frühzeitigen Zugriff auf Features, die sich in der aktiven Entwicklung befinden.
Features, Ansätze und Prozesse können sich aufgrund von Benutzerfeedback vor der allgemeinen Verfügbarkeit (General Availability, GA) ändern.
Die öffentliche Vorschauversion der Clientbibliotheken für Dokument-Intelligence ist standardmäßig die REST-API-Version 2024-02-29-preview.
Öffentliche Vorschauversion 2024-02-29-preview ist derzeit nur in den folgenden Azure-Regionen verfügbar:
USA, Osten
USA, Westen 2
Europa, Westen

Dieser Inhalt gilt für:v4.0 (Vorschau) | Vorherige Versionen:v3.1 (allgemein verfügbar)

Dieser Inhalt gilt für:v3.1 (GA) | Aktuelle Version:v4.0 (Vorschau)

Hinweis

Add-On-Funktionen sind in allen Modellen mit Ausnahme des Modells für Visitenkarten verfügbar.

Document Intelligence unterstützt auch anspruchsvollere und modulare Analysefunktionen. Verwenden Sie die Add-on-Funktionen, um die Ergebnisse um weitere Features aus Ihren Dokumenten zu erweitern. Einige Add-On-Features verursachen zusätzliche Kosten. Diese optionalen Funktionen können je nach Szenario der Dokumentextrahierung aktiviert und deaktiviert werden. Um ein Feature zu aktivieren, fügen Sie der Abfragezeichenfolgeneigenschaft features den zugehörigen Featurenamen hinzu. Sie können mehr als ein Add-On-Feature auf einer Anforderung aktivieren, indem Sie eine durch Trennzeichen getrennte Liste der Features bereitstellen. Die folgenden Add-On-Funktionen sind für 2023-07-31 (GA) und höhere Versionen verfügbar:

ocrHighResolution
formulas
styleFont
barcodes
languages

Hinweis

Nicht alle Add-On-Funktionen werden von allen Modellen unterstützt. Weitere Informationen finden Sie unterExtrahieren von Modelldaten.

Die folgenden Add-On-Funktionen sind für 2024-02-29-preview, 2024-02-29-preview und höhere Versionen verfügbar:

keyValuePairs
queryFields

Hinweis

Die Implementierung von Abfragefeldern in der 2023-10-30-Vorschau-API unterscheidet sich von der letzten Vorschauversion. Die neue Implementierung ist kostengünstiger und funktioniert gut mit strukturierten Dokumenten.

Add-On-Funktion	Add-On/Free	2024-02-29-preview	`2023-07-31` (GA)	`2022-08-31` (GA)	v2.1 (GA)
Extraktion von Schrifteigenschaften	Add-On	✔️	✔️	–	–
Formelextraktion	Add-On	✔️	✔️	–	–
Hochauflösende Extraktion	Add-On	✔️	✔️	–	–
Barcodeextraktion	Kostenlos	✔️	✔️	–	–
Sprachenerkennung	Kostenlos	✔️	✔️	–	–
Schlüssel-Wert-Paare	Kostenlos	✔️	–	n/v	–
Abfragefelder	Add-On*	✔️	–	n/v	–

Add-On*: Abfragefelder werden anders berechnet als die anderen Add-On-Features. Weitere Informationen finden Sie unter Preise.

Hochauflösende Extraktion

Die Aufgabe, kleine Texte in großformatigen Dokumenten wie technischen Zeichnungen zu erkennen, ist eine Herausforderung. Häufig ist der Text mit anderen grafischen Elementen gemischt und weist unterschiedliche Schriftarten, Größen und Ausrichtungen auf. Darüber hinaus kann der Text in separate Teile unterteilt oder mit anderen Symbolen verbunden sein. Dokument Intelligenz unterstützt jetzt das Extrahieren von Inhalten aus diesen Dokumenttypen mit der ocr.highResolution-Funktion. Sie erhalten eine verbesserte Qualität der Inhaltsextraktion aus A1/A2/A3-Dokumenten, wenn Sie diese Add-On-Funktion aktivieren.

REST-API

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=ocrHighResolution

{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=ocrHighResolution

Formelextraktion

Die Funktion ocr.formula extrahiert alle identifizierten Formeln, z. B. mathematische Formeln, in der Auflistung formulas als Objekt der obersten Ebene unter content. In content werden erkannte Formeln als :formula: dargestellt. Jeder Eintrag in dieser Auflistung stellt eine Formel dar, die den Formeltyp als inline oder display und seine LaTeX-Darstellung als value zusammen mit seinen polygon-Koordinaten enthält. Anfangs werden am Ende jeder Seite Formeln angezeigt.

Hinweis

Der Score confidence ist hartcodiert.

"content": ":formula:",
  "pages": [
    {
      "pageNumber": 1,
      "formulas": [
        {
          "kind": "inline",
          "value": "\\frac { \\partial a } { \\partial b }",
          "polygon": [...],
          "span": {...},
          "confidence": 0.99
        },
        {
          "kind": "display",
          "value": "y = a \\times b + a \\times c",
          "polygon": [...],
          "span": {...},
          "confidence": 0.99
        }
      ]
    }
  ]

REST-API

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=formulas

{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=formulas

Extraktion von Schrifteigenschaften

Die Funktion ocr.font extrahiert alle Schrifteigenschaften des in der Auflistung styles extrahierten Texts als Objekt der obersten Ebene unter content. Jedes Stilobjekt gibt eine einzelne Schrifteigenschaft, die Textspanne, für die es gilt, und die entsprechende Konfidenzbewertung an. Die vorhandene Stileigenschaft wird um weitere Schrifteigenschaften erweitert, z. B. similarFontFamily für die Schriftart des Texts, fontStyle für Stile wie kursiv und normal, fontWeight für fett oder normal, color für die Farbe des Texts und backgroundColor für die Farbe des Textbegrenzungsrahmens.

"content": "Foo bar",
"styles": [
    {
      "similarFontFamily": "Arial, sans-serif",
      "spans": [ { "offset": 0, "length": 3 } ],
      "confidence": 0.98
    },
    {
      "similarFontFamily": "Times New Roman, serif",
      "spans": [ { "offset": 4, "length": 3 } ],
      "confidence": 0.98
    },
    {
      "fontStyle": "italic",
      "spans": [ { "offset": 1, "length": 2 } ],
      "confidence": 0.98
    },
    {
      "fontWeight": "bold",
      "spans": [ { "offset": 2, "length": 3 } ],
      "confidence": 0.98
    },
    {
      "color": "#FF0000",
      "spans": [ { "offset": 4, "length": 2 } ],
      "confidence": 0.98
    },
    {
      "backgroundColor": "#00FF00",
      "spans": [ { "offset": 5, "length": 2 } ],
      "confidence": 0.98
    }
  ]

REST-API

  {your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=styleFont

  {your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=styleFont

Extrahieren von Barcodeeigenschaften

Die Funktion ocr.barcode extrahiert alle identifizierten Barcodes in der Sammlung barcodes als Objekt der obersten Ebene unter content. Innerhalb von content werden erkannte Barcodes als :barcode: dargestellt. Jeder Eintrag in dieser Sammlung stellt einen Barcode dar und enthält den Barcodetyp als kind und den eingebetteten Barcodeinhalt als value zusammen mit seinen polygon-Koordinaten. Anfangs werden am Ende jeder Seite Barcodes angezeigt. confidence ist als 1 hartcodiert.

Unterstützte Barcodetypen

Barcodetyp	Beispiel
`QR Code`
`Code 39`
`Code 93`
`Code 128`
`UPC (UPC-A & UPC-E)`
`PDF417`
`EAN-8`
`EAN-13`
`Codabar`
`Databar`
`Databar` erweitert
`ITF`
`Data Matrix`

REST-API

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=barcodes

{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=barcodes

Sprachenerkennung

Durch Hinzufügen des languages-Features an die analyzeResult-Anforderung wird die primäre Sprachen für jede Textzeile vorher, zusammen mit dem confidence-Wert in der languages-Sammlung unter analyzeResult.

"languages": [
    {
        "spans": [
            {
                "offset": 0,
                "length": 131
            }
        ],
        "locale": "en",
        "confidence": 0.7
    },
]

REST-API

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=languages

{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=languages

Schlüssel-Werte-Paare

In früheren API-Versionen hat das vorgefertigte Dokumentmodell Schlüssel-Wert-Paare aus Formularen und Dokumenten extrahiert. Mit dem Hinzufügen des keyValuePairs-Features zum vordefinierten Layout erzeugt das Layoutmodell jetzt dieselben Ergebnisse.

Schlüssel-Wert-Paare sind bestimmte Bereiche innerhalb des Dokuments, die eine Beschriftung oder einen Schlüssel und die zugehörige Antwort oder den zugehörigen Wert identifizieren. In einem strukturierten Formular könnten diese Paare die Beschriftung und der Wert sein, die der Benutzer für dieses Feld eingegeben hat. In einem unstrukturierten Dokument kann es sich um das Datum handeln, an dem ein Vertrag basierend auf dem Text in einem Absatz erfüllt wurde. Das KI-Modell wird trainiert, um identifizierbare Schlüssel und Werte basierend auf einer Vielzahl von Dokumenttypen, Formaten und Strukturen zu extrahieren.

Schlüssel können auch isoliert existieren, wenn das Modell feststellt, dass ein Schlüssel ohne zugehörigen Wert vorhanden ist, oder wenn optionale Felder verarbeitet werden. Beispielsweise kann ein Feld für den zweiten Vornamen in einigen Fällen in einem Formular leer gelassen werden. Schlüssel-Wert-Paare sind Textabschnitte, die im Dokument enthalten sind. Bei Dokumenten, in denen derselbe Wert auf unterschiedliche Weise beschrieben wird, z. B. Kunde/Benutzer, ist der zugehörige Schlüssel entweder Kunde oder Benutzer (je nach Kontext).

REST-API

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=keyValuePairs

Abfragefelder

Abfragefelder sind eine Add-On-Funktion, um das Schema zu erweitern, das aus einem vordefinierten Modell extrahiert wurde, oder um einen bestimmten Schlüsselnamen zu definieren, wenn der Schlüsselname variable ist. Wenn Sie Abfragefelder verwenden möchten, legen Sie die Features auf queryFields fest, und stellen Sie eine durch Trennzeichen getrennte Liste von Feldnamen in der Eigenschaft queryFields bereit.

Document Intelligence unterstützt jetzt Abfragefeldextraktionen. Mit der Abfragefeldextraktion können Sie dem Extraktionsprozess Felder mithilfe einer Abfrageanforderung hinzufügen, ohne dass ein zusätzliches Training erforderlich ist.
Verwenden Sie Abfragefelder, wenn Sie das Schema eines vordefinierten oder benutzerdefinierten Modells erweitern oder einige Felder mit der Ausgabe des Layouts extrahieren müssen.
Abfragefelder sind eine Premium-Add-On-Funktion. Die besten Ergebnisse erzielen Sie, wenn Sie die Felder, die Sie extrahieren möchten, unter Verwendung von Feldnamen in Camel-Case- oder Pascal-Schreibweise für Feldnamen mit mehreren Wörtern definieren.
Abfragefelder unterstützen maximal 20 Felder pro Anforderung. Wenn das Dokument einen Wert für das Feld enthält, werden das Feld und der Wert zurückgegeben.
Diese Version enthält eine neue Implementierung der Abfragefeldfunktion, die preisgünstiger ist als die frühere Implementierung und validiert werden sollte.

Hinweis

Die Abfragefeldextraktion von Document Intelligence Studio ist derzeit mit den Modellen Layout und Prebuilt verfügbar, beginnend mit der 2024-02-29-preview2023-10-31-preview-API und späteren Versionen mit Ausnahme der US tax-Modelle (W2, 1098s und 1099s).

Extraktion von Abfragefeldern

Geben Sie für die Abfragefeldextraktion die Felder an, die Sie extrahieren möchten, und Dokument Intelligenz analysiert das Dokument entsprechend. Ein Beispiel:

Wenn Sie einen Vertrag in Dokument Intelligenz Studio verarbeiten, verwenden Sie Version 2024-02-29-preview oder 2023-10-31-preview:
Sie können im Rahmen der analyze document-Anforderung eine Liste von Feldbezeichnungen wie z. B. Party1, Party2, TermsOfUse, PaymentTerms, PaymentDate und TermEndDate übergeben.
Dokument Intelligenz kann die Felddaten analysieren und extrahieren und die Werte in einer strukturierten JSON-Ausgabe zurückgeben.
Zusätzlich zu den Abfragefeldern enthält die Antwort Text, Tabellen, Auswahlzeichen und andere relevante Daten.

REST-API

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=queryFields&queryFields=TERMS

Nächste Schritte

Weitere Informationen finden Sie unter LesemodellLayoutmodell.

SDK-Beispiele: python.

Dokument Intelligenz-Add-On-Funktionen

Hochauflösende Extraktion

REST-API

Formelextraktion

REST-API

Extraktion von Schrifteigenschaften

REST-API

Extrahieren von Barcodeeigenschaften

Unterstützte Barcodetypen

REST-API

Sprachenerkennung

REST-API

Schlüssel-Werte-Paare

REST-API

Abfragefelder

Extraktion von Abfragefeldern

REST-API

Nächste Schritte

Zusätzliche Ressourcen