Public Preview-Releases von Dokument Intelligenz bieten frühzeitigen Zugriff auf Features, die sich in der aktiven Entwicklung befinden. Features, Ansätze und Prozesse können sich aufgrund von Benutzerfeedback vor der allgemeinen Verfügbarkeit (General Availability, GA) ändern.
Die Public Preview von Dokument Intelligenz-Clientbibliotheken verwendet standardmäßig Version 2024-07-31-preview der REST-API.
Die Public Preview 2024-07-31-preview ist derzeit lediglich in den folgenden Azure-Regionen verfügbar. Beachten Sie, dass das benutzerdefinierte generative Modell (Dokumentfeldextraktion) in KI Studio nur in der Region „USA, Norden-Mitte“ verfügbar ist:
Das Rechnungsmodell von Dokument Intelligenz verwendet leistungsstarke OCR-Funktionen (Optical Character Recognition, optische Zeichenerkennung), um wichtige Felder und Rechnungspositionen aus Verkaufsrechnungen, Stromrechnungen und Bestellungen zu analysieren und zu extrahieren. Rechnungen können viele verschiedene Formate und Qualitätsmerkmale aufweisen, beispielsweise mit dem Handy fotografierte Bilder, gescannte Dokumente und digitale PDF-Dateien. Die API analysiert den Rechnungtext, extrahiert Schlüsselinformationen wie Kundenname, Rechnungsadresse, Fälligkeitsdatum und fälliger Betrag und gibt eine strukturierte JSON-Datendarstellung zurück. Das Modell unterstützt derzeit Rechnungen in 27 Sprachen.
Unterstützte Dokumenttypen:
Invoices
Stromrechnungen
Aufträge
Bestellungen
Automatisierte Rechnungsverarbeitung
Automatisierte Rechnungsverarbeitung ist der Prozess des Extrahierens von Schlüsselfeldern für accounts payable aus Abrechnungskontodokumenten. Die extrahierten Daten umfassen Zeilenposten aus Rechnungen, die in Ihre Ap-Workflows (Kreditorenbuchhaltung) für Überprüfungen und Zahlungen integriert sind. In der Vergangenheit wurde der Kreditorenbuchhaltungsprozess manuell vollzogen und war daher sehr zeitaufwändig. Die genaue Extraktion wesentlicher Daten aus Rechnungen ist in der Regel der erste und einer der wichtigsten Schritte im Prozess der Rechnungsautomatisierung.
Die besten Ergebnisse erzielen Sie, wenn Sie pro Dokument ein deutliches Foto oder einen hochwertigen Scan bereitstellen.
In den Formaten PDF und TIFF können bis zu 2,000 Seiten verarbeitet werden (bei einem kostenlosen Abonnement werden nur die ersten beiden Seiten verarbeitet).
Die Dateigröße für die Analyse von Dokumenten beträgt 500 MB für den kostenpflichtigen Tarif (S0) und 4 MB für den kostenlosen Tarif (F0).
Die Bildgröße muss zwischen 50 × 50 Pixel und 10.000 × 10.000 Pixel liegen.
Wenn Ihre PDFs kennwortgeschützt sind, müssen Sie die Sperre vor dem Senden entfernen.
Die Mindesthöhe des zu extrahierenden Texts beträgt 12 Pixel für ein Bild von 1024 × 768 Pixel. Diese Abmessung entspricht etwa einem 8-Punkttext bei 150 Punkten pro Zoll (Dots Per Inch, DPI).
Die maximale Anzahl Seiten für Trainingsdaten beträgt beim benutzerdefinierten Modelltraining 500 für das benutzerdefinierte Vorlagenmodell und 50.000 für das benutzerdefinierte neuronale Modell.
Für das Training benutzerdefinierter Extraktionsmodelle beträgt die Gesamtgröße der Trainingsdaten 50 MB für das Vorlagenmodell und 1 GB für das neuronale Modell.
Für das Training benutzerdefinierter Klassifizierungsmodelle beträgt die Gesamtgröße der Trainingsdaten 1 GB bei maximal 10.000 Seiten. Für 2024-07-31-preview und höher beträgt die Gesamtgröße der Trainingsdaten 2 GB bei maximal 10.000 Seiten.
Unterstützte Dateiformate: JPEG, PNG, PDF und TIFF.
Unterstützt PDF und TIFF, bis zu 2.000 Seiten werden verarbeitet. Bei Abonnements im Free-Tarif werden nur die ersten beiden Seiten verarbeitet.
Die unterstützte Dateigröße muss weniger als 50 MB betragen und die Abmessungen müssen mindestens 50 x 50 Pixel und dürfen höchstens 10.000 x 10.000 Pixel betragen.
Extrahieren von Rechnungsmodelldaten
Erfahren Sie, wie Daten, einschließlich Kundeninformationen, Herstellerdetails und Positionen, aus Rechnungen extrahiert werden. Sie benötigen die folgenden Ressourcen:
Eine Dokument Intelligenz-Instanz im Azure-Portal. Sie können den kostenlosen Tarif (F0) verwenden, um den Dienst auszuprobieren. Wählen Sie nach der Bereitstellung Ihrer Ressource Zu Ressource wechseln aus, um Ihren Schlüssel und Endpunkt abzurufen.
Wählen Sie im Feld Quelle die URL aus dem Dropdownmenü aus, fügen Sie die ausgewählte URL ein, und wählen Sie die Schaltfläche Abrufen aus.
Fügen Sie im Feld Dokument Intelligenz-Dienstendpunkt den Endpunkt ein, den Sie mit Ihrem Dokument Intelligenz-Abonnement erhalten haben.
Fügen Sie im Feld Schlüssel den Schlüssel ein, den Sie von Ihrer Dokument Intelligenz-Ressource erhalten haben.
Wählen Sie Run Analysis (Analyse ausführen) aus. Das Dokument Intelligenz-Tool für die Beschriftung von Beispielen ruft die „Analyze Prebuilt“-API auf und analysiert das Dokument.
Zeigen Sie die Ergebnisse an. Sehen Sie sich die extrahierten Schlüssel-Wert-Paare, die Positionen, den extrahierten markierten Text und die erkannten Tabellen an.
Hinweis
Das Tool für die Beschriftung von Beispielen unterstützt nicht das BMP-Dateiformat. Dies ist eine Einschränkung des Tools, nicht des Dokument Intelligenz-Diensts.
Informationen zu unterstützten Feldern für die Dokumentextraktion finden Sie auf der Seite Rechnungsmodellschema in unserem GitHub-Beispielrepository.
Die extrahierten Schlüssel-Wert-Paare der Rechnung und die Rechnungspositionen befinden sich im Abschnitt documentResults der JSON-Ausgabe.
Schlüsselwertepaare
Das vordefinierte Release 2022-06-30 und höhere Releases für Rechnungen unterstützen die optionale Rückgabe von Schlüssel-Wert-Paaren. Standardmäßig ist die Rückgabe von Schlüssel-Wert-Paaren deaktiviert. Schlüssel-Wert-Paare sind bestimmte Bereiche innerhalb der Rechnung, die eine Beschriftung oder einen Schlüssel und die zugehörige Antwort oder den zugehörigen Wert identifizieren. In einer Rechnung könnten diese Paare die Beschriftung und der Wert sein, den der Benutzer für dieses Feld oder die Telefonnummer eingegeben hat. Das KI-Modell wird trainiert, um identifizierbare Schlüssel und Werte basierend auf einer Vielzahl von Dokumenttypen, Formaten und Strukturen zu extrahieren.
Schlüssel können auch isoliert existieren, wenn das Modell feststellt, dass ein Schlüssel ohne zugehörigen Wert vorhanden ist, oder wenn optionale Felder verarbeitet werden. Beispielsweise kann ein Feld für den zweiten Vornamen in einigen Fällen in einem Formular leer gelassen werden. Schlüssel-Wert-Paare sind immer Textabschnitte, die im Dokument enthalten sind. Bei Dokumenten, in denen derselbe Wert auf unterschiedliche Weise beschrieben wird, z. B. Kunde/Benutzer, ist der zugehörige Schlüssel entweder Kunde oder Benutzer (je nach Kontext).
Extrahierte Felder
Der Rechnungsdienst extrahiert den Text, die Tabellen und 26 Rechnungsfelder. Im Folgenden werden die aus einer Rechnung extrahierten Felder in der JSON-Ausgabeantwort aufgeführt (die folgende Ausgabe basiert auf dieser Beispielrechnung).
Name
Typ
BESCHREIBUNG
Text
Wert (standardisierte Ausgabe)
CustomerName
Zeichenfolge
Kunde, dem die Rechnung gestellt wird
Microsoft Corp.
CustomerId
Zeichenfolge
Referenz-ID für den Kunden
CID-12345
PurchaseOrder
Zeichenfolge
Eine Referenznummer für die Bestellung
PO-3333
InvoiceId
Zeichenfolge
ID für diese bestimmte Rechnung (oftmals „Rechnungsnummer“)
INV-100
Rechnungsdatum
date
Datum, an dem die Rechnung ausgestellt wurde
15.11.2019
15.11.2019
DueDate
date
Datum, an dem die Zahlung für diese Rechnung fällig ist
15.12.2019
2019-12-15
VendorName
Zeichenfolge
Hersteller, der die Rechnung erstellt hat
CONTOSO
VendorAddress
Zeichenfolge
Postanschrift für den Anbieter
123 456th St New York, NY, 10001
VendorAddressRecipient
Zeichenfolge
Der „VendorAddress“ (Anbieteranschrift) zugeordnete Name
Contoso Headquarters
CustomerAddress
Zeichenfolge
Postanschrift für den Kunden
123 Other Street, Redmond, Washington, 98052
CustomerAddressRecipient
Zeichenfolge
Der „CustomerAddress“ (Kundenadresse) zugeordnete Name
Microsoft Corp.
BillingAddress
Zeichenfolge
Explizite Rechnungsadresse für den Kunden
123 Bill Street, Redmond, Washington, 98052
BillingAddressRecipient
Zeichenfolge
Der „BillingAddress“ (Rechnungsadresse) zugeordnete Name
Microsoft-Dienste
ShippingAddress
Zeichenfolge
Explizite Lieferadresse für den Kunden
123 Ship Street, Redmond, Washington, 98052
ShippingAddressRecipient
Zeichenfolge
Der „ShippingAdresss“ (Lieferadresse) zugeordnete Name
Microsoft-Lieferung
SubTotal
Anzahl
In dieser Rechnung identifiziertes Feld „Subtotal“ (Zwischensumme)
$ 100,00
100
TotalTax
Anzahl
In dieser Rechnung identifiziertes Feld „Total tax“ (Gesamtsteuerbetrag)
$ 10,00
10
InvoiceTotal
Anzahl
Summe der dieser Rechnung zugeordneten neuen Gebühren
$ 110,00
110
AmountDue
Anzahl
Gesamtbetrag, der an den Anbieter zu zahlen ist
$ 610,00
610
ServiceAddress
Zeichenfolge
Explizite Dienstadresse oder Immobilienadresse für den Kunden
123 Service Street, Redmond, Washington, 98052
ServiceAddressRecipient
Zeichenfolge
Der „ServiceAddress“ (Dienstadresse) zugeordnete Name
Microsoft-Dienste
RemittanceAddress
Zeichenfolge
Explizite Überweisungs- oder Zahlungsadresse für den Kunden
123 Remit St New York, NY, 10001
RemittanceAddressRecipient
Zeichenfolge
Der „RemittanceAddress“ (Überweisungsadresse) zugeordnete Name
Contoso-Abrechnung
ServiceStartDate
date
Anfangsdatum für den Dienstzeitraum (z. B. ein Dienstzeitraum für Hilfsprogrammrechnungen)
14.10.2019
14.10.2019
ServiceEndDate
date
Enddatum für den Dienstzeitraum (z B. ein Dienstzeitraum für Hilfsprogrammrechnungen)
14.11.2019
2019-11-14
PreviousUnpaidBalance
Anzahl
Zuvor explizit ausstehende Zahlung
$ 500,00
500
Nachfolgend finden Sie die Einzelposten, die aus einer Rechnung in der JSON-Ausgabeantwort extrahiert wurden und für diese Beispielrechnung verwendet werden:
Name
Typ
BESCHREIBUNG
Text (Rechnungsposition 1)
Wert (standardisierte Ausgabe)
Elemente
Zeichenfolge
Vollständige Zeichenfolgentextzeile der Rechnungsposition
Die Textbeschreibung für die Rechnungsposition der Rechnung
Beratungsdienst
Beratungsdienst
Menge
number
Die Menge für die Rechnungsposition
2
2
UnitPrice
number
Der Netto- oder Bruttopreis (abhängig von der Bruttorechnungseinstellung der Rechnung) einer Einheit dieses Elements
30,00 $
30
ProductCode
Zeichenfolge
Produktcode, Produktnummer oder SKU der spezifischen Rechnungsposition
A123
Einheit
Zeichenfolge
Die Einheit der Rechnungsposition, z. B. kg, lb usw.
Stunden
Datum
Datum
Hierbei handelt es sich um das Datum für jede entsprechende Rechnungsposition. In den meisten Fällen handelt es sich dabei um das Datum, an dem eine Rechnungsposition versandt wurde
3/4/2021
2021-03-04
Tax (Steuern)
number
Hierbei handelt es sich um die Steuern für jede Rechnungsposition. Zu den möglichen Werten gehören der Steuerbetrag, die Steuer in Prozent und „tax Y/N“ (Steuer Ja/Nein).
10 %
Im Folgenden sind komplexe Felder aufgeführt, die aus einer Rechnung in der JSON-Ausgabeantwort extrahiert wurden:
TaxDetails
Steuerdetails definieren bestimmte Steuern, die auf die Rechnungssumme angewendet werden.
Name
Typ
BESCHREIBUNG
Text (Rechnungsposition 1)
Wert (standardisierte Ausgabe)
Elemente
Zeichenfolge
Vollständige Zeichenfolgentextzeile der Steuerposition
V.A.T. 15 % $60,00
Betrag
Zahl
Der Steuerbetrag der Steuerposition
60,00
60
Satz
Zeichenfolge
Der Steuersatz der Steuerposition
15 %
PaymentDetails
Listet alle erkannten Zahlungsoptionen auf, die im Feld erkannt wurden.
Name
Typ
BESCHREIBUNG
Text (Rechnungsposition 1)
Wert (standardisierte Ausgabe)
IBAN
Zeichenfolge
Interne Bankkontonummer
GB33BUKB20201555555555
SWIFT
Zeichenfolge
SWIFT-Code
BUKBGB22
BankAccountNumber
Zeichenfolge
Bankkontonummer, ein eindeutiger Bezeichner für ein Bankkonto
123456
BPayBillerCode
Zeichenfolge
Australischer B-Pay-Rechnungsstellercode
12345
BPayReference
Zeichenfolge
Australischer B-Pay-Referenzcode
98765432100
JSON-Ausgabe
Die JSON-Ausgabe besteht aus drei Teilen:
Der Knoten "readResults" enthält den gesamten erkannten Text und alle erkannten Auswahlmarkierungen. Der Text ist nach Seite, dann nach Zeile und dann nach einzelnen Wörtern sortiert.
Der Knoten "pageResults" enthält die Tabellen und Zellen, die mit ihren Begrenzungsrahmen, Konfidenz und einem Verweis auf die Zeilen und Wörter in readResults extrahiert wurden.
Der Knoten "documentResults" enthält die spezifischen Werte und Rechnungspositionen der Rechnung, die vom Modell ermittelt wurden. Hier finden Sie alle Felder aus der Rechnung, wie z B. Rechnungs-ID, Lieferadresse, Rechnungsadresse, Kunde, Gesamtsumme, Rechnungspositionen und viele mehr.
Versuchen Sie, Ihre eigenen Formulare und Dokumente mithilfe von Dokument Intelligenz Studio zu verarbeiten.
Führen Sie eine Dokument Intelligenz-Schnellstartanleitung durch, und beginnen Sie mit der Erstellung einer Anwendung zur Dokumentverarbeitung in der Entwicklungssprache Ihrer Wahl.
Führen Sie eine Dokument Intelligenz-Schnellstartanleitung durch, und beginnen Sie mit der Erstellung einer Anwendung zur Dokumentverarbeitung in der Entwicklungssprache Ihrer Wahl.