Dokument Intelligenz-Rechnungsmodell
Wichtig
- Public Preview-Releases von Dokument Intelligenz bieten frühzeitigen Zugriff auf Features, die sich in der aktiven Entwicklung befinden. Features, Ansätze und Prozesse können sich aufgrund von Benutzerfeedback vor der allgemeinen Verfügbarkeit (General Availability, GA) ändern.
- Die Public Preview von Dokument Intelligenz-Clientbibliotheken verwendet standardmäßig Version 2024-07-31-preview der REST-API.
- Die Public Preview 2024-07-31-preview ist derzeit lediglich in den folgenden Azure-Regionen verfügbar. Beachten Sie, dass das benutzerdefinierte generative Modell (Dokumentfeldextraktion) in KI Studio nur in der Region „USA, Norden-Mitte“ verfügbar ist:
- USA, Osten
- USA, Westen 2
- Europa, Westen
- USA Nord Mitte
Dieser Inhalt gilt für: Version 4.0 (Vorschau) | Vorherige Versionen: Version 3.1 (GA) Version 3.0 (GA) Version 2.1 (GA)
Dieser Inhalt gilt für: Version 3.1 (GA) | Aktuelle Version: Version 4.0 (Vorschau) | Vorherige Versionen: Version 3.0 Version 2.1
Dieser Inhalt gilt für: Version 3.0 (GA) | Aktuelle Versionen: Version 4.0 (Vorschau) Version 3.1 | Vorherige Version: Version 2.1
Dieser Inhalt gilt für: Version 2.1 | Neueste Version: Version 4.0 (Vorschau)
Das Rechnungsmodell von Dokument Intelligenz verwendet leistungsstarke OCR-Funktionen (Optical Character Recognition, optische Zeichenerkennung), um wichtige Felder und Rechnungspositionen aus Verkaufsrechnungen, Stromrechnungen und Bestellungen zu analysieren und zu extrahieren. Rechnungen können viele verschiedene Formate und Qualitätsmerkmale aufweisen, beispielsweise mit dem Handy fotografierte Bilder, gescannte Dokumente und digitale PDF-Dateien. Die API analysiert den Rechnungtext, extrahiert Schlüsselinformationen wie Kundenname, Rechnungsadresse, Fälligkeitsdatum und fälliger Betrag und gibt eine strukturierte JSON-Datendarstellung zurück. Das Modell unterstützt derzeit Rechnungen in 27 Sprachen.
Unterstützte Dokumenttypen:
- Invoices
- Stromrechnungen
- Aufträge
- Bestellungen
Automatisierte Rechnungsverarbeitung
Automatisierte Rechnungsverarbeitung ist der Prozess des Extrahierens von Schlüsselfeldern für accounts payable
aus Abrechnungskontodokumenten. Die extrahierten Daten umfassen Zeilenposten aus Rechnungen, die in Ihre Ap-Workflows (Kreditorenbuchhaltung) für Überprüfungen und Zahlungen integriert sind. In der Vergangenheit wurde der Kreditorenbuchhaltungsprozess manuell vollzogen und war daher sehr zeitaufwändig. Die genaue Extraktion wesentlicher Daten aus Rechnungen ist in der Regel der erste und einer der wichtigsten Schritte im Prozess der Rechnungsautomatisierung.
Beispielrechnung, die mit Dokument Intelligenz Studio verarbeitet wurde:
Beispielrechnung, die mit dem Tool zur Beschriftung von Beispielen in Dokument Intelligenz Studio verarbeitet wurde:
Entwicklungsoptionen
Dokument Intelligenz v4.0 (2024-07-31-preview) unterstützt die folgenden Tools, Anwendungen und Bibliotheken:
Funktion | Ressourcen | Modell-ID |
---|---|---|
Rechnungsmodell | • Document Intelligence Studio • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK |
Vordefinierte Rechnung |
Document Intelligence v3.1 unterstützt die folgenden Tools, Anwendungen und Bibliotheken:
Feature | Ressourcen | Modell-ID |
---|---|---|
Rechnungsmodell | • Document Intelligence Studio • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK |
Vordefinierte Rechnung |
Document Intelligence v3.0 unterstützt die folgenden Tools, Anwendungen und Bibliotheken:
Feature | Ressourcen | Modell-ID |
---|---|---|
Rechnungsmodell | • Document Intelligence Studio • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK |
Vordefinierte Rechnung |
Dokument Intelligenz v2.1 unterstützt die folgenden Tools, Anwendungen und Bibliotheken:
Feature | Ressourcen |
---|---|
Rechnungsmodell | • Dokument Intelligenz-Bezeichnungstool • REST-API • Clientbibliothek SDK • Dokument Intelligenz-Docker-Container |
Eingabeanforderungen
Unterstützte Dateiformate:
Modell PDF Abbildung: JPEG/JPG
,PNG
,BMP
,TIFF
,HEIF
Microsoft Office:
Word (DOCX
), Excel (XLSX
), PowerPoint (PPTX
), HTMLLesen Sie ✔ ✔ ✔ Layout ✔ ✔ ✔ (2024-07-31-preview, 2024-02-29-preview, 2023-10-31-preview) Allgemeines Dokument ✔ ✔ Vordefiniert ✔ ✔ Benutzerdefinierte Extraktion ✔ ✔ Benutzerdefinierte Klassifizierung ✔ ✔ ✔ (2024-07-31-preview, 2024-02-29-preview) Die besten Ergebnisse erzielen Sie, wenn Sie pro Dokument ein deutliches Foto oder einen hochwertigen Scan bereitstellen.
In den Formaten PDF und TIFF können bis zu 2,000 Seiten verarbeitet werden (bei einem kostenlosen Abonnement werden nur die ersten beiden Seiten verarbeitet).
Die Dateigröße für die Analyse von Dokumenten beträgt 500 MB für den kostenpflichtigen Tarif (S0) und
4
MB für den kostenlosen Tarif (F0).Die Bildgröße muss zwischen 50 × 50 Pixel und 10.000 × 10.000 Pixel liegen.
Wenn Ihre PDFs kennwortgeschützt sind, müssen Sie die Sperre vor dem Senden entfernen.
Die Mindesthöhe des zu extrahierenden Texts beträgt 12 Pixel für ein Bild von 1024 × 768 Pixel. Diese Abmessung entspricht etwa einem
8
-Punkttext bei 150 Punkten pro Zoll (Dots Per Inch, DPI).Die maximale Anzahl Seiten für Trainingsdaten beträgt beim benutzerdefinierten Modelltraining 500 für das benutzerdefinierte Vorlagenmodell und 50.000 für das benutzerdefinierte neuronale Modell.
Für das Training benutzerdefinierter Extraktionsmodelle beträgt die Gesamtgröße der Trainingsdaten 50 MB für das Vorlagenmodell und
1
GB für das neuronale Modell.Für das Training benutzerdefinierter Klassifizierungsmodelle beträgt die Gesamtgröße der Trainingsdaten
1
GB bei maximal 10.000 Seiten. Für 2024-07-31-preview und höher beträgt die Gesamtgröße der Trainingsdaten2
GB bei maximal 10.000 Seiten.
- Unterstützte Dateiformate: JPEG, PNG, PDF und TIFF.
- Unterstützt PDF und TIFF, bis zu 2.000 Seiten werden verarbeitet. Bei Abonnements im Free-Tarif werden nur die ersten beiden Seiten verarbeitet.
- Die unterstützte Dateigröße muss weniger als 50 MB betragen und die Abmessungen müssen mindestens 50 x 50 Pixel und dürfen höchstens 10.000 x 10.000 Pixel betragen.
Extrahieren von Rechnungsmodelldaten
Erfahren Sie, wie Daten, einschließlich Kundeninformationen, Herstellerdetails und Positionen, aus Rechnungen extrahiert werden. Sie benötigen die folgenden Ressourcen:
Ein Azure-Abonnement (Sie können ein kostenloses Abonnement erstellen).
Eine Dokument Intelligenz-Instanz im Azure-Portal. Sie können den kostenlosen Tarif (
F0
) verwenden, um den Dienst auszuprobieren. Wählen Sie nach der Bereitstellung Ihrer Ressource Zu Ressource wechseln aus, um Ihren Schlüssel und Endpunkt abzurufen.
Wählen Sie auf der Startseite von Document Intelligence Studio Rechnungen aus.
Sie können die Musterrechnung analysieren oder Ihre eigenen Dateien hochladen.
Wählen Sie die Schaltfläche Analyse ausführen aus, und konfigurieren Sie bei Bedarf die Analyseoptionen:
Beispielbeschriftungstool von Dokument Intelligenz
Navigieren Sie zum Dokument Intelligenz-Beispieltool.
Wählen Sie auf der Startseite des Beispieltools die Kachel Use prebuilt model to get data (Vordefiniertes Modell zum Abrufen von Daten verwenden) aus.
Wählen Sie im Dropdownfenster den zu analysierenden Formulartyp aus.
Wählen Sie aus den folgenden Optionen eine URL zu der Datei aus, die Sie analysieren möchten:
Wählen Sie im Feld Quelle die URL aus dem Dropdownmenü aus, fügen Sie die ausgewählte URL ein, und wählen Sie die Schaltfläche Abrufen aus.
Fügen Sie im Feld Dokument Intelligenz-Dienstendpunkt den Endpunkt ein, den Sie mit Ihrem Dokument Intelligenz-Abonnement erhalten haben.
Fügen Sie im Feld Schlüssel den Schlüssel ein, den Sie von Ihrer Dokument Intelligenz-Ressource erhalten haben.
Wählen Sie Run Analysis (Analyse ausführen) aus. Das Dokument Intelligenz-Tool für die Beschriftung von Beispielen ruft die „Analyze Prebuilt“-API auf und analysiert das Dokument.
Zeigen Sie die Ergebnisse an. Sehen Sie sich die extrahierten Schlüssel-Wert-Paare, die Positionen, den extrahierten markierten Text und die erkannten Tabellen an.
Hinweis
Das Tool für die Beschriftung von Beispielen unterstützt nicht das BMP-Dateiformat. Dies ist eine Einschränkung des Tools, nicht des Dokument Intelligenz-Diensts.
Unterstützte Sprachen und Gebietsschemas
Eine vollständige Liste der unterstützten Sprachen finden Sie hier auf unserer Seite vordefiniertes Modell für Sprachunterstützung.
Feldextraktion
Informationen zu unterstützten Feldern für die Dokumentextraktion finden Sie auf der Seite Rechnungsmodellschema in unserem GitHub-Beispielrepository.
Die extrahierten Schlüssel-Wert-Paare der Rechnung und die Rechnungspositionen befinden sich im Abschnitt
documentResults
der JSON-Ausgabe.
Schlüsselwertepaare
Das vordefinierte Release 2022-06-30 und höhere Releases für Rechnungen unterstützen die optionale Rückgabe von Schlüssel-Wert-Paaren. Standardmäßig ist die Rückgabe von Schlüssel-Wert-Paaren deaktiviert. Schlüssel-Wert-Paare sind bestimmte Bereiche innerhalb der Rechnung, die eine Beschriftung oder einen Schlüssel und die zugehörige Antwort oder den zugehörigen Wert identifizieren. In einer Rechnung könnten diese Paare die Beschriftung und der Wert sein, den der Benutzer für dieses Feld oder die Telefonnummer eingegeben hat. Das KI-Modell wird trainiert, um identifizierbare Schlüssel und Werte basierend auf einer Vielzahl von Dokumenttypen, Formaten und Strukturen zu extrahieren.
Schlüssel können auch isoliert existieren, wenn das Modell feststellt, dass ein Schlüssel ohne zugehörigen Wert vorhanden ist, oder wenn optionale Felder verarbeitet werden. Beispielsweise kann ein Feld für den zweiten Vornamen in einigen Fällen in einem Formular leer gelassen werden. Schlüssel-Wert-Paare sind immer Textabschnitte, die im Dokument enthalten sind. Bei Dokumenten, in denen derselbe Wert auf unterschiedliche Weise beschrieben wird, z. B. Kunde/Benutzer, ist der zugehörige Schlüssel entweder Kunde oder Benutzer (je nach Kontext).
Extrahierte Felder
Der Rechnungsdienst extrahiert den Text, die Tabellen und 26 Rechnungsfelder. Im Folgenden werden die aus einer Rechnung extrahierten Felder in der JSON-Ausgabeantwort aufgeführt (die folgende Ausgabe basiert auf dieser Beispielrechnung).
Name | Typ | BESCHREIBUNG | Text | Wert (standardisierte Ausgabe) |
---|---|---|---|---|
CustomerName | Zeichenfolge | Kunde, dem die Rechnung gestellt wird | Microsoft Corp. | |
CustomerId | Zeichenfolge | Referenz-ID für den Kunden | CID-12345 | |
PurchaseOrder | Zeichenfolge | Eine Referenznummer für die Bestellung | PO-3333 | |
InvoiceId | Zeichenfolge | ID für diese bestimmte Rechnung (oftmals „Rechnungsnummer“) | INV-100 | |
Rechnungsdatum | date | Datum, an dem die Rechnung ausgestellt wurde | 15.11.2019 | 15.11.2019 |
DueDate | date | Datum, an dem die Zahlung für diese Rechnung fällig ist | 15.12.2019 | 2019-12-15 |
VendorName | Zeichenfolge | Hersteller, der die Rechnung erstellt hat | CONTOSO | |
VendorAddress | Zeichenfolge | Postanschrift für den Anbieter | 123 456th St New York, NY, 10001 | |
VendorAddressRecipient | Zeichenfolge | Der „VendorAddress“ (Anbieteranschrift) zugeordnete Name | Contoso Headquarters | |
CustomerAddress | Zeichenfolge | Postanschrift für den Kunden | 123 Other Street, Redmond, Washington, 98052 | |
CustomerAddressRecipient | Zeichenfolge | Der „CustomerAddress“ (Kundenadresse) zugeordnete Name | Microsoft Corp. | |
BillingAddress | Zeichenfolge | Explizite Rechnungsadresse für den Kunden | 123 Bill Street, Redmond, Washington, 98052 | |
BillingAddressRecipient | Zeichenfolge | Der „BillingAddress“ (Rechnungsadresse) zugeordnete Name | Microsoft-Dienste | |
ShippingAddress | Zeichenfolge | Explizite Lieferadresse für den Kunden | 123 Ship Street, Redmond, Washington, 98052 | |
ShippingAddressRecipient | Zeichenfolge | Der „ShippingAdresss“ (Lieferadresse) zugeordnete Name | Microsoft-Lieferung | |
SubTotal | Anzahl | In dieser Rechnung identifiziertes Feld „Subtotal“ (Zwischensumme) | $ 100,00 | 100 |
TotalTax | Anzahl | In dieser Rechnung identifiziertes Feld „Total tax“ (Gesamtsteuerbetrag) | $ 10,00 | 10 |
InvoiceTotal | Anzahl | Summe der dieser Rechnung zugeordneten neuen Gebühren | $ 110,00 | 110 |
AmountDue | Anzahl | Gesamtbetrag, der an den Anbieter zu zahlen ist | $ 610,00 | 610 |
ServiceAddress | Zeichenfolge | Explizite Dienstadresse oder Immobilienadresse für den Kunden | 123 Service Street, Redmond, Washington, 98052 | |
ServiceAddressRecipient | Zeichenfolge | Der „ServiceAddress“ (Dienstadresse) zugeordnete Name | Microsoft-Dienste | |
RemittanceAddress | Zeichenfolge | Explizite Überweisungs- oder Zahlungsadresse für den Kunden | 123 Remit St New York, NY, 10001 | |
RemittanceAddressRecipient | Zeichenfolge | Der „RemittanceAddress“ (Überweisungsadresse) zugeordnete Name | Contoso-Abrechnung | |
ServiceStartDate | date | Anfangsdatum für den Dienstzeitraum (z. B. ein Dienstzeitraum für Hilfsprogrammrechnungen) | 14.10.2019 | 14.10.2019 |
ServiceEndDate | date | Enddatum für den Dienstzeitraum (z B. ein Dienstzeitraum für Hilfsprogrammrechnungen) | 14.11.2019 | 2019-11-14 |
PreviousUnpaidBalance | Anzahl | Zuvor explizit ausstehende Zahlung | $ 500,00 | 500 |
Nachfolgend finden Sie die Einzelposten, die aus einer Rechnung in der JSON-Ausgabeantwort extrahiert wurden und für diese Beispielrechnung verwendet werden:
Name | Typ | BESCHREIBUNG | Text (Rechnungsposition 1) | Wert (standardisierte Ausgabe) |
---|---|---|---|---|
Elemente | Zeichenfolge | Vollständige Zeichenfolgentextzeile der Rechnungsposition | 3/4/2021 A123 Consulting Services 2 hours $30.00 10% $60.00 | |
Amount (Betrag) | number | Der Betrag der Rechnungsposition | $60.00 | 100 |
BESCHREIBUNG | Zeichenfolge | Die Textbeschreibung für die Rechnungsposition der Rechnung | Beratungsdienst | Beratungsdienst |
Menge | number | Die Menge für die Rechnungsposition | 2 | 2 |
UnitPrice | number | Der Netto- oder Bruttopreis (abhängig von der Bruttorechnungseinstellung der Rechnung) einer Einheit dieses Elements | 30,00 $ | 30 |
ProductCode | Zeichenfolge | Produktcode, Produktnummer oder SKU der spezifischen Rechnungsposition | A123 | |
Einheit | Zeichenfolge | Die Einheit der Rechnungsposition, z. B. kg, lb usw. | Stunden | |
Datum | Datum | Hierbei handelt es sich um das Datum für jede entsprechende Rechnungsposition. In den meisten Fällen handelt es sich dabei um das Datum, an dem eine Rechnungsposition versandt wurde | 3/4/2021 | 2021-03-04 |
Tax (Steuern) | number | Hierbei handelt es sich um die Steuern für jede Rechnungsposition. Zu den möglichen Werten gehören der Steuerbetrag, die Steuer in Prozent und „tax Y/N“ (Steuer Ja/Nein). | 10 % |
Im Folgenden sind komplexe Felder aufgeführt, die aus einer Rechnung in der JSON-Ausgabeantwort extrahiert wurden:
TaxDetails
Steuerdetails definieren bestimmte Steuern, die auf die Rechnungssumme angewendet werden.
Name | Typ | BESCHREIBUNG | Text (Rechnungsposition 1) | Wert (standardisierte Ausgabe) |
---|---|---|---|---|
Elemente | Zeichenfolge | Vollständige Zeichenfolgentextzeile der Steuerposition | V.A.T. 15 % $60,00 | |
Betrag | Zahl | Der Steuerbetrag der Steuerposition | 60,00 | 60 |
Satz | Zeichenfolge | Der Steuersatz der Steuerposition | 15 % |
PaymentDetails
Listet alle erkannten Zahlungsoptionen auf, die im Feld erkannt wurden.
Name | Typ | BESCHREIBUNG | Text (Rechnungsposition 1) | Wert (standardisierte Ausgabe) |
---|---|---|---|---|
IBAN |
Zeichenfolge | Interne Bankkontonummer | GB33BUKB20201555555555 | |
SWIFT |
Zeichenfolge | SWIFT-Code | BUKBGB22 | |
BankAccountNumber | Zeichenfolge | Bankkontonummer, ein eindeutiger Bezeichner für ein Bankkonto | 123456 | |
BPayBillerCode | Zeichenfolge | Australischer B-Pay-Rechnungsstellercode | 12345 | |
BPayReference | Zeichenfolge | Australischer B-Pay-Referenzcode | 98765432100 |
JSON-Ausgabe
Die JSON-Ausgabe besteht aus drei Teilen:
- Der Knoten
"readResults"
enthält den gesamten erkannten Text und alle erkannten Auswahlmarkierungen. Der Text ist nach Seite, dann nach Zeile und dann nach einzelnen Wörtern sortiert. - Der Knoten
"pageResults"
enthält die Tabellen und Zellen, die mit ihren Begrenzungsrahmen, Konfidenz und einem Verweis auf die Zeilen und Wörter in readResults extrahiert wurden. - Der Knoten
"documentResults"
enthält die spezifischen Werte und Rechnungspositionen der Rechnung, die vom Modell ermittelt wurden. Hier finden Sie alle Felder aus der Rechnung, wie z B. Rechnungs-ID, Lieferadresse, Rechnungsadresse, Kunde, Gesamtsumme, Rechnungspositionen und viele mehr.
Migrationsleitfaden
- Folgen Sie unserem Migrationsleitfaden für Document Intelligence 3.1, um zu erfahren, wie Sie die Version 3.0 in Ihren Anwendungen und Workflows verwenden können.
Nächste Schritte
Versuchen Sie, Ihre eigenen Formulare und Dokumente mithilfe von Dokument Intelligenz Studio zu verarbeiten.
Führen Sie eine Dokument Intelligenz-Schnellstartanleitung durch, und beginnen Sie mit der Erstellung einer Anwendung zur Dokumentverarbeitung in der Entwicklungssprache Ihrer Wahl.
Versuchen Sie, Ihre eigenen Formulare und Dokumente mithilfe des Dokument Intelligenz-Stichproben-Bezeichnungstools zu verarbeiten.
Führen Sie eine Dokument Intelligenz-Schnellstartanleitung durch, und beginnen Sie mit der Erstellung einer Anwendung zur Dokumentverarbeitung in der Entwicklungssprache Ihrer Wahl.