Teilen über


Dokument Intelligenz-Rechnungsmodell

Wichtig

  • Public Preview-Releases von Dokument Intelligenz bieten frühzeitigen Zugriff auf Features, die sich in der aktiven Entwicklung befinden. Features, Ansätze und Prozesse können sich aufgrund von Benutzerfeedback vor der allgemeinen Verfügbarkeit (General Availability, GA) ändern.
  • Die Public Preview von Dokument Intelligenz-Clientbibliotheken verwendet standardmäßig Version 2024-07-31-preview der REST-API.
  • Die Public Preview 2024-07-31-preview ist derzeit lediglich in den folgenden Azure-Regionen verfügbar. Beachten Sie, dass das benutzerdefinierte generative Modell (Dokumentfeldextraktion) in KI Studio nur in der Region „USA, Norden-Mitte“ verfügbar ist:
    • USA, Osten
    • USA, Westen 2
    • Europa, Westen
    • USA Nord Mitte

Dieser Inhalt gilt für: Häkchen Version 4.0 (Vorschau) | Vorherige Versionen: Blaues Häkchen Version 3.1 (GA) Blaues Häkchen Version 3.0 (GA) Blaues Häkchen Version 2.1 (GA)

Dieser Inhalt gilt für: Häkchen Version 3.1 (GA) | Aktuelle Version: Lila Häkchen Version 4.0 (Vorschau) | Vorherige Versionen: Blaues Häkchen Version 3.0 Blaues Häkchen Version 2.1

Dieser Inhalt gilt für: Häkchen Version 3.0 (GA) | Aktuelle Versionen: Lila Häkchen Version 4.0 (Vorschau) Lila Häkchen Version 3.1 | Vorherige Version: Blaues Häkchen Version 2.1

Dieser Inhalt gilt für: Häkchen Version 2.1 | Neueste Version: Blaues Häkchen Version 4.0 (Vorschau)

Das Rechnungsmodell von Dokument Intelligenz verwendet leistungsstarke OCR-Funktionen (Optical Character Recognition, optische Zeichenerkennung), um wichtige Felder und Rechnungspositionen aus Verkaufsrechnungen, Stromrechnungen und Bestellungen zu analysieren und zu extrahieren. Rechnungen können viele verschiedene Formate und Qualitätsmerkmale aufweisen, beispielsweise mit dem Handy fotografierte Bilder, gescannte Dokumente und digitale PDF-Dateien. Die API analysiert den Rechnungtext, extrahiert Schlüsselinformationen wie Kundenname, Rechnungsadresse, Fälligkeitsdatum und fälliger Betrag und gibt eine strukturierte JSON-Datendarstellung zurück. Das Modell unterstützt derzeit Rechnungen in 27 Sprachen.

Unterstützte Dokumenttypen:

  • Invoices
  • Stromrechnungen
  • Aufträge
  • Bestellungen

Automatisierte Rechnungsverarbeitung

Automatisierte Rechnungsverarbeitung ist der Prozess des Extrahierens von Schlüsselfeldern für accounts payable aus Abrechnungskontodokumenten. Die extrahierten Daten umfassen Zeilenposten aus Rechnungen, die in Ihre Ap-Workflows (Kreditorenbuchhaltung) für Überprüfungen und Zahlungen integriert sind. In der Vergangenheit wurde der Kreditorenbuchhaltungsprozess manuell vollzogen und war daher sehr zeitaufwändig. Die genaue Extraktion wesentlicher Daten aus Rechnungen ist in der Regel der erste und einer der wichtigsten Schritte im Prozess der Rechnungsautomatisierung.

Beispielrechnung, die mit Dokument Intelligenz Studio verarbeitet wurde:

Screenshot: in Dokument Intelligenz Studio analysierte Beispielrechnung

Beispielrechnung, die mit dem Tool zur Beschriftung von Beispielen in Dokument Intelligenz Studio verarbeitet wurde:

Screenshot einer Beispielrechnung.

Entwicklungsoptionen

Dokument Intelligenz v4.0 (2024-07-31-preview) unterstützt die folgenden Tools, Anwendungen und Bibliotheken:

Funktion Ressourcen Modell-ID
Rechnungsmodell Document Intelligence Studio
REST API
C# SDK
Python SDK
Java SDK
JavaScript SDK
Vordefinierte Rechnung

Document Intelligence v3.1 unterstützt die folgenden Tools, Anwendungen und Bibliotheken:

Feature Ressourcen Modell-ID
Rechnungsmodell Document Intelligence Studio
REST API
C# SDK
Python SDK
Java SDK
JavaScript SDK
Vordefinierte Rechnung

Document Intelligence v3.0 unterstützt die folgenden Tools, Anwendungen und Bibliotheken:

Feature Ressourcen Modell-ID
Rechnungsmodell Document Intelligence Studio
REST API
C# SDK
Python SDK
Java SDK
JavaScript SDK
Vordefinierte Rechnung

Dokument Intelligenz v2.1 unterstützt die folgenden Tools, Anwendungen und Bibliotheken:

Feature Ressourcen
Rechnungsmodell Dokument Intelligenz-Bezeichnungstool
REST-API
Clientbibliothek SDK
Dokument Intelligenz-Docker-Container

Eingabeanforderungen

  • Unterstützte Dateiformate:

    Modell PDF Abbildung:
    JPEG/JPG, PNG, BMP, TIFF, HEIF
    Microsoft Office:
    Word (DOCX), Excel (XLSX), PowerPoint (PPTX), HTML
    Lesen Sie
    Layout ✔ (2024-07-31-preview, 2024-02-29-preview, 2023-10-31-preview)
    Allgemeines Dokument
    Vordefiniert
    Benutzerdefinierte Extraktion
    Benutzerdefinierte Klassifizierung ✔ (2024-07-31-preview, 2024-02-29-preview)
  • Die besten Ergebnisse erzielen Sie, wenn Sie pro Dokument ein deutliches Foto oder einen hochwertigen Scan bereitstellen.

  • In den Formaten PDF und TIFF können bis zu 2,000 Seiten verarbeitet werden (bei einem kostenlosen Abonnement werden nur die ersten beiden Seiten verarbeitet).

  • Die Dateigröße für die Analyse von Dokumenten beträgt 500 MB für den kostenpflichtigen Tarif (S0) und 4 MB für den kostenlosen Tarif (F0).

  • Die Bildgröße muss zwischen 50 × 50 Pixel und 10.000 × 10.000 Pixel liegen.

  • Wenn Ihre PDFs kennwortgeschützt sind, müssen Sie die Sperre vor dem Senden entfernen.

  • Die Mindesthöhe des zu extrahierenden Texts beträgt 12 Pixel für ein Bild von 1024 × 768 Pixel. Diese Abmessung entspricht etwa einem 8-Punkttext bei 150 Punkten pro Zoll (Dots Per Inch, DPI).

  • Die maximale Anzahl Seiten für Trainingsdaten beträgt beim benutzerdefinierten Modelltraining 500 für das benutzerdefinierte Vorlagenmodell und 50.000 für das benutzerdefinierte neuronale Modell.

    • Für das Training benutzerdefinierter Extraktionsmodelle beträgt die Gesamtgröße der Trainingsdaten 50 MB für das Vorlagenmodell und 1 GB für das neuronale Modell.

    • Für das Training benutzerdefinierter Klassifizierungsmodelle beträgt die Gesamtgröße der Trainingsdaten 1 GB bei maximal 10.000 Seiten. Für 2024-07-31-preview und höher beträgt die Gesamtgröße der Trainingsdaten 2 GB bei maximal 10.000 Seiten.

  • Unterstützte Dateiformate: JPEG, PNG, PDF und TIFF.
  • Unterstützt PDF und TIFF, bis zu 2.000 Seiten werden verarbeitet. Bei Abonnements im Free-Tarif werden nur die ersten beiden Seiten verarbeitet.
  • Die unterstützte Dateigröße muss weniger als 50 MB betragen und die Abmessungen müssen mindestens 50 x 50 Pixel und dürfen höchstens 10.000 x 10.000 Pixel betragen.

Extrahieren von Rechnungsmodelldaten

Erfahren Sie, wie Daten, einschließlich Kundeninformationen, Herstellerdetails und Positionen, aus Rechnungen extrahiert werden. Sie benötigen die folgenden Ressourcen:

  • Ein Azure-Abonnement (Sie können ein kostenloses Abonnement erstellen).

  • Eine Dokument Intelligenz-Instanz im Azure-Portal. Sie können den kostenlosen Tarif (F0) verwenden, um den Dienst auszuprobieren. Wählen Sie nach der Bereitstellung Ihrer Ressource Zu Ressource wechseln aus, um Ihren Schlüssel und Endpunkt abzurufen.

Screenshot: Schlüssel und Endpunkt im Azure-Portal

  1. Wählen Sie auf der Startseite von Document Intelligence Studio Rechnungen aus.

  2. Sie können die Musterrechnung analysieren oder Ihre eigenen Dateien hochladen.

  3. Wählen Sie die Schaltfläche Analyse ausführen aus, und konfigurieren Sie bei Bedarf die Analyseoptionen:

    Screenshot der Schaltflächen „Analyse ausführen“ und „Analyseoptionen“ im Document Intelligence Studio.

Beispielbeschriftungstool von Dokument Intelligenz

  1. Navigieren Sie zum Dokument Intelligenz-Beispieltool.

  2. Wählen Sie auf der Startseite des Beispieltools die Kachel Use prebuilt model to get data (Vordefiniertes Modell zum Abrufen von Daten verwenden) aus.

    Screenshot: Vorgang zur Ergebnisanalyse des Layoutmodells.

  3. Wählen Sie im Dropdownfenster den zu analysierenden Formulartyp aus.

  4. Wählen Sie aus den folgenden Optionen eine URL zu der Datei aus, die Sie analysieren möchten:

  5. Wählen Sie im Feld Quelle die URL aus dem Dropdownmenü aus, fügen Sie die ausgewählte URL ein, und wählen Sie die Schaltfläche Abrufen aus.

    Screenshot des Dropdown-Menüs für den Quellort.

  6. Fügen Sie im Feld Dokument Intelligenz-Dienstendpunkt den Endpunkt ein, den Sie mit Ihrem Dokument Intelligenz-Abonnement erhalten haben.

  7. Fügen Sie im Feld Schlüssel den Schlüssel ein, den Sie von Ihrer Dokument Intelligenz-Ressource erhalten haben.

    Screenshot: Dropdownmenü zum Auswählen des Formulartyps.

  8. Wählen Sie Run Analysis (Analyse ausführen) aus. Das Dokument Intelligenz-Tool für die Beschriftung von Beispielen ruft die „Analyze Prebuilt“-API auf und analysiert das Dokument.

  9. Zeigen Sie die Ergebnisse an. Sehen Sie sich die extrahierten Schlüssel-Wert-Paare, die Positionen, den extrahierten markierten Text und die erkannten Tabellen an.

    Screenshot: Vorgang der Ergebnisanalyse des Layoutmodells.

Hinweis

Das Tool für die Beschriftung von Beispielen unterstützt nicht das BMP-Dateiformat. Dies ist eine Einschränkung des Tools, nicht des Dokument Intelligenz-Diensts.

Unterstützte Sprachen und Gebietsschemas

Eine vollständige Liste der unterstützten Sprachen finden Sie hier auf unserer Seite vordefiniertes Modell für Sprachunterstützung.

Feldextraktion

  • Informationen zu unterstützten Feldern für die Dokumentextraktion finden Sie auf der Seite Rechnungsmodellschema in unserem GitHub-Beispielrepository.

  • Die extrahierten Schlüssel-Wert-Paare der Rechnung und die Rechnungspositionen befinden sich im Abschnitt documentResults der JSON-Ausgabe.

Schlüsselwertepaare

Das vordefinierte Release 2022-06-30 und höhere Releases für Rechnungen unterstützen die optionale Rückgabe von Schlüssel-Wert-Paaren. Standardmäßig ist die Rückgabe von Schlüssel-Wert-Paaren deaktiviert. Schlüssel-Wert-Paare sind bestimmte Bereiche innerhalb der Rechnung, die eine Beschriftung oder einen Schlüssel und die zugehörige Antwort oder den zugehörigen Wert identifizieren. In einer Rechnung könnten diese Paare die Beschriftung und der Wert sein, den der Benutzer für dieses Feld oder die Telefonnummer eingegeben hat. Das KI-Modell wird trainiert, um identifizierbare Schlüssel und Werte basierend auf einer Vielzahl von Dokumenttypen, Formaten und Strukturen zu extrahieren.

Schlüssel können auch isoliert existieren, wenn das Modell feststellt, dass ein Schlüssel ohne zugehörigen Wert vorhanden ist, oder wenn optionale Felder verarbeitet werden. Beispielsweise kann ein Feld für den zweiten Vornamen in einigen Fällen in einem Formular leer gelassen werden. Schlüssel-Wert-Paare sind immer Textabschnitte, die im Dokument enthalten sind. Bei Dokumenten, in denen derselbe Wert auf unterschiedliche Weise beschrieben wird, z. B. Kunde/Benutzer, ist der zugehörige Schlüssel entweder Kunde oder Benutzer (je nach Kontext).

Extrahierte Felder

Der Rechnungsdienst extrahiert den Text, die Tabellen und 26 Rechnungsfelder. Im Folgenden werden die aus einer Rechnung extrahierten Felder in der JSON-Ausgabeantwort aufgeführt (die folgende Ausgabe basiert auf dieser Beispielrechnung).

Name Typ BESCHREIBUNG Text Wert (standardisierte Ausgabe)
CustomerName Zeichenfolge Kunde, dem die Rechnung gestellt wird Microsoft Corp.
CustomerId Zeichenfolge Referenz-ID für den Kunden CID-12345
PurchaseOrder Zeichenfolge Eine Referenznummer für die Bestellung PO-3333
InvoiceId Zeichenfolge ID für diese bestimmte Rechnung (oftmals „Rechnungsnummer“) INV-100
Rechnungsdatum date Datum, an dem die Rechnung ausgestellt wurde 15.11.2019 15.11.2019
DueDate date Datum, an dem die Zahlung für diese Rechnung fällig ist 15.12.2019 2019-12-15
VendorName Zeichenfolge Hersteller, der die Rechnung erstellt hat CONTOSO
VendorAddress Zeichenfolge Postanschrift für den Anbieter 123 456th St New York, NY, 10001
VendorAddressRecipient Zeichenfolge Der „VendorAddress“ (Anbieteranschrift) zugeordnete Name Contoso Headquarters
CustomerAddress Zeichenfolge Postanschrift für den Kunden 123 Other Street, Redmond, Washington, 98052
CustomerAddressRecipient Zeichenfolge Der „CustomerAddress“ (Kundenadresse) zugeordnete Name Microsoft Corp.
BillingAddress Zeichenfolge Explizite Rechnungsadresse für den Kunden 123 Bill Street, Redmond, Washington, 98052
BillingAddressRecipient Zeichenfolge Der „BillingAddress“ (Rechnungsadresse) zugeordnete Name Microsoft-Dienste
ShippingAddress Zeichenfolge Explizite Lieferadresse für den Kunden 123 Ship Street, Redmond, Washington, 98052
ShippingAddressRecipient Zeichenfolge Der „ShippingAdresss“ (Lieferadresse) zugeordnete Name Microsoft-Lieferung
Sub​Total Anzahl In dieser Rechnung identifiziertes Feld „Subtotal“ (Zwischensumme) $ 100,00 100
TotalTax Anzahl In dieser Rechnung identifiziertes Feld „Total tax“ (Gesamtsteuerbetrag) $ 10,00 10
InvoiceTotal Anzahl Summe der dieser Rechnung zugeordneten neuen Gebühren $ 110,00 110
AmountDue Anzahl Gesamtbetrag, der an den Anbieter zu zahlen ist $ 610,00 610
ServiceAddress Zeichenfolge Explizite Dienstadresse oder Immobilienadresse für den Kunden 123 Service Street, Redmond, Washington, 98052
ServiceAddressRecipient Zeichenfolge Der „ServiceAddress“ (Dienstadresse) zugeordnete Name Microsoft-Dienste
RemittanceAddress Zeichenfolge Explizite Überweisungs- oder Zahlungsadresse für den Kunden 123 Remit St New York, NY, 10001
RemittanceAddressRecipient Zeichenfolge Der „RemittanceAddress“ (Überweisungsadresse) zugeordnete Name Contoso-Abrechnung
ServiceStartDate date Anfangsdatum für den Dienstzeitraum (z. B. ein Dienstzeitraum für Hilfsprogrammrechnungen) 14.10.2019 14.10.2019
ServiceEndDate date Enddatum für den Dienstzeitraum (z B. ein Dienstzeitraum für Hilfsprogrammrechnungen) 14.11.2019 2019-11-14
PreviousUnpaidBalance Anzahl Zuvor explizit ausstehende Zahlung $ 500,00 500

Nachfolgend finden Sie die Einzelposten, die aus einer Rechnung in der JSON-Ausgabeantwort extrahiert wurden und für diese Beispielrechnung verwendet werden:

Name Typ BESCHREIBUNG Text (Rechnungsposition 1) Wert (standardisierte Ausgabe)
Elemente Zeichenfolge Vollständige Zeichenfolgentextzeile der Rechnungsposition 3/4/2021 A123 Consulting Services 2 hours $30.00 10% $60.00
Amount (Betrag) number Der Betrag der Rechnungsposition $60.00 100
BESCHREIBUNG Zeichenfolge Die Textbeschreibung für die Rechnungsposition der Rechnung Beratungsdienst Beratungsdienst
Menge number Die Menge für die Rechnungsposition 2 2
UnitPrice number Der Netto- oder Bruttopreis (abhängig von der Bruttorechnungseinstellung der Rechnung) einer Einheit dieses Elements 30,00 $ 30
ProductCode Zeichenfolge Produktcode, Produktnummer oder SKU der spezifischen Rechnungsposition A123
Einheit Zeichenfolge Die Einheit der Rechnungsposition, z. B. kg, lb usw. Stunden
Datum Datum Hierbei handelt es sich um das Datum für jede entsprechende Rechnungsposition. In den meisten Fällen handelt es sich dabei um das Datum, an dem eine Rechnungsposition versandt wurde 3/4/2021 2021-03-04
Tax (Steuern) number Hierbei handelt es sich um die Steuern für jede Rechnungsposition. Zu den möglichen Werten gehören der Steuerbetrag, die Steuer in Prozent und „tax Y/N“ (Steuer Ja/Nein). 10 %

Im Folgenden sind komplexe Felder aufgeführt, die aus einer Rechnung in der JSON-Ausgabeantwort extrahiert wurden:

TaxDetails

Steuerdetails definieren bestimmte Steuern, die auf die Rechnungssumme angewendet werden.

Name Typ BESCHREIBUNG Text (Rechnungsposition 1) Wert (standardisierte Ausgabe)
Elemente Zeichenfolge Vollständige Zeichenfolgentextzeile der Steuerposition V.A.T. 15 % $60,00
Betrag Zahl Der Steuerbetrag der Steuerposition 60,00 60
Satz Zeichenfolge Der Steuersatz der Steuerposition 15 %

PaymentDetails

Listet alle erkannten Zahlungsoptionen auf, die im Feld erkannt wurden.

Name Typ BESCHREIBUNG Text (Rechnungsposition 1) Wert (standardisierte Ausgabe)
IBAN Zeichenfolge Interne Bankkontonummer GB33BUKB20201555555555
SWIFT Zeichenfolge SWIFT-Code BUKBGB22
BankAccountNumber Zeichenfolge Bankkontonummer, ein eindeutiger Bezeichner für ein Bankkonto 123456
BPayBillerCode Zeichenfolge Australischer B-Pay-Rechnungsstellercode 12345
BPayReference Zeichenfolge Australischer B-Pay-Referenzcode 98765432100

JSON-Ausgabe

Die JSON-Ausgabe besteht aus drei Teilen:

  • Der Knoten "readResults" enthält den gesamten erkannten Text und alle erkannten Auswahlmarkierungen. Der Text ist nach Seite, dann nach Zeile und dann nach einzelnen Wörtern sortiert.
  • Der Knoten "pageResults" enthält die Tabellen und Zellen, die mit ihren Begrenzungsrahmen, Konfidenz und einem Verweis auf die Zeilen und Wörter in readResults extrahiert wurden.
  • Der Knoten "documentResults" enthält die spezifischen Werte und Rechnungspositionen der Rechnung, die vom Modell ermittelt wurden. Hier finden Sie alle Felder aus der Rechnung, wie z B. Rechnungs-ID, Lieferadresse, Rechnungsadresse, Kunde, Gesamtsumme, Rechnungspositionen und viele mehr.

Migrationsleitfaden

Nächste Schritte