Dokument Intelligenz-Belegmodell

Artikel
10/19/2024

Wichtig

Public Preview-Releases von Dokument Intelligenz bieten frühzeitigen Zugriff auf Features, die sich in der aktiven Entwicklung befinden. Features, Ansätze und Prozesse können sich aufgrund von Benutzerfeedback vor der allgemeinen Verfügbarkeit (General Availability, GA) ändern.
Die Public Preview von Dokument Intelligenz-Clientbibliotheken verwendet standardmäßig Version 2024-07-31-preview der REST-API.
Die Public Preview 2024-07-31-preview ist derzeit lediglich in den folgenden Azure-Regionen verfügbar. Beachten Sie, dass das benutzerdefinierte generative Modell (Dokumentfeldextraktion) in KI Studio nur in der Region „USA, Norden-Mitte“ verfügbar ist:
- USA, Osten
- USA, Westen 2
- Europa, Westen
- USA Nord Mitte

Dieser Inhalt gilt für: Version 4.0 (Vorschau) | Vorherige Versionen: Version 3.1 (GA) Version 3.0 (GA) Version 2.1 (GA)

Dieser Inhalt gilt für: Version 3.1 (GA) | Aktuelle Version: Version 4.0 (Vorschau) | Vorherige Versionen: Version 3.0 Version 2.1

Dieser Inhalt gilt für: Version 3.0 (GA) | Aktuelle Versionen: Version 4.0 (Vorschau) Version 3.1 | Vorherige Version: Version 2.1

Dieser Inhalt gilt für: Version 2.1 | Neueste Version: Version 4.0 (Vorschau)

Das Belegmodell von Dokument Intelligenz kombiniert leistungsstarke OCR-Funktionen (Optical Character Recognition, optische Zeichenerkennung) mit Deep Learning-Modellen, um wichtige Informationen aus Kaufbelegen zu analysieren und zu extrahieren. Belege können verschiedene Formate und unterschiedliche Qualität aufweisen, einschließlich gedruckter und handschriftlicher Belege. Die API extrahiert Schlüsselinformationen wie Händlername, Händlertelefonnummer, Transaktionsdatum, Steuer und Transaktionssumme und gibt strukturierte JSON-Daten zurück.

Unterstützte Belegtypen:

Thermal
Kreditkarte
Gas
Parkplatz
Hotel
Transport
Kommunikation
Entertainment
Flug
Training
Apotheke/Medizin

Datenextraktion von Belegdaten

Die Digitalisierung von Belegen umfasst die Umwandlung verschiedener Belegtypen, einschließlich gescannter, fotografierter und gedruckter Kopien, in ein digitales Format für eine optimierte Nachverarbeitung. Beispiele hierfür sind Kostenverwaltung, Verbraucherverhaltensanalyse oder die Automatisierung von Steuern. Mithilfe von Dokument Intelligenz mit OCR-Technologie (Optical Character Recognition) können Daten aus diesen verschiedenen Belegformaten extrahiert und interpretiert werden. Die Dokument Intelligenz-Verarbeitung vereinfacht nicht nur den Konvertierungsprozess, sie reduziert auch Zeit- und Arbeitsaufwand erheblich und ermöglicht so mehr Effizienz bei Datenverwaltung und -abruf.

Beispielbeleg, der mit Dokument Intelligenz Studio verarbeitet wurde:

Beispielbeleg, der mit dem Tool zur Beschriftung von Beispielen in Dokument Intelligenz Studio verarbeitet wurde:

Screenshot eines Beispielbelegs, der mit dem Tool zur Bezeichnung von Formularbeispielen verarbeitet wurde.

Entwicklungsoptionen

Dokument Intelligenz v4.0 (2024-07-31-preview) unterstützt die folgenden Tools, Anwendungen und Bibliotheken:

Funktion	Ressourcen	Modell-ID
Belegmodell	• Document Intelligence Studio • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK	prebuilt-receipt

Document Intelligence v3.1 unterstützt die folgenden Tools, Anwendungen und Bibliotheken:

Feature	Ressourcen	Modell-ID
Belegmodell	• Document Intelligence Studio • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK	prebuilt-receipt

Document Intelligence v3.0 unterstützt die folgenden Tools, Anwendungen und Bibliotheken:

Feature	Ressourcen	Modell-ID
Belegmodell	• Document Intelligence Studio • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK	prebuilt-receipt

Document Intelligence v2.1 unterstützt die folgenden Tools, Anwendungen und Bibliotheken:

Feature	Ressourcen
Belegmodell	• Document Intelligence-Bezeichnungstool • REST-API • Clientbibliothek SDK • Document Intelligence Docker-Container

Eingabeanforderungen

Unterstützte Dateiformate:

Modell	PDF	Abbildung: `JPEG/JPG`, `PNG`, `BMP`, `TIFF`, `HEIF`	Microsoft Office: Word (`DOCX`), Excel (`XLSX`), PowerPoint (`PPTX`), HTML
Lesen Sie	✔	✔	✔
Layout	✔	✔	✔ (2024-07-31-preview, 2024-02-29-preview, 2023-10-31-preview)
Allgemeines Dokument	✔	✔
Vordefiniert	✔	✔
Benutzerdefinierte Extraktion	✔	✔
Benutzerdefinierte Klassifizierung	✔	✔	✔ (2024-07-31-preview, 2024-02-29-preview)

Die besten Ergebnisse erzielen Sie, wenn Sie pro Dokument ein deutliches Foto oder einen hochwertigen Scan bereitstellen.
In den Formaten PDF und TIFF können bis zu 2,000 Seiten verarbeitet werden (bei einem kostenlosen Abonnement werden nur die ersten beiden Seiten verarbeitet).
Die Dateigröße für die Analyse von Dokumenten beträgt 500 MB für den kostenpflichtigen Tarif (S0) und 4 MB für den kostenlosen Tarif (F0).
Die Bildgröße muss zwischen 50 × 50 Pixel und 10.000 × 10.000 Pixel liegen.
Wenn Ihre PDFs kennwortgeschützt sind, müssen Sie die Sperre vor dem Senden entfernen.
Die Mindesthöhe des zu extrahierenden Texts beträgt 12 Pixel für ein Bild von 1024 × 768 Pixel. Diese Abmessung entspricht etwa einem 8-Punkttext bei 150 Punkten pro Zoll (Dots Per Inch, DPI).
Die maximale Anzahl Seiten für Trainingsdaten beträgt beim benutzerdefinierten Modelltraining 500 für das benutzerdefinierte Vorlagenmodell und 50.000 für das benutzerdefinierte neuronale Modell.
- Für das Training benutzerdefinierter Extraktionsmodelle beträgt die Gesamtgröße der Trainingsdaten 50 MB für das Vorlagenmodell und 1 GB für das neuronale Modell.
- Für das Training benutzerdefinierter Klassifizierungsmodelle beträgt die Gesamtgröße der Trainingsdaten 1 GB bei maximal 10.000 Seiten. Für 2024-07-31-preview und höher beträgt die Gesamtgröße der Trainingsdaten 2 GB bei maximal 10.000 Seiten.

Unterstützte Dateiformate: JPEG, PNG, PDF und TIFF.
Unterstützte Seitenzahl für PDF und TIFF: Document Intelligence kann bis zu 2.000 Seiten für Abonnenten der Standardstufe oder nur die ersten beiden Seiten für Abonnenten der kostenlosen Stufe verarbeiten.
Unterstützte Dateigröße: weniger als 50 MB; Mindestpixel 50 x 50 px; Maximale Pixel 10.000 x 10.000 px.

Extrahieren von Belegmodelldaten

Hier erfahren Sie, wie Dokument Intelligenz Daten aus Belegen extrahiert – einschließlich Transaktionszeit und -datum sowie Händlerinformationen und Beträge. Sie benötigen die folgenden Ressourcen:

Ein Azure-Abonnement (Sie können ein kostenloses Abonnement erstellen).
Eine Dokument Intelligenz-Instanz im Azure-Portal. Sie können den kostenlosen Tarif (F0) verwenden, um den Dienst auszuprobieren. Wählen Sie nach der Bereitstellung Ihrer Ressource Zu Ressource wechseln aus, um Ihren Schlüssel und Endpunkt abzurufen.

Screenshot: Schlüssel und Endpunkt im Azure-Portal

Hinweis

Dokument Intelligenz Studio ist mit den APIs der Versionen 3.1 und 3.0 und höheren Versionen verfügbar.

Wählen Sie auf der Startseite von Document Intelligence Studio Belege aus.
Sie können den Musterbeleg analysieren oder Ihre eigenen Dateien hochladen.
Wählen Sie die Schaltfläche Analyse ausführen aus, und konfigurieren Sie bei Bedarf die Analyseoptionen:

Testen Sie Document Intelligence Studio.

Beispielbeschriftungstool von Dokument Intelligenz

Navigieren Sie zum Dokument Intelligenz-Beispieltool.
Wählen Sie auf der Startseite des Beispieltools die Kachel Use prebuilt model to get data (Vordefiniertes Modell zum Abrufen von Daten verwenden) aus.
Wählen Sie im Dropdownfenster den zu analysierenden Formulartyp aus.
Wählen Sie aus den folgenden Optionen eine URL zu der Datei aus, die Sie analysieren möchten:
Wählen Sie im Feld Quelle die URL aus dem Dropdownmenü aus, fügen Sie die ausgewählte URL ein, und wählen Sie die Schaltfläche Abrufen aus.
Fügen Sie im Feld Dokument Intelligenz-Dienstendpunkt den Endpunkt ein, den Sie mit Ihrem Dokument Intelligenz-Abonnement erhalten haben.
Fügen Sie im Feld Schlüssel den Schlüssel ein, den Sie von Ihrer Dokument Intelligenz-Ressource erhalten haben.
Wählen Sie Run Analysis (Analyse ausführen) aus. Das Dokument Intelligenz-Tool für die Beschriftung von Beispielen ruft die „Analyze Prebuilt“-API auf und analysiert das Dokument.
Zeigen Sie die Ergebnisse an. Sehen Sie sich die extrahierten Schlüssel-Wert-Paare, die Positionen, den extrahierten markierten Text und die erkannten Tabellen an.

Hinweis

Das Tool für die Beschriftung von Beispielen unterstützt nicht das BMP-Dateiformat. Dies ist eine Einschränkung des Tools, nicht des Dokument Intelligenz-Diensts.

Unterstützte Sprachen und Gebietsschemas

Eine vollständige Liste der unterstützten Sprachen finden Sie hier auf unserer Seite vordefinierte Modelle für Sprachunterstützung.

Feldextraktion

Name	Typ	BESCHREIBUNG	Standardisierte Ausgabe
ReceiptType	String	Der Typ des Belegs	Aufgeschlüsselt
MerchantName	String	Der Name des Händlers, der den Beleg ausstellt
MerchantPhoneNumber	phoneNumber	Die aufgeführte Telefonnummer des Händlers	+1 xxx xxx xxxx
MerchantAddress	String	Die aufgeführte Adresse des Händlers
TransactionDate	Datum	Das Datum der Ausstellung des Belegs	yyyy-mm-dd
TransactionTime	Time	Die Uhrzeit der Ausstellung des Belegs	hh-mm-ss (24 Stunden)
Gesamt	Betrag (USD)	Die Gesamttransaktion des Belegs	Gleitkommazahl mit zwei Dezimalstellen
Subtotal (Zwischensumme)	Betrag (USD)	Die Zwischensumme des Belegs, oft vor Steuern	Gleitkommazahl mit zwei Dezimalstellen
Tax (Steuern)	Betrag (USD)	Gesamtsteuerbetrag auf dem Beleg (oft Mehrwertsteuer oder Äquivalent). Umbenannt in „TotalTax“ (Gesamtsteuerbetrag) in Version 2022-06-30.	Gleitkommazahl mit zwei Dezimalstellen
Tipp	Betrag (USD)	Vom Käufer gegebenes Trinkgeld	Gleitkommazahl mit zwei Dezimalstellen
Elemente	Array von Objekten	Die extrahierten Positionen mit extrahierten Werten für Name, Menge, Stückpreis und Gesamtpreis
Name	String	Beschreibung der Position. Umbenannt in „Description“ (Beschreibung) in Version 2022-06-30.
Menge	Number	Menge der einzelnen Positionen	Gleitkommazahl mit zwei Dezimalstellen
Preis	Number	Einzelpreis der einzelnen Positionen	Gleitkommazahl mit zwei Dezimalstellen
Gesamtpreis	Number	Gesamtpreis der Position	Gleitkommazahl mit zwei Dezimalstellen

Informationen zu unterstützten Feldern für die Dokumentextraktion finden Sie auf der Seite Belegmodellschema in unserem GitHub-Beispielrepository.

Migrationsleitfaden und REST-API 3.1

Folgen Sie dem Migrationsleitfaden für Dokument Intelligenz 3.1, um zu erfahren, wie Sie die Version 3.1 in Ihren Anwendungen und Workflows verwenden können.

Nächste Schritte

Versuchen Sie, Ihre eigenen Formulare und Dokumente mithilfe von Dokument Intelligenz Studio zu verarbeiten.
Führen Sie eine Dokument Intelligenz-Schnellstartanleitung durch, und beginnen Sie mit der Erstellung einer Anwendung zur Dokumentverarbeitung in der Entwicklungssprache Ihrer Wahl.

Weitere Beispiele finden Sie auf GitHub.

Weitere Beispiele finden Sie auf GitHub.

Versuchen Sie, Ihre eigenen Formulare und Dokumente mithilfe des Dokument Intelligenz-Stichproben-Bezeichnungstools zu verarbeiten.
Führen Sie eine Dokument Intelligenz-Schnellstartanleitung durch, und beginnen Sie mit der Erstellung einer Anwendung zur Dokumentverarbeitung in der Entwicklungssprache Ihrer Wahl.

Teilen über