Dokumentintelligenz-Zertifikatmodell
Dieser Inhalt gilt für:Version 4.0 (Vorschau)
Das Dokumentintelligenz-Zertifikatsmodell verwendet leistungsstarke OCR-Funktionen (Optical Character Recognition), um Schlüsselfelder aus Ehezertifikaten zu analysieren und zu extrahieren. Heiratsurkunden können verschiedene Formate und Qualitäten haben, z. B. mit dem Handy aufgenommene Bilder, gescannte Dokumente und digitale PDFs. Die API analysiert Dokumenttext; extrahiert wichtige Informationen wie Ehegattennamen, Ausgabedatum und Eheplatz; und gibt eine strukturierte JSON-Datendarstellung zurück. Das Modell unterstützt derzeit englischsprachige Dokumentformate.
Automatisierte Verarbeitung von Ehescheinen
Die automatisierte Verarbeitung von Ehescheinen ist der Prozess der Extraktion von Schlüsselfeldern aus Ehezertifikaten. Die Analyse von Heiratsurkunden wird in der Regel manuell durchgeführt und ist daher sehr zeitaufwändig. Die genaue Extraktion von Schlüsseldaten aus Ehescheinen ist in der Regel der erste und einer der wichtigsten Schritte im Automatisierungsprozess von Ehescheinen.
Entwicklungsoptionen
Dokument-Intelligence v4.0 (2024-02-29-preview) unterstützt die folgenden Tools, Anwendungen und Bibliotheken:
Funktion | Ressourcen | Modell-ID |
---|---|---|
prebuilt-marriageCertificate.us | • Dokument-Intelligence Studio • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK |
prebuilt-marriageCertificate.us |
Eingabeanforderungen
Die besten Ergebnisse erzielen Sie, wenn Sie pro Dokument ein deutliches Foto oder einen hochwertigen Scan bereitstellen.
Unterstützte Dateiformate:
Modell PDF Bild:
JPEG/JPG, PNG, BMP, TIFF, HEIFMicrosoft Office:
Word (DOCX), Excel (XLSX), PowerPoint (PPTX) und HTMLLesen ✔ ✔ ✔ Layout ✔ ✔ ✔ (2024-02-29-preview, 2023-10-31-preview) Allgemeines Dokument ✔ ✔ Vordefiniert ✔ ✔ Benutzerdefinierte Extraktion ✔ ✔ Benutzerdefinierte Klassifizierung ✔ ✔ ✔ (2024-02-29-preview) In den Formaten PDF und TIFF können bis zu 2.000 Seiten verarbeitet werden (bei einem kostenlosen Abonnement werden nur die ersten beiden Seiten verarbeitet).
Die Dateigröße für die Analyse von Dokumenten beträgt 500 MB für die kostenpflichtige (S0) und 4 MB für die kostenlose (F0) Stufe.
Die Bildgrößen müssen im Bereich zwischen 50 × 50 Pixel und 10.000 × 10.000 Pixel liegen.
Wenn Ihre PDFs kennwortgeschützt sind, müssen Sie die Sperre vor dem Senden entfernen.
Die Mindesthöhe des zu extrahierenden Texts beträgt 12 Pixel für ein Bild von 1024 × 768 Pixel. Diese Abmessung entspricht etwa einem
8
-Punkt-Text bei 150 Punkten pro Zoll (Dots per Inch, DPI).Die maximale Anzahl Seiten für Trainingsdaten beträgt beim benutzerdefinierten Modelltraining 500 für das benutzerdefinierte Vorlagenmodell und 50.000 für das benutzerdefinierte neuronale Modell.
Für das Training des benutzerdefinierten Extraktionsmodells beträgt die Gesamtgröße der Trainingsdaten 50 MB für das Vorlagenmodell und 1G-MB für das neuronale Modell.
Für das Training des benutzerdefinierten Klassifizierungsmodells beträgt die Gesamtgröße der Trainingsdaten
1GB
mit einem Maximum von 10 000 Seiten.
Probieren Sie die Datenextraktion von Ehezertifikaten aus.
Um zu sehen, wie die Datenextraktion für den Kartendienst für Ehezertifikate funktioniert, benötigen Sie die folgenden Ressourcen:
Ein Azure-Abonnement (Sie können ein kostenloses Abonnement erstellen).
Eine Dokument Intelligenz-Instanz im Azure-Portal. Sie können den kostenlosen Tarif (
F0
) verwenden, um den Dienst auszuprobieren. Wählen Sie nach der Bereitstellung Ihrer Ressource Zu Ressource wechseln aus, um Ihren Schlüssel und Endpunkt abzurufen.
Dokument Intelligenz Studio
Wählen Sie auf der Startseite von Document Intelligence Studio die Option Heiratsurkunde aus.
Sie können die Beispiel-Ehescheine analysieren oder Eigene Dateien hochladen.
Wählen Sie die Schaltfläche Analyse ausführen aus, und konfigurieren Sie bei Bedarf die Analyseoptionen:
Unterstützte Sprachen und Gebietsschemas
Eine vollständige Liste der unterstützten Sprachen finden Sie unter Sprachunterstützung ‒ vordefinierte Modelle.
Feldextraktion
Im Folgenden sind die Felder aufgeführt, die aus einem Ehezertifikat in der JSON-Ausgabeantwort extrahiert wurden.
Name | Typ | Beschreibung | Beispielausgabe |
---|---|---|---|
Spouse1FirstName |
String | Vorname des Ehepartners 1 | Wesley |
Spouse1MiddleName |
String | Vorname des Ehegatten 1 | M. |
Spouse1LastName |
String | Nachname des Ehegatten 1 | Perry |
Spouse1Age |
Ganzzahl | Ehegatte 1 Jahre | 26 |
Spouse1BirthDate |
Datum | Geburtsdatum des Ehepartners 1 | 16. Nov., 1997 |
Spouse1Address |
Adresse | Adresse des Ehepartners 1 | 4292 Don Jackson Lane, Bloomfield Township, Michigan 48302 |
Spouse1BirthPlace |
String | Geburtsstätte des Ehepartners 1 | Michigan |
Spouse2FirstName |
String | Vorname des Ehepartners 2 | Beth |
Spouse2MiddleName |
String | Vorname des Ehepartners 2 | R. |
Spouse2LastName |
String | Familienname des Ehepartners 2 | Mason |
Spouse2Age |
Ganzzahl | Ehegatte 2 Jahre | 23 |
Spouse2BirthDate |
Datum | Geburtsdatum des Ehepartners 2 | Jul. 22, 2000 |
Spouse2Address |
Adresse | Adresse des Ehepartners 2 | 2671 Comfort Court, Wisconsin 53704 |
Spouse2BirthPlace |
String | Geburtsstätte des Ehepartners 2 | Wisconsin |
DocumentNumber |
String | Dokumentnummer | 01976/202 |
IssueDate |
Datum | Ausgabedatum des Zertifikats | Oktober 10, 2023 |
IssuePlace |
String | Stellen des Zertifikats aus | 2398 Echo Lane, Hastings, Michigan 49058 |
MarriageDate |
Datum | Heiratsdatum | Oktober 10, 2023 |
MarriagePlace |
String | Ort der Eheschließung | 105 Kohle Street, Galloway, Wisconsin 54432 |
Die extrahierten Schlüssel-Wert-Paare der Rechnung und die Rechnungspositionen befinden sich im Abschnitt documentResults
der JSON-Ausgabe.
Nächste Schritte
Versuchen Sie, Ihre eigenen Formulare und Dokumente mithilfe von Dokument Intelligenz Studio zu verarbeiten.
Führen Sie eine Dokument Intelligenz-Schnellstartanleitung durch, und beginnen Sie mit der Erstellung einer Anwendung zur Dokumentverarbeitung in der Entwicklungssprache Ihrer Wahl.
Feedback
https://aka.ms/ContentUserFeedback.
Bald verfügbar: Im Laufe des Jahres 2024 werden wir GitHub-Tickets als Feedbackmechanismus für Inhalte auslaufen lassen und es durch ein neues Feedbacksystem ersetzen. Weitere Informationen finden Sie unter:Einreichen und Feedback anzeigen für