Grundlegendes zu vordefinierten Modellen

3 Minuten

Die vordefinierten Modelle in Azure KI Dokument Intelligenz ermöglichen es Ihnen, Daten aus gängigen Formularen und Dokumenten zu extrahieren, ohne eigene Modelle trainieren zu müssen.

In Ihrem Meinungsforschungsinstitut gibt es für jedes Umfrageprojekt individuelle Umfrageformulare, aber Sie verwenden auch Rechnungen und Belege, um Finanztransaktionen zu erfassen, und Sie verfügen über viele unstrukturierte Dokumente. Sie möchten wissen, wie hoch der Aufwand für die Extraktion von Namen, Adressen, Mengenangaben und weiteren Informationen aus diesen Dokumenten wäre.

Hier erfahren Sie, wie vordefinierte Modelle Sie dabei unterstützen können, gängige Dokumenttypen zu analysieren.

Was sind vordefinierte Modelle?

Der allgemeine Ansatz bei KI-Lösungen besteht darin, eine große Menge an Stichprobendaten bereitzustellen und dann ein optimiertes Modell zu trainieren, indem verschiedene Datenfeatures, Parameter und statistische Verfahren ausprobiert werden. Die Kombination, mit der die für Sie relevanten Werte am besten vorhergesagt werden, bildet das trainierte Modell, das Sie zur Vorhersage von Werten aus neuen Daten nutzen können.

Viele der Formulare, die Unternehmen tagtäglich verwenden, können einigen wenigen gängigen Typen zugeordnet werden. Die meisten Unternehmen stellen zum Beispiel Rechnungen und Belege aus oder empfangen solche Dokumente. Jedes Unternehmen, das Angestellte in den Vereinigten Staaten beschäftigt, muss das W-2-Steuererklärungsformular verwenden. Außerdem sind oft allgemeinere Dokumente vorhanden, aus denen Sie Daten extrahieren möchten. Für diese Fälle stellt Microsoft vordefinierte Modelle bereit. Die vordefinierten Modelle wurden bereits mit einer großen Anzahl von Formularen des jeweiligen Zieltyps trainiert.

Wenn Sie mithilfe von Dokument Intelligenz Daten aus einem dieser gängigen Formulare oder Dokumente extrahieren möchten, können Sie ein vordefiniertes Modell verwenden und müssen kein eigenes Modell trainieren. Da Microsoft diese Modelle mit einem großen Bestand an Beispielen trainiert hat, können Sie sich darauf verlassen, dass die Modelle für die vorgesehenen Formulare genaue und zuverlässige Ergebnisse liefern.

Mehrere der vordefinierten Modelle sind für spezifische Formulartypen trainiert:

Rechnungsmodell: Extrahiert gängige Felder und deren Werte aus Rechnungen.
Belegmodell: Extrahiert gängige Felder und deren Werte aus Belegen.
US-Steuermodell. Einheitliches US-Steuermodell, das aus Formularen wie W-2, 1098, 1099 und 1040 extrahieren kann.
ID-Dokumentmodell. Extrahiert gängige Felder und deren Werte aus US-Führerscheinen, Personalausweisen und Führerscheinen der Europäischen Union und internationalen Pässen.
Modell für Visitenkarten: Extrahiert gängige Felder und deren Werte aus Visitenkarten.
Krankenversicherungskartenmodell Extrahiert gängige Felder und deren Werte aus Krankenversicherungskarten.
Heiratsurkunde. Extrahiert Informationen aus Heiratsurkunden.
Kredit-/Debitkartenmodell. Extrahiert gängige Informationen von Bankkarten.
Hypothekendokumente. Extrahiert Informationen aus der Offenlegung des Hypothekenabschlusses, aus dem einheitlichen Darlehensantrag für Wohnzwecke (Uniform Residential Loan Application, Formular 1003), der Schätzgutachten (Appraisal, Formular 1004), der Validierung der Beschäftigung (Validation of Employment, Formular 1005) und der einheitlichen Zusammenfassung für die Risikoübernahme und Übertragung (Uniform Underwriting and Transmittal Summary, Formular 1008).
Bankauszugsmodell. Extrahiert Kontoinformationen, einschließlich Anfangs- und Endsaldos sowie Transaktionsdetails aus Bankauszügen.
Lohnabrechnungsmodell. Extrahiert Löhne, Stunden, Abzüge, Nettolohn und andere gängige Lohnabrechnungsfelder.
Scheckmodell. Extrahiert Zahlungsempfänger, Betrag, Datum und andere relevante Informationen aus Schecks.

Die übrigen Modelle sind darauf ausgelegt, Werte aus Dokumenten mit weniger spezifischen Strukturen zu extrahieren:

Lesemodell: Extrahiert Text und Sprachen aus Dokumenten.
Allgemeines Dokumentmodell: Extrahiert Text, Schlüssel, Werte, Entitäten und Auswahlmarkierungen aus Dokumenten.
Layoutmodell: Extrahiert Text- und Strukturinformationen aus Dokumenten.

Features der vordefinierten Modelle

Die vordefinierten Modelle sind so konzipiert, dass unterschiedliche Arten von Daten aus den Dokumenten und Formularen extrahiert werden, die Benutzer übermitteln. Um das richtige Modell für Ihre Anforderungen auszuwählen, müssen Sie diese Features verstehen:

Textextraktion: Alle vordefinierten Modelle extrahieren Textzeilen und Wörter aus handschriftlichem und gedruckten Text.
Schlüssel-Wert-Paare Textabschnitte innerhalb eines Dokuments, die eine Beschriftung oder einen Schlüssel und die zugehörige Antwort oder den Wert identifizieren, werden von vielen Modellen als Schlüssel-Werte-Paare extrahiert. Ein typischer Schlüssel könnte zum Beispiel Gewicht sein, und der zugehörige Wert lautet 31 kg.
Entitäten Text, der allgemeine, komplexere Datenstrukturen enthält, kann in Form von Entitäten extrahiert werden. Zu den Entitätstypen gehören Personen, Orte und Datumsangaben.
Auswahlmarkierungen: Textabschnitte, die eine Auswahl angeben, können von einigen Modellen als Auswahlmarkierungen extrahiert werden. Diese Markierungen umfassen Optionsfelder und Kontrollkästchen.
Tabellen. Viele Modelle können Tabellen in gescannten Formularen extrahieren, einschließlich der in den Zellen enthaltenen Daten, der Anzahl von Spalten und Zeilen sowie der Spalten- und Zeilenüberschriften. Tabellen mit zusammengeführten Zellen werden unterstützt.
Felder Modelle, die für einen bestimmten Formulartyp trainiert wurden, identifizieren die Werte einer festen Gruppe von Feldern. Das Rechnungsmodell umfasst zum Beispiel die Felder CustomerName und InvoiceTotal.

Beachten Sie außerdem, dass die vordefinierten Modelle für generische Dokument- und Formulartypen entworfen und trainiert wurden. Wenn Sie über einen branchenspezifischen oder einzigartigen Formulartyp verfügen, den Sie häufig verwenden, erhalten Sie durch die Verwendung eines benutzerdefinierten Modells möglicherweise zuverlässigere und besser vorhersehbare Ergebnisse. Die Entwicklung benutzerdefinierter Modelle ist jedoch zeitaufwändig, da Sie Zeit und Ressourcen investieren müssen, um die Modelle anhand von Beispielformularen zu trainieren, bevor Sie sie verwenden können. Je mehr Beispielformulare Sie für das Training zur Verfügung stellen, desto besser ist das Modell in der Lage, den Inhalt des Formulars genau vorherzusagen.

Eingabeanforderungen

Die vordefinierten Modelle sind sehr flexibel, aber Sie können dazu beitragen, dass sie genaue und nützliche Ergebnisse liefern, indem Sie für jedes Dokument ein klares Foto oder einen hochwertigen Scan bereitstellen.

Sie müssen außerdem diese Anforderungen einhalten, wenn Sie ein Formular zur Analyse übermitteln:

Die Datei muss im JPEG-, PNG-, BMP-, TIFF- oder PDF-Format vorliegen. Darüber hinaus kann das Modell „Lesen“ Microsoft Office-Dateien akzeptieren.
Die Datei muss im Tarif „Standard“ kleiner als 500 MB und im Free-Tarif kleiner als 4 MB sein.
Bei Bildern müssen die Abmessungen zwischen 50 × 50 Pixel und 10.000 × 10.000 Pixel liegen.
PDF-Dokumente müssen eine Größe von weniger als 17 × 17 Zoll oder das A3-Format aufweisen.
PDF-Dokumente dürfen nicht mit einem Kennwort geschützt sein.

Hinweis

Übermitteln Sie nach Möglichkeit PDF-Dateien mit Texteinbettung, da so Fehler bei der Zeichenerkennung vermieden werden.

PDF- und TIFF-Dateien können eine beliebige Anzahl von Seiten aufweisen, aber im Tarif „Standard“ werden nur die ersten 2.000 Seiten analysiert. Im Free-Tarif werden nur die ersten beiden Seiten analysiert.

Testen vordefinierter Modelle mit Azure KI Dokument Intelligenz Studio

Azure KI Dokument Intelligenz ist als Webdienst konzipiert, den Sie per Code in Ihren benutzerdefinierten Anwendungen aufrufen können. Es ist jedoch oft hilfreich, die Modelle und ihr Verhalten in Bezug auf Ihre Formulare visuell zu untersuchen. Sie können solche Experimente mit Azure KI Dokument Intelligenz Studio durchführen und die Benutzeroberfläche beim Entwurf und Schreiben Ihres Codes nutzen.

Sie können ein beliebiges der vordefinierten Modelle in Azure KI Dokument Intelligenz Studio auswählen. Microsoft stellt für jedes Modell einige Beispieldokumente zur Verfügung. Sie können aber auch Ihre eigenen Dokumente hinzufügen und diese analysieren.

Aufrufen vordefinierter Modelle mithilfe von APIs

Da Azure KI Dokument Intelligenz RESTful-Webdienste implementiert, können Sie Webdienstaufrufe aus jeder unterstützten Programmiersprache nutzen. Wenn Sie jedoch die Azure KI Dokument Intelligenz-APIs von Microsoft verwenden, wird die Sicherheits- und Sitzungsverwaltung vereinfacht, und Sie müssen weniger Code schreiben.

APIs sind verfügbar für:

C# und andere .NET-Sprachen
Java
Python.
JavaScript.

Bei jedem Aufruf von Azure KI Dokument Intelligenz müssen Sie sich zunächst in Ihrem Azure-Abonnement mit dem Dienst verbinden und sich authentifizieren. Zum Herstellen dieser Verbindung benötigen Sie Folgendes:

Der Dienstendpunkt. Dieser Wert ist die URL, unter der der Dienst veröffentlicht wird.
Den API-Schlüssel Dieser Wert ist ein eindeutiger Schlüssel, der Zugriff gewährt.

Sie können beide Werte im Azure-Portal abrufen.

Da es einige Sekunden dauern kann, bis der Dienst antwortet, sollten Sie für die Formularübermittlung asynchrone Aufrufe verwenden und dann die Ergebnisse der Analyse abrufen:

AnalyzeDocumentOperation operation = await client.AnalyzeDocumentFromUriAsync(WaitUntil.Completed, "prebuilt-layout", fileUri);

AnalyzeResult result = operation.Value;

poller = document_analysis_client.begin_analyze_document(
        "prebuilt-layout", AnalyzeDocumentRequest(url_source=docUrl
    ))
result: AnalyzeResult = poller.result()

Welche Details Sie aus diesen Ergebnissen extrahieren können, ist abhängig von dem von Ihnen verwendeten Modell.

Weitere Informationen

Weiter