Grundlegendes zu vordefinierten Modellen

Abgeschlossen

Die vordefinierten Modelle in Azure KI Dokument Intelligenz ermöglichen es Ihnen, Daten aus gängigen Formularen und Dokumenten zu extrahieren, ohne eigene Modelle trainieren zu müssen.

In Ihrem Meinungsforschungsinstitut gibt es für jedes Umfrageprojekt individuelle Umfrageformulare, aber Sie verwenden auch Rechnungen und Belege, um Finanztransaktionen zu erfassen, und Sie verfügen über viele unstrukturierte Dokumente. Sie möchten wissen, wie hoch der Aufwand für die Extraktion von Namen, Adressen, Mengenangaben und weiteren Informationen aus diesen Dokumenten wäre.

Hier erfahren Sie, wie vordefinierte Modelle Sie dabei unterstützen können, gängige Dokumenttypen zu analysieren.

Was sind vordefinierte Modelle?

Der allgemeine Ansatz bei KI-Lösungen besteht darin, eine große Menge an Stichprobendaten bereitzustellen und dann ein optimiertes Modell zu trainieren, indem verschiedene Datenfeatures, Parameter und statistische Verfahren ausprobiert werden. Die Kombination, mit der die für Sie relevanten Werte am besten vorhergesagt werden, bildet das trainierte Modell, das Sie zur Vorhersage von Werten aus neuen Daten nutzen können.

Viele der Formulare, die Unternehmen tagtäglich verwenden, können einigen wenigen gängigen Typen zugeordnet werden. Die meisten Unternehmen stellen zum Beispiel Rechnungen und Belege aus oder empfangen solche Dokumente. Jedes Unternehmen, das Angestellte in den Vereinigten Staaten beschäftigt, muss das W-2-Steuererklärungsformular verwenden. Außerdem sind oft allgemeinere Dokumente vorhanden, aus denen Sie Daten extrahieren möchten. Für diese Fälle stellt Microsoft vordefinierte Modelle bereit. Die vordefinierten Modelle wurden bereits mit einer großen Anzahl von Formularen des jeweiligen Zieltyps trainiert.

Wenn Sie mithilfe von Dokument Intelligenz Daten aus einem dieser gängigen Formulare oder Dokumente extrahieren möchten, können Sie ein vordefiniertes Modell verwenden und müssen kein eigenes Modell trainieren. Da Microsoft diese Modelle mit einem großen Bestand an Beispielen trainiert hat, können Sie sich darauf verlassen, dass die Modelle für die vorgesehenen Formulare genaue und zuverlässige Ergebnisse liefern.

Mehrere der vordefinierten Modelle sind für spezifische Formulartypen trainiert:

  • Rechnungsmodell: Extrahiert gängige Felder und deren Werte aus Rechnungen.
  • Belegmodell: Extrahiert gängige Felder und deren Werte aus Belegen.
  • W2-Modell: Extrahiert gängige Felder und deren Werte aus dem W2-Steuererklärungsformular der US-Regierung.
  • Modell für Ausweisdokumente: Extrahiert gängige Felder und deren Werte aus US-Führerscheinen und internationalen Ausweisdokumenten.
  • Modell für Visitenkarten: Extrahiert gängige Felder und deren Werte aus Visitenkarten.
  • Krankenversicherungskartenmodell Extrahiert gängige Felder und deren Werte aus Krankenversicherungskarten.

Die übrigen Modelle sind darauf ausgelegt, Werte aus Dokumenten mit weniger spezifischen Strukturen zu extrahieren:

  • Lesemodell: Extrahiert Text und Sprachen aus Dokumenten.
  • Allgemeines Dokumentmodell: Extrahiert Text, Schlüssel, Werte, Entitäten und Auswahlmarkierungen aus Dokumenten.
  • Layoutmodell: Extrahiert Text- und Strukturinformationen aus Dokumenten.

Features der vordefinierten Modelle

Die vordefinierten Modelle sind so konzipiert, dass unterschiedliche Arten von Daten aus den Dokumenten und Formularen extrahiert werden, die Benutzer übermitteln. Um das richtige Modell für Ihre Anforderungen auszuwählen, müssen Sie diese Features verstehen:

  • Textextraktion: Alle vordefinierten Modelle extrahieren Textzeilen und Wörter aus handschriftlichem und gedruckten Text.
  • Schlüssel-Wert-Paare Textabschnitte innerhalb eines Dokuments, die eine Beschriftung oder einen Schlüssel und die zugehörige Antwort oder den Wert identifizieren, werden von vielen Modellen als Schlüssel-Werte-Paare extrahiert. Ein typischer Schlüssel könnte zum Beispiel Gewicht sein, und der zugehörige Wert lautet 31 kg.
  • Entitäten Text, der allgemeine, komplexere Datenstrukturen enthält, kann in Form von Entitäten extrahiert werden. Zu den Entitätstypen gehören Personen, Orte und Datumsangaben.
  • Auswahlmarkierungen: Textabschnitte, die eine Auswahl angeben, können von einigen Modellen als Auswahlmarkierungen extrahiert werden. Diese Markierungen umfassen Optionsfelder und Kontrollkästchen.
  • Tabellen. Viele Modelle können Tabellen in gescannten Formularen extrahieren, einschließlich der in den Zellen enthaltenen Daten, der Anzahl von Spalten und Zeilen sowie der Spalten- und Zeilenüberschriften. Tabellen mit zusammengeführten Zellen werden unterstützt.
  • Felder Modelle, die für einen bestimmten Formulartyp trainiert wurden, identifizieren die Werte einer festen Gruppe von Feldern. Das Rechnungsmodell umfasst zum Beispiel die Felder CustomerName und InvoiceTotal.

Eingabeanforderungen

Die vordefinierten Modelle sind sehr flexibel, aber Sie können dazu beitragen, dass sie genaue und nützliche Ergebnisse liefern, indem Sie für jedes Dokument ein klares Foto oder einen hochwertigen Scan bereitstellen.

Sie müssen außerdem diese Anforderungen einhalten, wenn Sie ein Formular zur Analyse übermitteln:

  • Die Datei muss im JPEG-, PNG-, BMP-, TIFF- oder PDF-Format vorliegen. Darüber hinaus kann das Modell „Lesen“ Microsoft Office-Dateien akzeptieren.
  • Die Datei muss im Tarif „Standard“ kleiner als 500 MB und im Free-Tarif kleiner als 4 MB sein.
  • Bei Bildern müssen die Abmessungen zwischen 50 × 50 Pixel und 10.000 × 10.000 Pixel liegen.
  • PDF-Dokumente müssen eine Größe von weniger als 17 × 17 Zoll oder das A3-Format aufweisen.
  • PDF-Dokumente dürfen nicht mit einem Kennwort geschützt sein.

Hinweis

Übermitteln Sie nach Möglichkeit PDF-Dateien mit Texteinbettung, da so Fehler bei der Zeichenerkennung vermieden werden.

PDF- und TIFF-Dateien können eine beliebige Anzahl von Seiten aufweisen, aber im Tarif „Standard“ werden nur die ersten 2.000 Seiten analysiert. Im Free-Tarif werden nur die ersten beiden Seiten analysiert.

Vergleich der vordefinierten Modelle

Verwenden Sie diese Tabelle, um das beste vordefinierte Modell für Ihre Geschäftsanforderungen auszuwählen. In den folgenden Lerneinheiten erfahren Sie weitere Einzelheiten über die einzelnen Modelle und deren Einrichtung in Azure KI Dokument Intelligenz.

Modell Textextraktion Schlüssel-Wert-Paare Entitäten Auswahlmarkierungen Tabellen Felder
Lesen X
Allgemeines Dokument X X X X X
Layout X X X
Rechnung X X X X X
Rechnung X X X
W2 X X X X X
ID-Dokument X X X
Visitenkarte X X X

Beachten Sie außerdem, dass die vordefinierten Modelle für generische Dokument- und Formulartypen entworfen und trainiert wurden. Wenn Sie über einen branchenspezifischen oder einzigartigen Formulartyp verfügen, den Sie häufig verwenden, erhalten Sie durch die Verwendung eines benutzerdefinierten Modells möglicherweise zuverlässigere und besser vorhersehbare Ergebnisse. Die Entwicklung benutzerdefinierter Modelle ist jedoch zeitaufwändig, da Sie Zeit und Ressourcen investieren müssen, um die Modelle anhand von Beispielformularen zu trainieren, bevor Sie sie verwenden können. Je mehr Beispielformulare Sie für das Training zur Verfügung stellen, desto besser ist das Modell in der Lage, den Inhalt des Formulars genau vorherzusagen.

Testen vordefinierter Modelle mit Azure KI Dokument Intelligenz Studio

Azure KI Dokument Intelligenz ist als Webdienst konzipiert, den Sie per Code in Ihren benutzerdefinierten Anwendungen aufrufen können. Es ist jedoch oft hilfreich, die Modelle und ihr Verhalten in Bezug auf Ihre Formulare visuell zu untersuchen. Sie können solche Experimente mit Azure KI Dokument Intelligenz Studio durchführen und die Benutzeroberfläche beim Entwurf und Schreiben Ihres Codes nutzen.

Sie können ein beliebiges der vordefinierten Modelle in Azure KI Dokument Intelligenz Studio auswählen. Microsoft stellt für jedes Modell einige Beispieldokumente zur Verfügung. Sie können aber auch Ihre eigenen Dokumente hinzufügen und diese analysieren.

Screenshot showing how to use Azure AI Document Intelligence Studio to explore the business card prebuilt model.

Aufrufen vordefinierter Modelle mithilfe von APIs

Da Azure KI Dokument Intelligenz RESTful-Webdienste implementiert, können Sie Webdienstaufrufe aus jeder unterstützten Programmiersprache nutzen. Wenn Sie jedoch die Azure KI Dokument Intelligenz-APIs von Microsoft verwenden, wird die Sicherheits- und Sitzungsverwaltung vereinfacht, und Sie müssen weniger Code schreiben.

APIs sind verfügbar für:

  • C# und andere .NET-Sprachen
  • Java
  • Python.
  • JavaScript.

Bei jedem Aufruf von Azure KI Dokument Intelligenz müssen Sie sich zunächst in Ihrem Azure-Abonnement mit dem Dienst verbinden und sich authentifizieren. Zum Herstellen dieser Verbindung benötigen Sie Folgendes:

  • Der Dienstendpunkt. Dieser Wert ist die URL, unter der der Dienst veröffentlicht wird.
  • Den API-Schlüssel Dieser Wert ist ein eindeutiger Schlüssel, der Zugriff gewährt.

Sie können beide Werte im Azure-Portal abrufen.

Da es einige Sekunden dauern kann, bis der Dienst antwortet, sollten Sie für die Formularübermittlung asynchrone Aufrufe verwenden und dann die Ergebnisse der Analyse abrufen:

AnalyzeDocumentOperation operation = await client.AnalyzeDocumentFromUriAsync(WaitUntil.Completed, "prebuilt-layout", fileUri);

AnalyzeResult result = operation.Value;
poller = document_analysis_client.begin_analyze_document_from_url(
    "prebuilt-document", docUrl)
result: AnalyzeResult = poller.result()

Welche Details Sie aus diesen Ergebnissen extrahieren können, ist abhängig von dem von Ihnen verwendeten Modell.

Weitere Informationen