Verwenden der Modelle „Allgemeines Dokument“, „Lesen“ und „Layout“

Abgeschlossen

Wenn Sie Text, Sprachen und andere Informationen aus Dokumenten mit unvorhersehbaren Strukturen extrahieren möchten, können Sie die Modelle „Lesen“, „Allgemeines Dokument“ oder „Layout“ verwenden.

In Ihrem Marktforschungsinstitut senden Kunden und Partner oft Spezifikationen, Angebote, Leistungsbeschreibungen und andere Dokumente mit unvorhersehbaren Strukturen. Sie möchten wissen, ob die Funktion „Azure KI Dokument Intelligenz“ Werte aus diesen Dokumenten extrahieren und analysieren kann.

Sie erfahren nun mehr über die vordefinierten Modelle, die Microsoft für allgemeine Dokumente bereitstellt.

Das Modell „Lesen“

Das Lesemodell der Funktion „Azure KI Dokument Intelligenz“ extrahiert gedruckten und handschriftlichen Text aus Dokumenten und Bildern. Es wird in allen anderen vordefinierten Modellen zum Extrahieren von Text verwendet.

Das Modell „Lesen“ kann auch die Sprache einer Textzeile erkennen und klassifizieren, ob es sich um handschriftlichen oder gedruckten Text handelt.

Hinweis

Die Erkennung von Handschrift wird nur für lateinische Sprachen unterstützt.

Bei mehrseitigen PDF- oder TIFF-Dateien können Sie in Ihrer Anforderung den Parameter pages angeben, um einen Seitenbereich für die Analyse festzulegen.

Das Modell „Lesen“ ist ideal, wenn Sie Wörter und Zeilen aus Dokumenten extrahieren möchten, die keine feste oder vorhersehbare Struktur haben.

Verwenden des Modells „Allgemeines Dokument“

Das Modell „Allgemeines Dokument“ erweitert die Funktionalität des Modells „Lesen“, indem die Erkennung von Schlüssel-Wert-Paaren, Entitäten, Auswahlmarkierungen und Tabellen hinzugefügt wird. Das Modell kann diese Werte aus strukturierten, teilstrukturierten und unstrukturierten Dokumenten extrahieren.

Das Modell „Allgemeines Dokument“ ist das einzige vordefinierte Modell, das die Extraktion von Entitäten unterstützt. Es kann Entitäten wie Personen, Organisationen und Daten erkennen und überprüft das gesamte Dokument, nicht nur Schlüssel-Wert-Paare. Dieser Ansatz stellt sicher, dass in Fällen, in denen die strukturelle Komplexität des Modells die Extraktion eines Schlüssel-Wert-Paares verhindert hat, stattdessen eine Entität extrahiert werden kann. Bedenken Sie jedoch, dass manchmal für eine einzelne Textstelle sowohl ein Schlüssel-Wert-Paar als auch eine Entität zurückgegeben werden kann.

Es folgen die Arten von Entitäten, die erkannt werden können:

  • Person. Der Name einer Person
  • PersonType. Eine Position oder Rolle
  • Location. Gebäude, geografische Merkmale, geopolitische Entitäten
  • Organization. Unternehmen, Behörden, Sportvereine, Musikbands und andere Gruppen
  • Event. Gesellschaftliche Zusammenkünfte, historische Ereignisse, Jahrestage
  • Product. Ge- und verkaufte Objekte
  • Skill. Eine Fähigkeit einer Person
  • Address. Postalische Anschrift eines physischen Orts
  • Phone number. Vorwahlen und Nummern für Mobiltelefone und Festnetzanschlüsse
  • Email. E-Mail-Adressen
  • URL. Adressen von Webseiten
  • IP Address. Netzwerkadressen für Computerhardware
  • DateTime. Kalendertermine und Tageszeiten
  • Quantity. Numerische Maßeinheiten mit Einheiten

Das Modell „Layout“

Das Modell „Layout“ extrahiert nicht nur Text, sondern gibt auch Auswahlmarkierungen und Tabellen aus dem eingegebenen Bild oder der PDF-Datei zurück. Es eignet sich gut, wenn Sie umfangreiche Informationen zur Struktur eines Dokuments benötigen.

Wenn Sie ein Dokument digitalisieren, kann es sich in einem ungeraden Winkel befinden. Tabellen können komplizierte Strukturen mit oder ohne Überschriften, sich über Spalten oder Zeilen erstreckende Zellen und unvollständige Spalten oder Zeilen aufweisen. Das Modell „Layout“ kommt mit all diesen Schwierigkeiten zurecht und kann daher die vollständige Dokumentstruktur extrahieren.

Jede Zelle einer Tabelle wird beispielsweise mit folgenden Daten extrahiert:

  • Inhaltstext
  • Größe und Position des Begrenzungsrahmens
  • Teil einer Spaltenüberschrift, falls zutreffend
  • Indizes zum Angeben der Zeilen- und Spaltenposition in der Tabelle

Auswahlmarkierungen werden mit ihrem Begrenzungsrahmen, einem Konfidenzindikator und der Angabe ihres Auswahlstatus extrahiert.

Weitere Informationen