Was ist Azure Document Intelligence?

8 Minuten

Tipp

Weitere Details finden Sie auf der Registerkarte "Text und Bilder ".

Azure Document Intelligence ist ein cloudbasierter KI-Dienst in Microsoft Foundry, der OCR und Deep Learning-Modelle verwendet, um Text, Schlüsselwertpaare, Auswahlzeichen und Tabellen aus Dokumenten zu extrahieren.

OCR erfasst die Dokumentstruktur, indem Begrenzungsrahmen um erkannte Objekte in einem Bild erstellt werden. Die Positionen der Begrenzungsrahmen werden als Koordinaten im Verhältnis zum Rest der Seite aufgezeichnet. Azure Dokument Intelligenz gibt umgebende Felddaten und andere Informationen in einem strukturierten JSON-Format zurück, das die Beziehungen aus dem ursprünglichen Dokument bewahrt.

Screenshot von Document Intelligence, das ein Beispieldokument mit extrahierten Feldern und Begrenzungsrahmen analysiert.

Um ein präzises Dokumentextraktionsmodell von Grund auf zu erstellen, ist umfassendes Lernwissen, große Rechenmengen und lange Schulungszeiten erforderlich. Azure Document Intelligence bietet zugrunde liegende Modelle, die bereits auf Tausenden von Formularbeispielen trainiert wurden, sodass Sie eine präzise Datenextraktion mit minimalem Aufwand erzielen können.

Komponenten des Dokumentintelligenzdiensts

Azure Document Intelligence besteht aus drei Kategorien von Modellen:

Dokumentanalysemodelle: Extrahieren von Text, Struktur, Tabellen und Auswahlzeichen aus Dokumenten. Das Lesemodell extrahiert Text und erkennt Sprachen, während das Layoutmodell die Tabellen- und Strukturextraktion hinzufügt. Sie werden diese Modelle im Detail in der Einheit "Vorgefertigte Modelle verwenden" erkunden.
Vorgefertigte Modelle: Extrahieren Sie Informationen aus gängigen Dokumenttypen – z. B. Rechnungen, Belege, Steuerformulare, ID-Dokumente und mehr – ohne erforderliche Schulung. Die vollständige Liste der verfügbaren vorgefertigten Modelle wird in der Einheit "Vorgefertigte Modelle verwenden" angezeigt.
Benutzerdefinierte Modelle: Extrahieren von Daten aus Formularen, die spezifisch für Ihr Unternehmen sind, mithilfe Ihrer eigenen beschrifteten Datensätze. Zu den Optionen gehören benutzerdefinierte Vorlagenmodelle (schnell und kostengünstig für feste Layouts), benutzerdefinierte neurale Modelle (höhere Genauigkeit für unterschiedliche Layouts), zusammengesetzte Modelle und benutzerdefinierte Klassifizierer. Sie lernen, benutzerdefinierte Modelle zu trainieren und zu verwenden, in der Einheit Trainieren und Verwenden von benutzerdefinierten Modellen.

Zugreifen auf Dokumentintelligenzdienste

Sie können auf verschiedene Arten auf Azure Document Intelligence zugreifen:

REST-API: Rufen Sie den Dienst direkt mithilfe von HTTP-Anforderungen auf.
Clientbibliotheks-SDKs: Verwenden Sie SDKs für Python, C#, Java und JavaScript.
Document Intelligence Studio: Ein Onlinetool zum visuellen Untersuchen, Testen und Erstellen von Document Intelligence-Lösungen.
Microsoft Foundry-Portal: Integrieren von Dokumentintelligenz in andere Foundry-Tools.

Tipp

Die Übung dieses Moduls konzentriert sich auf das Python SDK. Die zugrunde liegenden REST-Dienste können von jeder Sprache verwendet werden.

Erstellen einer Ressource für Dokument-Intelligenz

Um Azure Document Intelligence zu verwenden, benötigen Sie eine Azure-Ressource. Sie können Folgendes verwenden:

Eine Foundry-Ressource: Ein Abonnement für mehrere Dienste, das über einen einzigen Endpunkt und einen einzigen Schlüssel Zugriff auf mehrere KI-Dienste bietet.
Eine Azure Document Intelligence-Ressource: Eine Ressource mit einem einzigen Dienst, die nur mit Document Intelligence verwendet wird.

Hinweis

Erstellen Sie eine Foundry-Ressource, wenn Sie beabsichtigen, auf mehrere Foundry-Tools unter einem einzelnen Endpunkt und Schlüssel zuzugreifen. Um ausschließlich auf die Dokumentintelligenz zuzugreifen, erstellen Sie eine dedizierte Ressource für die Dokumentintelligenz.

Eingabeanforderungen

Azure Document Intelligence funktioniert für Eingabedokumente, die diese Anforderungen erfüllen:

Das Format muss JPEG, PNG, BMP, PDF (Text oder gescannt) oder TIFF sein. Das Lesemodell akzeptiert auch Microsoft Office-Dateiformate.
Die Dateigröße muss kleiner als 500 MB für die Standardebene und 4 MB für die kostenlose Ebene sein.
Bei Bildern müssen die Abmessungen zwischen 50 × 50 Pixel und 10,000 × 10,000 Pixel liegen.
PDF-Dokumente müssen abmessungen kleiner als 17 x 17 Zoll haben (A3 Papierformat).
PDF-Dokumente dürfen nicht kennwortgeschützt sein.

Weitere Informationen

Feedback

War diese Seite hilfreich?