Zusammensetzen benutzerdefinierter Modelle
HervorhebungsformatDieser Inhalt gilt für: Version 4.0 (Vorschau) | Vorherige Versionen: Version 3.1 (GA) Version 3.0 (GA) Version 2.1 (GA)
Dieser Inhalt gilt für: Version 3.1 (GA) | Aktuelle Version: Version 4.0 (Vorschau) | Vorherige Versionen: Version 3.0 Version 2.1
Dieser Inhalt gilt für: Version 3.0 (GA) | Aktuelle Versionen: Version 4.0 (Vorschau) Version 3.1 | Vorherige Version: Version 2.1
Dieser Inhalt gilt für: Version 2.1 | Neueste Version: Version 4.0 (Vorschau)
Wichtig
Das Modellerstellungsverhalten ändert sich für api-version=2024-07-31-preview und höher. Weitere Informationen finden Sie unter zusammengesetzte benutzerdefinierte Modelle. Das folgende Verhalten gilt nur für v3.1 und frühere Versionen
Ein zusammengesetztes Modell wird erstellt, indem eine Sammlung benutzerdefinierter Modelle verwendet und diese einer einzigen Modell-ID zugewiesen werden. Sie können einer einzelnen zusammengesetzten Modell-ID bis zu 200 trainierte benutzerdefinierte Modelle zuweisen. Wenn ein Dokument an ein zusammengesetztes Modell übermittelt wird, führt der Dienst einen Klassifizierungsschritt aus, um zu entscheiden, welchem benutzerdefiniertem Modell das zur Analyse eingereichte Formular genau entspricht. Zusammengesetzte Modelle sind nützlich, wenn Sie mehrere Modelle trainiert haben und diese gruppieren möchten, um ähnliche Formulartypen zu analysieren. Ihr zusammengesetztes Modell kann z. B. benutzerdefinierte Modelle einschließen, die trainiert wurden, um Ihre Bestellungsdokumente für Material, Ausrüstung und Möbel zu analysieren. Anstatt das entsprechende Modell manuell auszuwählen, können Sie ein zusammengesetztes Modell verwenden, um das zutreffende benutzerdefinierte Modell für jede Analyse und Extraktion zu bestimmen.
Weitere Informationen finden Sie unter Zusammengestellte benutzerdefinierte Modelle.
In diesem Artikel erfahren Sie, wie Sie zusammengesetzte benutzerdefinierte Modelle erstellen und verwenden, um Ihre Formulare und Dokumente zu analysieren.
Voraussetzungen
Für den Einstieg benötigen Sie die folgenden Ressourcen:
Ein Azure-Abonnement. Sie können ein kostenloses Azure-Abonnement erstellen.
Eine Document Intelligence-Instanz. Sobald Sie über Ihr Azure-Abonnement verfügen, erstellen Sie eine Document Intelligence-Ressource im Azure-Portal, um Ihren Schlüssel und Endpunkt zu erhalten. Wenn Sie über eine vorhandene Document Intelligence-Ressource verfügen, navigieren Sie direkt zu Ihrer Ressourcenseite. Sie können den kostenlosen Tarif (F0) verwenden, um den Dienst zu testen, und später für die Produktion auf einen kostenpflichtigen Tarif upgraden.
Nachdem die Ressource bereitgestellt wurde, klicken Sie auf Zu Ressource wechseln.
Kopieren Sie die Werte für Schlüssel und Endpunkt aus dem Azure-Portal an einen praktischen Speicherort, etwa Editor von Microsoft. Sie benötigen die Schlüssel- und Endpunktwerte, um Ihre Anwendung mit der Document Intelligence-API zu verbinden.
Tipp
Weitere Informationen finden Sie unter Erstellen einer Document Intelligence-Ressource.
- Ein Azure-Speicherkonto. Wenn Sie nicht wissen, wie Sie ein Azure Storage-Konto erstellen, folgen Sie den Anweisungen im Azure Storage-Schnellstart für das Azure-Portal. Sie können den kostenlosen Tarif (F0) verwenden, um den Dienst zu testen, und später für die Produktion auf einen kostenpflichtigen Tarif upgraden.
Erstellen der benutzerdefinierten Modelle
Zunächst benötigen Sie einen Satz benutzerdefinierter Modelle für die Erstellung. Sie können Document Intelligence Studio, die REST-API oder Clientbibliotheken verwenden. Die Schritte lauten wie folgt:
- Zusammenstellen des Trainingsdatasets
- Hochladen Ihres Trainingssets auf Azure Blob Storage
- Trainieren Ihrer benutzerdefinierten Modelle
Zusammenstellen des Trainingsdatasets
Die Erstellung eines benutzerdefinierten Modells beginnt mit dem Einrichten des Trainingsdatasets. Für Ihr Beispieldataset benötigen Sie mindestens fünf ausgefüllte Formulare desselben Typs. Diese können unterschiedliche Dateitypen (jpg, png, pdf, tiff) aufweisen und Text sowie Handschrift enthalten. Die Formulare müssen die Eingabeanforderungen für Document Intelligence erfüllen.
Tipp
Befolgen Sie diese Tipps, um Ihr Dataset für das Training zu optimieren:
- Verwenden Sie nach Möglichkeit textbasierte PDF-Dokumente anstelle von bildbasierten Dokumenten. Gescannte PDF-Dateien werden als Bilder behandelt.
- Verwenden Sie als ausgefüllte Formulare Exemplare, in denen alle Felder ausgefüllt sind.
- Verwenden Sie Formulare mit verschiedenen Werten in jedem Feld.
- Wenn Ihre Formularbilder eine mäßige Qualität aufweisen, verwenden Sie ein größeres Dataset (beispielsweise 10–15 Bilder).
Tipps zum Sammeln von Trainingsdokumenten finden Sie unter Erstellen eines Trainingsdatasets für ein benutzerdefiniertes Modell.
Hochladen Ihres Trainingsdatasets
Wenn Sie einen Satz von Trainingsdokumenten zusammengestellt haben, müssen Sie Ihre Trainingsdaten in einen Azure-Blobspeichercontainer hochladen.
Wenn Sie manuell bezeichnete Daten verwenden möchten, müssen Sie auch die Dateien .labels.json und .ocr.json hochladen, die Ihren Trainingsdokumenten entsprechen.
Trainieren Ihres benutzerdefinierten Modells
Wenn Sie Ihr Modell mit beschrifteten Daten trainieren, extrahiert das Modell relevante Werte mit überwachtem Lernen, wobei die von Ihnen bereitgestellten beschrifteten Formulare verwendet werden. Beschriftete Daten führen zu Modellen mit besserer Leistung und können Modelle hervorbringen, die mit komplexen Formularen oder Formularen arbeiten, die Werte ohne Schlüssel enthalten.
Document Intelligence verwendet die API für vordefinierte Layoutmodelle, um die erwarteten Größen und Positionen von gedruckten und handschriftlichen Textelementen zu erlernen und Tabellen zu extrahieren. Anschließend werden benutzerdefinierte Beschriftungen verwendet, um die Schlüssel-Wert-Zuordnungen und Tabellen in den Dokumenten zu erlernen. Wir empfehlen, fünf manuell beschriftete Formulare gleichen Typs (gleiche Struktur) zu verwenden, um mit dem Trainieren eines neuen Modells zu beginnen. Fügen Sie dann nach Bedarf weitere beschriftete Daten hinzu, um die Modellgenauigkeit zu verbessern. Document Intelligence ermöglicht das Trainieren eines Modells zum Extrahieren von Schlüssel-Wert-Paaren und Tabellen mithilfe der Funktionen für beaufsichtigtes Lernen.
Für die Erstellung benutzerdefinierter Modelle konfigurieren Sie zunächst Ihr Projekt:
Wählen Sie auf der Startseite von Studio Neu erstellen auf der Karte „Benutzerdefiniertes Modell“ aus.
Verwenden Sie den Befehl ➕ Projekt erstellen, um den Konfigurations-Assistenten für neue Projekte zu starten.
Geben Sie Projektdetails ein, und wählen Sie das Azure-Abonnement und die -Ressource sowie den Azure Blob Storage-Container aus, in dem Ihre Daten enthalten sind.
Überprüfen Sie Ihre Einstellungen, übermitteln Sie sie, und erstellen Sie das Projekt.
Beim Erstellen Ihrer benutzerdefinierten Modelle müssen Sie unter Umständen Datensammlungen aus Ihren Dokumenten extrahieren. Die Sammlungen können eines von zwei Formaten aufweisen. Verwenden von Tabellen als visuelles Muster:
Dynamische oder variable Anzahl von Werten (Zeilen) für eine bestimmte Gruppe von Feldern (Spalten)
Bestimmte Sammlung mit Werten für eine bestimmte Gruppe von Feldern (Spalten und/oder Zeilen)
Weitere Informationen finden Sie unter Document Intelligence Studio: Bezeichnungen als Tabellen.
Erstellen zusammengesetzter Modelle
Hinweis
Der Vorgang create compose model
ist nur für benutzerdefinierte Modelle verfügbar, die mit Beschriftungen trainiert wurden. Der Versuch, Modelle ohne Bezeichnung zusammenzusetzen, erzeugt einen Fehler.
Mit dem Vorgang create compose model können Sie einer Modell-ID bis zu 100 trainierte benutzerdefinierte Modelle zuweisen. Wenn Sie mit einem zusammengesetzten Modell Dokumente analysieren, klassifiziert Document Intelligence zunächst das von Ihnen übermittelte Formular, wählt dann das am ehesten übereinstimmende Modell aus und gibt die Ergebnisse für dieses Modell zurück. Dieser Vorgang ist nützlich, wenn eingehende Formulare zu einer von mehreren Vorlagen gehören können.
Nachdem der Trainingsprozess erfolgreich abgeschlossen wurde, können Sie damit beginnen, Ihr zusammengestelltes Modell zu erstellen. Dies sind die Schritte zum Erstellen und Verwenden zusammengestellter Modelle:
- Erfassen der IDs Ihrer benutzerdefinierten Modelle
- Zusammensetzen Ihrer benutzerdefinierten Modelle
- Analysieren von Dokumenten
- Verwalten der zusammengestellten Modelle
Sammeln der Modell-IDs
Wenn Sie Modelle mithilfe von Document Intelligence Studio trainieren, befindet sich die Modell-ID im Modellmenü unter einem Projekt:
Zusammensetzen Ihrer benutzerdefinierten Modelle
Wählen Sie ein Projekt für benutzerdefinierte Modelle aus.
Wählen Sie im Projekt das Menüelement
Models
aus.Wählen Sie in der angezeigten Liste der Modelle die Modelle aus, die Sie zusammenstellen möchten.
Wählen Sie in der linken oberen Ecke die Schaltfläche „Zusammensetzen“ aus.
Geben Sie im Popupfenster einen Namen für Ihr neu zusammengesetztes Modell ein, und wählen Sie Zusammensetzen aus.
Nach Abschluss des Vorgangs sollte Ihr neu zusammengesetztes Modell in der Liste angezeigt werden.
Verwenden Sie nach der Fertigstellung des Modells den Befehl Testen, um eine Überprüfung mit Ihren Testdokumenten durchzuführen, und sehen Sie sich anschließend die Ergebnisse an.
Analysieren von Dokumenten
Der Vorgang zum Analysieren von benutzerdefinierten Modellen erfordert, dass Sie die modelID
im Aufruf von Document Intelligence verwenden. Sie sollten die ID des zusammengestellten Modells für den Parameter modelID
in Ihren Anwendungen angeben.
Verwalten der zusammengestellten Modelle
Sie können Ihre benutzerdefinierten Modelle während der gesamten Lebenszyklen verwalten:
- Testen und überprüfen Sie neue Dokumente.
- Laden Sie Ihr Modell herunter, um es in Ihren Anwendungen zu verwenden.
- Löschen Sie Ihr Modell, wenn der Lebenszyklus abgeschlossen ist.
Großartig! Sie haben erfahren, wie Sie benutzerdefinierte und zusammengesetzte Modelle erstellen und für Ihre Document Intelligence-Projekte und -Anwendungen verwenden.
Nächste Schritte
Probieren Sie einen der Document Intelligence-Schnellstarts aus:
Document Intelligence verwendet fortschrittliche Technologien zum maschinellen Lernen, um Informationen in Dokumentbildern zu erkennen, zu extrahieren und sie in Form einer strukturierten JSON-Ausgabe zurückzugeben. Mit Document Intelligence können Sie eigenständige benutzerdefinierte Modelle trainieren oder benutzerdefinierte Modelle kombinieren, um zusammengesetzte Modelle zu erstellen.
Benutzerdefinierte Modelle: Benutzerdefinierte Document Intelligence-Modelle ermöglichen Ihnen, Daten in unternehmensspezifischen Formularen und Dokumenten zu analysieren und zu extrahieren. Benutzerdefinierte Modelle werden speziell für Ihre individuellen Daten und Anwendungsfälle trainiert.
Zusammengesetzte Modelle. Ein zusammengesetztes Modell wird erstellt, indem eine Sammlung benutzerdefinierter Modelle verwendet und zu einem einzigen Modell zusammengesetzt wird, das Ihre Formulartypen umfasst. Wenn ein Dokument an ein zusammengesetztes Modell übermittelt wird, führt der Dienst einen Klassifizierungsschritt aus, um zu entscheiden, welchem benutzerdefiniertem Modell das zur Analyse eingereichte Formular genau entspricht.
In diesem Artikel erfahren Sie, wie Sie benutzerdefinierte und zusammengesetzte Document Intelligence-Modelle mit dem Tool für die Stichprobenbeschriftung von Document Intelligence, mit REST-APIs oder mit Clientbibliotheken erstellen.
Tool für die Beschriftung von Beispielen
Versuchen Sie, Daten aus benutzerdefinierten Formularen mithilfe unseres Beispielbeschriftungstools zu extrahieren. Sie benötigen die folgenden Ressourcen:
Azure-Abonnement – Sie können ein kostenloses Abonnement erstellen
Eine Dokument Intelligenz-Instanz im Azure-Portal. Sie können den kostenlosen Tarif (
F0
) verwenden, um den Dienst auszuprobieren. Wählen Sie nach der Bereitstellung Ihrer Ressource Zu Ressource wechseln aus, um Ihren Schlüssel und Endpunkt abzurufen.
Auf der Benutzeroberfläche von Document Intelligence:
- Wählen Sie „Benutzerdefiniert verwenden“, um ein Modell mit Bezeichnungen zu trainieren und Schlüssel-Wert-Paare zu erhalten.
- Wählen Sie im nächsten Fenster die Option Neues Projekt aus:
Erstellen Ihrer Modelle
Dies sind die Schritte zum Erstellen, Trainieren und Verwenden benutzerdefinierter und zusammengesetzter Modelle:
- Zusammenstellen des Trainingsdatasets
- Hochladen Ihres Trainingssets auf Azure Blob Storage
- Trainieren Ihres benutzerdefinierten Modells
- Zusammensetzen benutzerdefinierter Modelle
- Analysieren von Dokumenten
- Verwalten von benutzerdefinierten Modellen
Zusammenstellen des Trainingsdatasets
Die Erstellung eines benutzerdefinierten Modells beginnt mit dem Einrichten des Trainingsdatasets. Für Ihr Beispieldataset benötigen Sie mindestens fünf ausgefüllte Formulare desselben Typs. Diese können unterschiedliche Dateitypen (jpg, png, pdf, tiff) aufweisen und Text sowie Handschrift enthalten. Die Formulare müssen die Eingabeanforderungen für Document Intelligence erfüllen.
Hochladen Ihres Trainingsdatasets
Sie müssen Ihre Trainingsdaten in einen Azure-Blobspeichercontainer hochladen. Informationen zum Erstellen eines Azure Storage-Kontos mit einem Container finden Sie im Azure Storage-Schnellstart für das Azure-Portal. Sie können den kostenlosen Tarif (F0) verwenden, um den Dienst zu testen, und später für die Produktion auf einen kostenpflichtigen Tarif upgraden.
Trainieren Ihres benutzerdefinierten Modells
Sie trainieren Ihr Modell mit beschrifteten Datensätzen. Beschriftete Datasets basieren auf der API für vordefinierte Layouts, enthalten jedoch zusätzliche Benutzereingaben, z. B. Ihre spezifischen Beschriftungen und Feldpositionen. Beginnen Sie mit mindestens fünf ausgefüllten Formularen desselben Typs für Ihre beschrifteten Trainingsdaten.
Wenn Sie mit beschrifteten Daten trainieren, extrahiert das Modell relevante Werte mit überwachtem Lernen, wobei die von Ihnen bereitgestellten beschrifteten Formulare verwendet werden. Beschriftete Daten führen zu Modellen mit besserer Leistung und können Modelle hervorbringen, die mit komplexen Formularen oder Formularen arbeiten, die Werte ohne Schlüssel enthalten.
Document Intelligence verwendet die Layout-API, um die erwarteten Größen und Positionen von gedruckten und handschriftlichen Textelementen zu erlernen und Tabellen zu extrahieren. Anschließend werden benutzerdefinierte Beschriftungen verwendet, um die Schlüssel-Wert-Zuordnungen und Tabellen in den Dokumenten zu erlernen. Wir empfehlen, fünf manuell beschriftete Formulare gleichen Typs (gleiche Struktur) zu verwenden, um mit dem Trainieren eines neuen Modells zu beginnen. Fügen Sie nach Bedarf weitere beschriftete Daten hinzu, um die Modellgenauigkeit zu verbessern. Document Intelligence ermöglicht das Trainieren eines Modells zum Extrahieren von Schlüssel-Wert-Paaren und Tabellen mithilfe der Funktionen für beaufsichtigtes Lernen.
[!VIDEO https://learn.microsoft.com/Shows/Docs-Azure/Azure-Form-Recognizer/player]
Erstellen zusammengesetzter Modelle
Hinweis
Es können nur benutzerdefinierte Modelle zusammengesetzt werden, die mit Bezeichnungen trainiert wurden. Der Versuch, Modelle ohne Bezeichnung zusammenzusetzen, erzeugt einen Fehler.
Mit dem Vorgang zur Modellzusammensetzung können Sie einer einzelnen Modell-ID bis zu 200 trainierte benutzerdefinierte Modelle zuweisen. Wenn Sie mit der ID dieses zusammengesetzten Modells die Funktion „Analysieren“ aufrufen, klassifiziert Document Intelligence zunächst das übermittelte Formular, wählt das am besten übereinstimmende Modell aus und gibt dann Ergebnisse für dieses Modell zurück. Dieser Vorgang ist nützlich, wenn eingehende Formulare zu einer von mehreren Vorlagen gehören können.
Führen Sie bei Verwendung des Tools für die Stichprobenbeschriftung von Document Intelligence, der REST-API oder der Clientbibliotheken die folgenden Schritte aus, um ein zusammengesetztes Modell einzurichten:
Erfassen der IDs Ihrer benutzerdefinierten Modelle
Nachdem der Trainingsprozess erfolgreich abgeschlossen wurde, wird Ihrem benutzerdefinierten Modell eine Modell-ID zugewiesen. Sie können eine Modell-ID wie folgt abrufen:
Wenn Sie Modelle mithilfe des Stichprobenbeschriftungstools von Document Intelligence trainieren, befindet sich die Modell-ID im Fenster mit den Trainingsergebnissen:
Zusammensetzen Ihrer benutzerdefinierten Modelle
Nachdem Sie die benutzerdefinierten Modelle gesammelt haben, die einem einzelnen Formulartyp entsprechen, können Sie sie zu einem einzelnen Modell zusammensetzen.
Mit dem Beispielbeschriftungstool können Sie schnell mit dem Trainieren von Modellen beginnen und diese zu einer einzelnen Modell-ID zusammensetzen.
Nachdem die Schulung abgeschlossen ist, stellen Sie Ihre Modelle wie folgt zusammen:
Wählen Sie auf der linken Menüschiene das Modellzusammensetzungssymbol (ein zusammengeführter Pfeil) aus.
Wählen Sie im Hauptfenster die Modelle aus, die Sie einer einzelnen Modell-ID zuweisen möchten. Modelle mit dem Pfeilsymbol sind bereits zusammengesetzte Modelle.
Wählen Sie in der linken oberen Ecke die Schaltfläche „Zusammensetzen“ aus.
Geben Sie im Popupfenster einen Namen für Ihr neu zusammengesetztes Modell ein, und wählen Sie Zusammensetzen aus.
Nach Abschluss des Vorgangs sollte Ihr neu zusammengesetztes Modell in der Liste angezeigt werden.
Analysieren von Dokumenten mit Ihrem benutzerdefinierten oder zusammengesetzten Modell
Der Vorgang zum Analysieren von benutzerdefinierten Formularen erfordert, dass Sie die modelID
im Aufruf von Document Intelligence verwenden. Sie können eine einzelne benutzerdefinierte Modell-ID oder eine zusammengesetzte Modell-ID für den Parameter modelID
angeben.
Wählen Sie im Menü des Tools im linken Bereich das
Analyze
-Symbol (Glühbirne) aus.Wählen Sie eine lokale Datei oder Bild-URL aus, die analysiert werden soll.
Wählen Sie die Schaltfläche Analyse Ausführen.
Das Tool wendet Tags in Begrenzungsrahmen an und berichtet die Konfidenz jedes Tags.
Testen Sie Ihre neu trainierten Modelle, indem Sie Formulare analysieren, die nicht Teil des Trainingsdatasets waren. Je nach gemeldeter Genauigkeit können Sie weitere Trainingsiterationen durchführen, um das Modell zu verbessern. Sie können das Training fortführen, um die Ergebnisse zu verbessern.
Verwalten von benutzerdefinierten Modellen
Während des gesamten Lebenszyklus können Sie Ihre benutzerdefinierten Modelle verwalten, indem Sie eine Liste aller benutzerdefinierten Modelle unter Ihrem Abonnement anzeigen, Informationen zu einem bestimmten benutzerdefinierten Modell abrufen und benutzerdefinierte Modelle aus Ihrem Konto löschen.
Sehr gut! Sie haben erfahren, wie Sie benutzerdefinierte und zusammengesetzte Modelle erstellen und für Ihre Document Intelligence-Projekte und -Anwendungen verwenden.
Nächste Schritte
Weitere Informationen zur Document Intelligence-Clientbibliothek finden Sie in der API-Referenzdokumentation.