Bewährte Methoden: Generieren von Datasets mit Bezeichnung
Dieser Inhalt gilt für: Version 4.0 (Vorschau) | Frühere Versionen: Version 3.1 (GA) Version 3.0 (GA)
Wichtig
Bewährte Methoden zur Generierung von Datasets mit Bezeichnungen gelten nur für benutzerdefinierte Vorlagen und benutzerdefinierte neuronale Modelle, für benutzerdefinierte generative Modelle siehe Benutzerdefinierte generative Modelle.
Benutzerdefinierte Modelle (Vorlagen und neuronale Modelle) benötigen ein beschriftetes Dataset mit mindestens fünf Dokumenten, um ein Modell zu trainieren. Die Qualität des beschrifteten Datasets wirkt sich auf die Genauigkeit des trainierten Modells aus. Dieser Leitfaden unterstützt Sie dabei, ein Modell mit hoher Genauigkeit erstellen, indem Sie ein breit gefächertes Dataset zusammenstellen. Darüber hinaus erfahren Sie, wie Sie Ihre Dokumente am besten beschriften.
Grundlegendes zu den Komponenten eines beschrifteten Datasets
Ein beschriftetes Dataset besteht aus mehreren Dateien:
Sie stellen eine Reihe von Beispieldokumenten bereit (in der Regel PDFs oder Bilder). Zum Trainieren eines Modells werden mindestens fünf Dokumente benötigt.
Zusätzlich wird der Bezeichnungsprozess die folgenden Dateien generieren:
Beim Hinzufügen des ersten Felds wird eine
fields.json
-Datei erstellt. Es gibt nur einefields.json
-Datei für das gesamte Trainingsdataset. Die Feldliste enthält den Feldnamen und die zugehörigen untergeordneten Felder und Typen.Studio führt jedes der Dokumente über die Layout-API aus. Die Layoutantwort für jede der Beispieldateien im Dataset wird als
{file}.ocr.json
hinzugefügt. Anhand der Layoutantwort werden die Feldbeschriftungen erzeugt, wenn ein bestimmter Textabschnitt beschriftet wird.Durch die Beschriftung eines Felds in einem Dokument wird eine Datei
{file}.labels.json
erstellt oder aktualisiert. Die Beschriftungsdatei enthält die Textabschnitte und die zugehörigen Polygone aus der Layoutausgabe für jeden Textabschnitt, den der Benutzer als Wert für ein bestimmtes Feld hinzufügt.
Video: Tipps und Hinweise zu benutzerdefinierten Bezeichnungen
Beim folgenden Video handelt es sich um die erste von zwei Präsentationen, die Ihnen dabei helfen, benutzerdefinierte Modelle mit höherer Genauigkeit zu erstellen. (In der zweiten Präsentation werden bewährte Methoden für die Beschriftung von Dokumenten behandelt.)
Hier untersuchen wir, wie ein ausgewogenes Dataset erstellt und die richtigen Dokumente für die Bezeichnung ausgewählt werden. Dieser Prozess bringt Sie auf den Pfad zu Modellen mit höherer Qualität.
Erstellen eines ausgewogenen Datasets
Bevor Sie mit der Beschriftung beginnen, sollten Sie sich verschiedene Stichproben des Dokuments ansehen, um herauszufinden, welche Stichproben Sie in Ihrem beschrifteten Dataset verwenden möchten. Ein ausgewogenes Dataset repräsentiert alle typischen Varianten, die Sie für das Dokument erwarten würden. Das Erstellen eines ausgewogenen Datasets führt zu einem Modell mit höchstmöglicher Genauigkeit. Orientieren Sie sich an den folgenden Beispielen:
Dokumentformate: Wenn Sie sowohl digitale als auch gescannte Dokumente analysieren möchten, fügen Sie dem Trainingsdataset ein paar Beispiele für jeden Typ hinzu.
Varianten (Vorlagenmodell): Erwägen Sie, den Datensatz in Ordner aufzuteilen und ein Modell für jede Variante zu trainieren. Varianten, die eine Struktur oder ein Layout enthalten, sollten in verschiedene Modelle aufgeteilt werden. Anschließend können Sie die einzelnen Modelle in einem einzigen zusammengesetzten Modell zusammenführen.
Varianten (neuronale Modelle): Wenn Ihr Dataset eine überschaubare Anzahl von Varianten enthält (ca. 15 oder weniger), erstellen Sie ein einzelnes Dataset mit einigen Stichproben der verschiedenen Varianten, um ein einzelnes Modell zu trainieren. Wenn die Anzahl der Vorlagenvariationen größer als 15 ist, trainieren Sie mehrere Modelle und setzen sie zusammen.
Tabellen: Falls die Dokumente Tabellen mit einer variablen Anzahl von Zeilen enthalten, stellen Sie sicher, dass das Trainingsdataset ebenfalls Dokumente mit unterschiedlicher Zeilenanzahl repräsentiert.
Mehrseitige Tabellen: Wenn sich Tabellen über mehrere Seiten erstrecken, beschriften Sie eine einzelne Tabelle. Fügen Sie dem Trainingsdataset Dokumente mit den erwarteten Varianten hinzu – Dokumente, bei denen die Tabelle nur eine Seite einnimmt, und Dokumente, bei denen sich die Tabelle über zwei oder mehr Seiten erstreckt und alle Zeilen beschriftet sind.
Optionale Felder: Wenn Ihr Dataset Dokumente mit optionalen Feldern enthält, vergewissern Sie sich, dass das Trainingsdataset einige Dokumente mit den dargestellten Optionen enthält.
Beginnen Sie mit der Identifizierung der Felder
Nehmen Sie sich die Zeit, jedes der Felder zu identifizieren, die Sie im Dataset beschriften möchten. Achten Sie auf die optionalen Felder. Definieren Sie die Felder mit Beschriftungen, die am besten zu den unterstützten Typen passen.
Halten Sie sich beim Definieren der Felder an die folgenden Richtlinien:
Verwenden Sie für benutzerdefinierte neuronale Modelle semantisch relevante Feldnamen. Wenn der zu extrahierende Wert zum Beispiel
Effective Date
ist, benennen Sie ihn miteffective_date
oderEffectiveDate
und nicht mit einem generischen Namen wie date1.Idealerweise benennen Sie Ihre Felder in Pascal- oder CamelCase-Notation.
Wenn ein Wert Bestandteil einer Struktur ist, die sich visuell wiederholt, und Sie nur einen einzigen Wert benötigen, beschriften Sie ihn als Tabelle und extrahieren den gewünschten Wert bei der Nachbearbeitung.
Wenn sich Tabellenfelder über mehrere Seiten erstrecken, definieren und beschriften Sie die Felder als eine einzige Tabelle.
Hinweis
Benutzerdefinierte neuronale Modelle verwenden das gleiche Beschriftungsformat und dieselbe Strategie wie benutzerdefinierte Vorlagenmodelle. Derzeit unterstützen benutzerdefinierte neuronale Modelle nur eine Teilmenge der Feldtypen, die von benutzerdefinierten Vorlagenmodellen unterstützt werden.
Modellfunktionen
Benutzerdefinierte neuronale Modelle unterstützen derzeit nur Schlüssel-Wert-Paare, strukturierte Felder (Tabellen) und Auswahlmarkierungen.
Modelltyp | Formularfelder | Auswahlmarkierungen | Tabellarische Felder | Signatur | Region | Überlappende Felder |
---|---|---|---|---|---|---|
Benutzerdefiniertes neuronales Modell | ✔️Unterstützt | ✔️Unterstützt | ✔️Unterstützt | Nicht unterstützt | ✔️Unterstützt1 | ✔️Supported2 |
Benutzerdefiniertes Vorlagenmodell | ✔️Unterstützt | ✔️Unterstützt | ✔️Unterstützt | ✔️Unterstützt | ✔️Unterstützt | Nicht unterstützt |
1 Die Implementierung der Regionsbeschriftung erfolgt bei Vorlagen und neuronalen Modellen unterschiedlich. Bei Vorlagenmodellen werden während des Trainings synthetische Daten eingespeist, wenn kein Text in der gekennzeichneten Region gefunden wird. Bei neuronalen Modellen wird kein synthetischer Text eingefügt und der erkannte Text wird so verwendet, wie er ist.
2 Überlappende Felder werden ab der API-Version 2024-02-29-preview
und später unterstützt. Überlappende Felder weisen einige Grenzwerte auf. Weitere Informationen finden Sie unter Überlappende Felder.
Tabellarische Felder
Tabellarische Felder (Tabellen) werden bei benutzerdefinierten neuronalen Modellen ab API-Version 2022-06-30-preview
unterstützt. Modelle, die mit API-Version „2022-06-30-preview“ oder höher trainiert wurden, akzeptieren tabellarische Feldbezeichnungen und Dokumente, die mit dem Modell analysiert wurden. Bei Verwendung von API-Version „2022-06-30-preview“ oder höher werden tabellarische Felder in der Ausgabe innerhalb des Ergebnisabschnitts documents
im Objekt analyzeResult
erzeugt.
Tabellarische Felder unterstützen standardmäßig seitenübergreifende Tabellen. Um eine Tabelle zu beschriften, die mehrere Seiten umfasst, beschriften Sie jede Zeile der Tabelle auf den verschiedenen Seiten in einer einzelnen Tabelle. Stellen Sie als bewährte Methode sicher, dass Ihr Dataset ein paar Beispiele der erwarteten Varianten enthält. Beziehen Sie zum Beispiel sowohl Beispiele ein, bei denen sich eine gesamte Tabelle auf einer einzelnen Seite befindet, als auch Beispiele für eine Tabelle, die sich über zwei oder mehr Seiten erstreckt.
Tabellarische Felder sind auch nützlich, wenn Sie sich wiederholende Informationen aus einem Dokument extrahieren, das nicht als Tabelle erkannt wird. Beispielsweise kann ein sich wiederholender Abschnitt mit Arbeitserfahrungen in einem Lebenslauf als tabellarisches Feld beschriftet und extrahiert werden.
Hinweis
Tabellenfelder, werden – wenn sie Bezeichnungen enthalten – als Teil des documents
-Abschnitts der Antwort extrahiert. Die Antwort enthält auch einen tables
-Abschnitt, der die Tabellen enthält, die vom Layoutmodell aus dem Dokument extrahiert wurden. Wenn Sie ein Feld als Tabelle bezeichnet haben, suchen Sie im Abschnitt „Dokumente“ der Antwort nach dem Feld.
Richtlinien für die Beschriftung
Beschriftungswerte sind erforderlich. Schließen Sie nicht den umgebenden Text ein. Benennen Sie bei der Beschriftung eines Kontrollkästchens das Feld beispielsweise so, dass es die Kontrollkästchenauswahl angibt (z. B.
selectionYes
undselectionNo
), anstatt im Dokument die Textbeschriftung „Ja“ oder „Nein“ zu verwenden.Geben Sie keine verschachtelten Feldwerte an. Der Wert von Wörtern und/oder Regionen eines Felds muss eine aufeinander folgende Sequenz in natürlicher Lesereihenfolge sein.
Konsistente Beschriftung: Wenn ein Wert in verschiedenen Kontexten innerhalb des Dokuments vorkommt, wählen Sie in allen Dokumenten stets denselben Kontext, um den Wert zu beschriften.
Visuell wiederholte Daten: Tabellen unterstützen visuell wiederholte Gruppen von Informationen, nicht nur explizite Tabellen. Explizite Tabellen werden im Tabellenabschnitt der analysierten Dokumente als Teil der Layoutausgabe identifiziert und müssen nicht als Tabellen bezeichnet werden. Beschriften Sie ein Tabellenfeld nur, wenn sich die Informationen visuell wiederholen und nicht als Bestandteil der Layoutantwort als Tabelle gekennzeichnet sind. Ein Beispiel dafür wäre der wiederkehrende Abschnitt zur Berufserfahrung in einem Lebenslauf.
Regionsbeschriftung (benutzerdefinierte Vorlage): Durch die Beschriftung bestimmter Regionen können Sie einen Wert definieren, wenn kein solcher vorhanden ist. Ist der Wert optional, stellen Sie sicher, dass einige Beispieldokumente vorhanden sind, in denen die Region nicht beschriftet ist. Schließen Sie bei der Beschriftung von Regionen nicht den umgebenden Text in die Beschriftung ein.
Überlappende Felder (benutzerdefinierte neurale Felder). Beschriften Des Felds überlappt das Feld mithilfe der Bereichsbezeichnung. Stellen Sie sicher, dass Sie mindestens ein Beispiel haben, das beschreibt, wie sich die Felder in Ihrem Schulungsdatensatz überlappen können.
Nächste Schritte
Trainieren eines benutzerdefinierten Modells:
Anzeigen der REST-API: