Benutzerdefinierte Modelle: Genauigkeits- und Konfidenzbewertungen

Dieser Inhalt gilt für:checkmarkv4.0 (Vorschau)checkmarkv3.1 (allgemeine Verfügbarkeit)checkmarkv3.0 (allgemeine Verfügbarkeit)checkmarkv2.1 (allgemeine Verfügbarkeit)

Hinweis

  • Benutzerdefinierte neuronale Modelle bieten während des Trainings keine Genauigkeitsbewertungen.
  • Konfidenzbewertungen für Tabellen, Tabellenzeilen und Tabellenzellen sind ab der 2024-02-29-preview-API-Version für benutzerdefinierte Modelleverfügbar.

Benutzerdefinierte Vorlagenmodelle generieren eine geschätzte Genauigkeitsbewertung, wenn sie trainiert werden. Dokumente, die mit einem benutzerdefinierten Modell analysiert werden, erzeugen eine Konfidenzbewertung für extrahierte Felder. In diesem Artikel erfahren Sie, wie Sie Genauigkeits- und Konfidenzbewertungen interpretieren und bewährte Methoden für die Verwendung dieser Bewertungen zur Verbesserung der Genauigkeits- und Konfidenzergebnisse verwenden.

Genauigkeitsbewertungen

Die Ausgabe eines benutzerdefinierten Modellvorgangs build(v3.0)train oder (v2.1) enthält die geschätzte Genauigkeitsbewertung. Diese Bewertung stellt die Fähigkeit des Modells dar, den beschrifteten Wert in einem visuell ähnlichen Dokument genau vorherzusagen. Der Genauigkeitswertbereich ist ein Prozentsatz zwischen 0 % (niedrig) und 100 % (hoch). Die geschätzte Genauigkeit wird berechnet, indem einige verschiedene Kombinationen der Trainingsdaten ausgeführt werden, um die beschrifteten Werte vorherzusagen.

Dokument Intelligenz Studio
Trainiertes benutzerdefiniertes Modell (Rechnung)

Trained custom model accuracy scores

Zuverlässigkeitsbewertungen

Hinweis

  • Tabellen-, Zeilen- und Zellen-Konfidenzbewertungen sind jetzt in der 2024-02-29-preview-API-Version enthalten.
  • Konfidenzbewertungen für Tabellenzellen aus benutzerdefinierten Modellen werden der API beginnend mit der API 2024-02-29-Preview-API hinzugefügt.

Die Ergebnisse der Dokument Intelligenz-Analyse geben eine geschätzte Konfidenz für vorhergesagte Wörter, Schlüssel-Wert-Paare, Auswahlmarkierungen, Bereiche und Signaturen zurück. Derzeit geben nicht alle Dokumentfelder eine Konfidenzbewertung zurück.

Die Feldkonfidenz gibt eine geschätzte Wahrscheinlichkeit zwischen 0 und 1 an, dass die Vorhersage richtig ist. Ein Konfidenzwert von 0,95 (95 %) gibt beispielsweise an, dass die Vorhersage wahrscheinlich in 19 von 20 Fällen richtig ist. In Szenarien, in denen die Genauigkeit von entscheidender Bedeutung ist, kann die Konfidenz verwendet werden, um zu bestimmen, ob die Vorhersage automatisch akzeptiert oder für die Überprüfung durch Personen gekennzeichnet werden soll.

Dokument Intelligenz Studio
Vordefiniertes Rechnungsmodell nach Analyse

confidence scores from Document Intelligence Studio

Interpretieren der Genauigkeits- und Konfidenzbewertungen für benutzerdefinierte Modelle

Beim Interpretieren der Konfidenzbewertung aus einem benutzerdefinierten Modell sollten Sie alle aus dem Modell zurückgegeben Konfidenzbewertungen berücksichtigen. Beginnen wir mit einer Liste aller Konfidenzbewertungen.

  1. Konfidenzbewertung des Dokumenttyps: Die Konfidenz für den Dokumenttyp ist ein Indikator dafür, wie genau das analysierte Dokument den Dokumenten im Trainingsdataset ähnelt. Wenn die Dokumenttypkonfidenz niedrig ist, ist dies ein Hinweis auf Vorlagen- oder Strukturvariationen im analysierten Dokument. Um die Dokumenttypkonfidenz zu verbessern, bezeichnen Sie ein Dokument mit dieser bestimmten Variation, und fügen Sie es Ihrem Trainingsdataset hinzu. Sobald das Modell neu trainiert wurde, sollte es besser ausgestattet sein, um mit dieser Klasse von Variationen umzugehen.
  2. Konfidenz auf Feldebene: Jedes extrahierte bezeichnete Feld weist eine zugeordnete Konfidenzbewertung auf. Diese Bewertung widerspiegelt die Konfidenz des Modells auf die Position des extrahierten Werts. Während Sie die Konfidenz auswerten, sollten Sie sich auch die zugrunde liegende Extraktionskonfidenz ansehen, um eine umfassendes Konfidenz für das extrahierte Ergebnis zu generieren. Bewerten Sie die OCR-Ergebnisse für die Textextraktion oder Auswahlmarkierungen abhängig vom Feldtyp, um eine zusammengesetzte Konfidenzbewertung für das Feld zu generieren.
  3. Wort-Konfidenzbewertung Jedes aus dem Dokument extrahierte Wort weist eine zugeordnete Konfidenzbewertung auf. Die Bewertung stellt die Konfidenz der Transkription dar. Das Seitenarray enthält ein Array von Wörtern, jedes Wort weist eine zugeordnete Spanne und Konfidenz auf. Spannen aus den extrahierten Werten der benutzerdefinierten Felder werden mit den Spannen der extrahierten Wörter übereinstimmen.
  4. Konfidenzbewertung für Auswahlmarkierungen: Das Seitenarray enthält auch ein Array von Auswahlmarkierungen, und jede Auswahlmarkierung verfügt über eine Konfidenzbewertung, welche die Konfidenz der Auswahlmarkierung und die Erkennung des Auswahlzustands darstellt. Wenn es sich bei einem beschrifteten Feld um eine Auswahlmarkierung handelt, ist die Konfidenz der Auswahl des benutzerdefinierten Felds in Kombination mit der Konfidenz für die Auswahlmarkierung eine genaue Darstellung der Gesamtkonfidenz, dass das Feld korrekt extrahiert wurde.

In der folgenden Tabelle wird veranschaulicht, wie Sie sowohl die Genauigkeits- als auch die Konfidenzbewertung interpretieren, um die Leistung Ihres benutzerdefinierten Modells zu messen.

Genauigkeit Confidence Ergebnis
High High • Das Modell bietet mit den beschrifteten Schlüsseln und Dokumentformaten eine gute Leistung.
• Sie verfügen über ein ausgewogenes Trainingsdataset.
Hoch Niedrig • Das analysierte Dokument unterscheidet sich anscheinend vom Trainingsdataset.
• Das Modell würde von einem erneuten Training mit mindestens fünf weiteren beschrifteten Dokumenten profitieren.
• Diese Ergebnisse können auch auf eine Formatabweichung zwischen dem Trainingsdataset und dem analysierten Dokument hindeuten.
Erwägen Sie, ein neues Modell hinzuzufügen.
Niedrig Hoch • Dieses Ergebnis ist höchst unwahrscheinlich.
• Fügen Sie bei niedrigen Genauigkeitsbewertungen weitere beschriftete Daten hinzu, oder teilen Sie visuell unterschiedliche Dokumente auf mehrere Modelle auf.
Niedrig Niedrig • Fügen Sie weitere beschriftete Daten hinzu.
• Teilen Sie visuell unterschiedliche Dokumente auf mehrere Modelle auf.

Tabellen-, Zeilen- und Zellvertrauenswahrscheinlichkeit

Mit dem Hinzufügen der Tabellen, Zeilen- und Zellenkonfidenz zur 2024-02-29-preview-API finden Sie hier einige häufige Fragen, die Ihnen beim Interpretieren der Tabellen-, Zeilen- und Zellenbewertungen helfen sollten:

F: Ist es möglich, eine hohe Konfidenzbewertung für Zellen anzuzeigen, aber eine niedrige Konfidenzbewertung für die Zeile?

A: Ja. Die verschiedenen Ebenen der Tabellenvertrauensstufe (Zelle, Zeile und Tabelle) sollen die Richtigkeit einer Vorhersage auf dieser bestimmten Ebene erfassen. Eine korrekt vorhergesagte Zelle, die zu einer Zeile mit anderen möglichen Fehlern gehört, hätte eine hohe Zellvertrauenswahrscheinlichkeit, aber die Zuverlässigkeit der Zeile sollte niedrig sein. Ebenso würde eine richtige Zeile in einer Tabelle mit Herausforderungen mit anderen Zeilen eine hohe Zeilenvertrauenswahrscheinlichkeit haben, während die Gesamtvertrauensheit der Tabelle niedrig wäre.

F: Was ist die erwartete Konfidenzbewertung, wenn Zellen zusammengeführt werden? Da eine Zusammenführung zu einer Änderung der Anzahl der zu ändernden Spalten führt, sind die Bewertungen betroffen?

A: Unabhängig vom Typ der Tabelle ist die Erwartung für verbundene Zellen, dass sie niedrigere Konfidenzwerte aufweisen sollten. Außerdem sollte die Zelle, die fehlt (weil sie mit einer benachbarten Zelle zusammengelegt wurde), ebenfalls einen NULL-Wert mit geringerem Vertrauen haben. Wie viel niedriger diese Werte sein können, hängt vom Schulungsdatensatz ab, der allgemeine Trend der zusammengeführten und fehlenden Zelle mit niedrigeren Werten sollte enthalten sein.

F: Was ist die Konfidenzbewertung, wenn ein Wert optional ist? Sollten Sie erwarten, dass eine Zelle mit einem NULL-Wert und hoher Konfidenz

A: Wenn Ihr Schulungsdatensatz repräsentativ für die Optionalität von Zellen ist, hilft es dem Modell zu wissen, wie oft ein Wert im Schulungssatz angezeigt wird und was daher während der Ableitung zu erwarten ist. Dieses Feature wird verwendet, wenn die Konfidenz einer Vorhersage oder gar keine Vorhersage erfolgt (NULL). Sie sollten ein leeres Feld mit hoher Vertrauenswürdigkeit für fehlende Werte erwarten, die im Schulungssatz meist leer sind.

F: Wie sind Konfidenzergebnisse betroffen, wenn ein Feld optional ist und nicht vorhanden oder verpasst wird? Ist die Erwartung, dass die Konfidenzbewertung diese Frage beantwortet?

A: Wenn ein Wert aus einer Zeile fehlt, weist die Zelle einen Wert und eine NULL Konfidenz auf. Ein hoher Konfidenzwert sollte hier bedeuten, dass die Modellvorhersage (davon, dass kein Wert vorhanden ist) wahrscheinlicher korrekt ist. Im Gegensatz dazu sollte ein niedriger Wert mehr Unsicherheit aus dem Modell signalisieren (und somit die Möglichkeit eines Fehlers, wie der Wert verpasst wird).

F: Was sollte die Erwartung für die Zellvertrauens- und Zeilenvertrauensstellung sein, wenn eine mehrseitige Tabelle mit einer Zeilenteilung auf Seiten extrahiert wird?

A: Erwarten Sie, dass die Zellvertrauenswahrscheinlichkeit hoch ist und die Zeilenzuverstimmung potenziell niedriger als Zeilen ist, die nicht geteilt werden. Der Anteil der geteilten Zeilen im Schulungsdatensatz kann sich auf die Konfidenzbewertung auswirken. Im Allgemeinen sieht eine geteilte Zeile anders aus als die anderen Zeilen in der Tabelle (daher ist das Modell weniger sicher, dass es korrekt ist).

F: Für seitenübergreifende Tabellen mit Zeilen, die sauber enden und an den Seitengrenzen beginnen, ist es richtig, davon auszugehen, dass Konfidenzergebnisse auf allen Seiten konsistent sind?

A: Ja. Da Zeilen in Form und Inhalt ähnlich aussehen , unabhängig davon, wo sie sich im Dokument befinden (oder auf welcher Seite), sollten ihre jeweiligen Konfidenzergebnisse konsistent sein.

F: Was ist die beste Möglichkeit, die neuen Konfidenzergebnisse zu nutzen?

A: Sehen Sie sich alle Ebenen der Tabellenvertrauensstufe an, beginnend mit einem Top-to-Bottom-Ansatz: Beginnen Sie, indem Sie die Konfidenz einer Tabelle als Ganzes überprüfen, dann einen Drilldown auf die Zeilenebene ausführen und einzelne Zeilen betrachten und schließlich die Konfidenz auf Zellenebene betrachten. Je nach Tabellentyp gibt es ein paar Dinge zu beachten:

Bei festen Tabellenerfasst die Konfidenz auf Zellenebene bereits einige Informationen zur Korrektheit der Dinge. Dies bedeutet, dass einfach jede Zelle durchläuft und ihr Vertrauen betrachtet wird, kann ausreichen, um die Qualität der Vorhersage zu bestimmen. Bei dynamischen Tabellensollen die Ebenen aufeinander aufbauen, sodass der Ansatz von oben nach unten wichtiger ist.

Sicherstellen einer hohen Modellgenauigkeit

Abweichungen in der visuellen Struktur Ihrer Dokumente beeinflussen die Genauigkeit Ihres Modells. Gemeldete Genauigkeitsbewertungen können inkonsistent sein, wenn sich die analysierten Dokumente von den beim Training verwendeten Dokumenten unterscheiden. Beachten Sie, dass ein Dokumentsatz ähnlich aussehen kann, wenn er von Menschen betrachtet wird, aber aus Sicht eines KI-Modells nicht vergleichbar ist. Im Folgenden finden Sie eine Liste der bewährten Methoden für das Trainieren von Modellen mit der höchsten Genauigkeit. Die Einhaltung dieser Richtlinien sollte zu einem Modell mit höheren Genauigkeits- und Konfidenzbewertungen während der Analyse führen und die Anzahl der Dokumente reduzieren, die für die Überprüfung durch Personen gekennzeichnet werden.

  • Stellen Sie sicher, dass alle Variationen eines Dokuments im Trainingsdataset enthalten sind. Variationen umfassen verschiedene Formate, z. B. digitale und gescannte PDF-Dateien.

  • Wenn Sie davon ausgehen, dass das Modell beide Typen von PDF-Dokumenten analysiert, fügen Sie dem Trainingsdataset mindestens fünf Beispiele jedes Typs hinzu.

  • Trennen Sie visuell unterschiedliche Dokumenttypen, und trainieren Sie sie als verschiedene Modelle.

    • Allgemein gilt: Wenn Sie alle vom Benutzer eingegebenen Werte entfernen und die Dokumente ähnlich aussehen, müssen Sie dem vorhandenen Modell weitere Trainingsdaten hinzufügen.
    • Wenn die Dokumente unterschiedlich sind, teilen Sie Ihre Trainingsdaten auf verschiedene Ordner auf, und trainieren Sie ein Modell für jede Variation. Anschließend können Sie die verschiedenen Variationen in einem einzigen Modell zusammenstellen.
  • Stellen Sie sicher, dass keine überflüssigen Beschriftungen vorhanden sind.

  • Schließen Sie beim Beschriften von Unterschriften und Bereichen den umgebenden Text nicht ein.

Nächster Schritt