Interpretieren und Verbessern der Bewertungen der Modellgenauigkeit und -analysekonfidenz
Ein Konfidenz-Score gibt die Wahrscheinlichkeit an, indem der Grad der statistischen Sicherheit gemessen wird, dass das extrahierte Ergebnis ordnungsgemäß erkannt wurde. Die geschätzte Genauigkeit wird berechnet, indem einige verschiedene Kombinationen der Trainingsdaten ausgeführt werden, um die beschrifteten Werte vorherzusagen. In diesem Artikel erfahren Sie, wie Sie Genauigkeits- und Konfidenzbewertungen interpretieren und bewährte Methoden für die Verwendung dieser Bewertungen zur Verbesserung der Genauigkeits- und Konfidenzergebnisse verwenden.
Zuverlässigkeitsbewertungen
Hinweis
- Die Konfidenz auf Feldebene wird aktualisiert, um die Wortkonfidenzbewertung zu berücksichtigen, beginnend mit der API-Version 2024-07-31-preview für benutzerdefinierte Modelle.
- Konfidenzbewertungen für Tabellen, Tabellenzeilen und Tabellenzellen sind ab der API-Version 2024-07-31-preview für benutzerdefinierte Modelle verfügbar.
Die Ergebnisse der Dokument Intelligenz-Analyse geben eine geschätzte Konfidenz für vorhergesagte Wörter, Schlüssel-Wert-Paare, Auswahlmarkierungen, Bereiche und Signaturen zurück. Derzeit geben nicht alle Dokumentfelder eine Konfidenzbewertung zurück.
Die Feldkonfidenz gibt eine geschätzte Wahrscheinlichkeit zwischen 0 und 1 an, dass die Vorhersage richtig ist. Ein Konfidenzwert von 0,95 (95 %) gibt beispielsweise an, dass die Vorhersage wahrscheinlich in 19 von 20 Fällen richtig ist. In Szenarien, in denen die Genauigkeit von entscheidender Bedeutung ist, kann die Konfidenz verwendet werden, um zu bestimmen, ob die Vorhersage automatisch akzeptiert oder für die Überprüfung durch Personen gekennzeichnet werden soll.
Dokument Intelligenz Studio
Vordefiniertes Rechnungsmodell nach Analyse
Verbessern von Zuverlässigkeitsbewertungen
Überprüfen Sie nach einem Analysevorgang die JSON-Ausgabe. Überprüfen Sie die confidence
-Werte für jedes Schlüssel-Wert-Ergebnis unter dem Knoten pageResults
. Sie sollten sich auch die Konfidenzbewertungen im Knoten readResults
ansehen, die dem Textlesevorgang entsprechen. Die Konfidenz der Leseergebnisse wirkt sich nicht auf die Konfidenz der Ergebnisse der Schlüssel-Wert-Extraktion aus, daher sollten Sie beide Bewertungen überprüfen. Hier finden Sie einige Tipps:
Wenn die Konfidenzbewertung für das
readResults
-Objekt niedrig ist, verbessern Sie die Qualität Ihrer Eingabedokumente.Wenn die Konfidenzbewertung für das
pageResults
-Objekt niedrig ist, stellen Sie sicher, dass die analysierten Dokumente denselben Typ haben.Erwägen Sie, die Überprüfung durch eine Person in Ihre Workflows zu integrieren.
Verwenden Sie Formulare mit unterschiedlichen Werten in jedem Feld.
Verwenden Sie für benutzerdefinierte Modelle einen größeren Satz von Trainingsdokumenten. Durch einen größeren Trainingssatz lernt Ihr Modell, Felder mit höherer Genauigkeit zu erkennen.
Genauigkeitsbewertungen für benutzerdefinierte Modelle
Hinweis
- Benutzerdefinierte neuronale und generative Modelle bieten während des Trainings keine Genauigkeitsbewertungen.
Die Ausgabe eines benutzerdefinierten Modellvorgangs build
(v3.0 und höher)train
oder (v2.1) enthält die geschätzte Genauigkeitsbewertung. Diese Bewertung stellt die Fähigkeit des Modells dar, den beschrifteten Wert in einem visuell ähnlichen Dokument genau vorherzusagen. Die Genauigkeit wird innerhalb eines Prozentwertbereichs von 0 % (niedrig) bis 100 % (hoch) gemessen. Es ist am besten, eine Bewertung von 80 % oder höher zu erzielen. In sensibleren Fällen, z. B. bei Finanz- oder Patientendatensätzen, empfehlen wir eine Bewertung von fast 100 %. Sie können auch eine Stufe für die menschliche Überprüfung hinzufügen, um eine Validierung für kritischere Automatisierungsworkflows durchzuführen.
Dokument Intelligenz Studio
Trainiertes benutzerdefiniertes Modell (Rechnung)
Interpretieren der Genauigkeits- und Konfidenzbewertungen für benutzerdefinierte Modelle
Benutzerdefinierte Vorlagenmodelle generieren eine geschätzte Genauigkeitsbewertung, wenn sie trainiert werden. Dokumente, die mit einem benutzerdefinierten Modell analysiert werden, erzeugen eine Konfidenzbewertung für extrahierte Felder. Beim Interpretieren der Konfidenzbewertung aus einem benutzerdefinierten Modell sollten Sie alle aus dem Modell zurückgegeben Konfidenzbewertungen berücksichtigen. Beginnen wir mit einer Liste aller Konfidenzbewertungen.
- Konfidenzbewertung des Dokumenttyps: Die Konfidenz für den Dokumenttyp ist ein Indikator dafür, wie genau das analysierte Dokument den Dokumenten im Trainingsdataset ähnelt. Wenn die Dokumenttypkonfidenz niedrig ist, ist dies ein Hinweis auf Vorlagen- oder Strukturvariationen im analysierten Dokument. Um die Dokumenttypkonfidenz zu verbessern, bezeichnen Sie ein Dokument mit dieser bestimmten Variation, und fügen Sie es Ihrem Trainingsdataset hinzu. Sobald das Modell neu trainiert wurde, sollte es besser ausgestattet sein, um mit dieser Klasse von Variationen umzugehen.
- Konfidenz auf Feldebene: Jedes extrahierte bezeichnete Feld weist eine zugeordnete Konfidenzbewertung auf. Diese Bewertung widerspiegelt die Konfidenz des Modells auf die Position des extrahierten Werts. Während Sie die Konfidenzbewertungen auswerten, sollten Sie sich auch die zugrunde liegende Extraktionskonfidenz ansehen, um eine umfassendes Konfidenz für das extrahierte Ergebnis zu generieren. Bewerten Sie die
OCR
-Ergebnisse für die Textextraktion oder Auswahlmarkierungen abhängig vom Feldtyp, um eine zusammengesetzte Konfidenzbewertung für das Feld zu generieren. - Wort-Konfidenzbewertung Jedes aus dem Dokument extrahierte Wort weist eine zugeordnete Konfidenzbewertung auf. Die Bewertung stellt die Konfidenz der Transkription dar. Das Seitenarray enthält ein Array von Wörtern und jedes Wort weist eine zugeordnete Spanne und Konfidenzbewertung auf. Spannen aus den extrahierten Werten der benutzerdefinierten Felder werden mit den Spannen der extrahierten Wörter übereinstimmen.
- Konfidenzbewertung für Auswahlzeichen: Das Seitenarray enthält auch ein Array von Auswahlzeichen. Jedes Auswahlzeichen weist eine Konfidenzbewertung auf, die die Konfidenz des Auswahlzeichens und die Erkennung des Auswahlzustands darstellt. Wenn es sich bei einem beschrifteten Feld um eine Auswahlmarkierung handelt, ist die Auswahl des benutzerdefinierten Felds in Kombination mit der Konfidenz für die Auswahlmarkierung eine genaue Darstellung der Gesamtgenauigkeit der Konfidenz.
In der folgenden Tabelle wird veranschaulicht, wie Sie sowohl die Genauigkeits- als auch die Konfidenzbewertung interpretieren, um die Leistung Ihres benutzerdefinierten Modells zu messen.
Genauigkeit | Confidence | Ergebnis |
---|---|---|
High | High | • Das Modell bietet mit den beschrifteten Schlüsseln und Dokumentformaten eine gute Leistung. • Sie verfügen über ein ausgewogenes Trainingsdataset. |
Hoch | Niedrig | • Das analysierte Dokument unterscheidet sich anscheinend vom Trainingsdataset. • Das Modell würde von einem erneuten Training mit mindestens fünf weiteren beschrifteten Dokumenten profitieren. • Diese Ergebnisse können auch auf eine Formatabweichung zwischen dem Trainingsdataset und dem analysierten Dokument hindeuten. Erwägen Sie, ein neues Modell hinzuzufügen. |
Niedrig | Hoch | • Dieses Ergebnis ist höchst unwahrscheinlich. • Fügen Sie bei niedrigen Genauigkeitsbewertungen weitere beschriftete Daten hinzu, oder teilen Sie visuell unterschiedliche Dokumente auf mehrere Modelle auf. |
Niedrig | Niedrig | • Fügen Sie weitere beschriftete Daten hinzu. • Teilen Sie visuell unterschiedliche Dokumente auf mehrere Modelle auf. |
Sicherstellen der hohen Modellgenauigkeit für benutzerdefinierte Modelle
Abweichungen in der visuellen Struktur Ihrer Dokumente beeinflussen die Genauigkeit Ihres Modells. Gemeldete Genauigkeitsbewertungen können inkonsistent sein, wenn sich die analysierten Dokumente von den beim Training verwendeten Dokumenten unterscheiden. Beachten Sie, dass ein Dokumentsatz ähnlich aussehen kann, wenn er von Menschen betrachtet wird, aber aus Sicht eines KI-Modells nicht vergleichbar ist. Im Folgenden finden Sie eine Liste der bewährten Methoden für das Trainieren von Modellen mit der höchsten Genauigkeit. Die Einhaltung dieser Richtlinien sollte zu einem Modell mit höheren Genauigkeits- und Konfidenzbewertungen während der Analyse führen und die Anzahl der Dokumente reduzieren, die für die Überprüfung durch Personen gekennzeichnet werden.
Stellen Sie sicher, dass alle Variationen eines Dokuments im Trainingsdataset enthalten sind. Variationen umfassen verschiedene Formate, z. B. digitale und gescannte PDF-Dateien.
Wenn Sie davon ausgehen, dass das Modell beide Typen von PDF-Dokumenten analysiert, fügen Sie dem Trainingsdataset mindestens fünf Beispiele jedes Typs hinzu.
Trennen Sie visuell unterschiedliche Dokumenttypen, um verschiedene Modelle für benutzerdefinierte Vorlagen und neurale Modelle zu trainieren.
- Allgemein gilt: Wenn Sie alle vom Benutzer eingegebenen Werte entfernen und die Dokumente ähnlich aussehen, müssen Sie dem vorhandenen Modell weitere Trainingsdaten hinzufügen.
- Wenn die Dokumente unterschiedlich sind, teilen Sie Ihre Trainingsdaten auf verschiedene Ordner auf, und trainieren Sie ein Modell für jede Variation. Anschließend können Sie die verschiedenen Variationen in einem einzigen Modell zusammenstellen.
Stellen Sie sicher, dass keine überflüssigen Beschriftungen vorhanden sind.
Schließen Sie beim Beschriften von Unterschriften und Bereichen den umgebenden Text nicht ein.
Tabellen-, Zeilen- und Zellvertrauenswahrscheinlichkeit
Mit dem Hinzufügen der Tabellen, Zeilen- und Zellenkonfidenz zur 2024-02-29-preview
-API und höher finden Sie hier einige häufige Fragen, die Ihnen beim Interpretieren der Tabellen-, Zeilen- und Zellenbewertungen helfen sollten:
F: Ist es möglich, eine hohe Konfidenzbewertung für Zellen anzuzeigen, aber eine niedrige Konfidenzbewertung für die Zeile?
A: Ja. Die verschiedenen Ebenen der Tabellenvertrauensstufe (Zelle, Zeile und Tabelle) sollen die Richtigkeit einer Vorhersage auf dieser bestimmten Ebene erfassen. Eine korrekt vorhergesagte Zelle, die zu einer Zeile mit anderen möglichen Fehlern gehört, hätte eine hohe Zellvertrauenswahrscheinlichkeit, aber die Zuverlässigkeit der Zeile sollte niedrig sein. Ebenso würde eine richtige Zeile in einer Tabelle mit Herausforderungen mit anderen Zeilen eine hohe Zeilenvertrauenswahrscheinlichkeit haben, während die Gesamtvertrauensheit der Tabelle niedrig wäre.
F: Was ist die erwartete Konfidenzbewertung, wenn Zellen zusammengeführt werden? Da eine Zusammenführung zu einer Änderung der Anzahl der zu ändernden Spalten führt, sind die Bewertungen betroffen?
A: Unabhängig vom Typ der Tabelle ist die Erwartung für verbundene Zellen, dass sie niedrigere Konfidenzwerte aufweisen sollten. Außerdem sollte die Zelle, die fehlt (weil sie mit einer benachbarten Zelle zusammengelegt wurde), ebenfalls einen NULL
-Wert mit geringerem Vertrauen haben. Wie viel niedriger diese Werte sein können, hängt vom Schulungsdatensatz ab, der allgemeine Trend der zusammengeführten und fehlenden Zelle mit niedrigeren Werten sollte enthalten sein.
F: Was ist die Konfidenzbewertung, wenn ein Wert optional ist? Sollten Sie erwarten, dass eine Zelle mit einem NULL
-Wert und hoher Konfidenz
A: Wenn Ihr Schulungsdatensatz repräsentativ für die Optionalität von Zellen ist, hilft es dem Modell zu wissen, wie oft ein Wert im Schulungssatz angezeigt wird und was daher während der Ableitung zu erwarten ist. Dieses Feature wird verwendet, wenn die Konfidenz einer Vorhersage oder gar keine Vorhersage erfolgt (NULL
). Sie sollten ein leeres Feld mit hoher Vertrauenswürdigkeit für fehlende Werte erwarten, die im Schulungssatz meist leer sind.
F: Wie sind Konfidenzergebnisse betroffen, wenn ein Feld optional ist und nicht vorhanden oder verpasst wird? Ist die Erwartung, dass die Konfidenzbewertung diese Frage beantwortet?
A: Wenn ein Wert aus einer Zeile fehlt, weist die Zelle einen Wert und eine NULL
Konfidenz auf. Ein hoher Konfidenzwert sollte hier bedeuten, dass die Modellvorhersage (davon, dass kein Wert vorhanden ist) wahrscheinlicher korrekt ist. Im Gegensatz dazu sollte ein niedriger Wert mehr Unsicherheit aus dem Modell signalisieren (und somit die Möglichkeit eines Fehlers, wie der Wert verpasst wird).
F: Was sollte die Erwartung für die Zellvertrauens- und Zeilenvertrauensstellung sein, wenn eine mehrseitige Tabelle mit einer Zeilenteilung auf Seiten extrahiert wird?
A: Erwarten Sie, dass die Zellvertrauenswahrscheinlichkeit hoch ist und die Zeilenzuverstimmung potenziell niedriger als Zeilen ist, die nicht geteilt werden. Der Anteil der geteilten Zeilen im Schulungsdatensatz kann sich auf die Konfidenzbewertung auswirken. Im Allgemeinen sieht eine geteilte Zeile anders aus als die anderen Zeilen in der Tabelle (daher ist das Modell weniger sicher, dass es korrekt ist).
F: Für seitenübergreifende Tabellen mit Zeilen, die sauber enden und an den Seitengrenzen beginnen, ist es richtig, davon auszugehen, dass Konfidenzergebnisse auf allen Seiten konsistent sind?
A: Ja. Da Zeilen in Form und Inhalt ähnlich aussehen , unabhängig davon, wo sie sich im Dokument befinden (oder auf welcher Seite), sollten ihre jeweiligen Konfidenzergebnisse konsistent sein.
F: Was ist die beste Möglichkeit, die neuen Konfidenzergebnisse zu nutzen?
A: Sehen Sie sich alle Ebenen der Tabellenvertrauensstufe an, beginnend mit einem Top-to-Bottom-Ansatz: Beginnen Sie, indem Sie die Konfidenz einer Tabelle als Ganzes überprüfen, dann einen Drilldown auf die Zeilenebene ausführen und einzelne Zeilen betrachten und schließlich die Konfidenz auf Zellenebene betrachten. Je nach Tabellentyp gibt es ein paar Dinge zu beachten:
Bei festen Tabellenerfasst die Konfidenz auf Zellenebene bereits einige Informationen zur Korrektheit der Dinge. Dies bedeutet, dass einfach jede Zelle durchläuft und ihr Vertrauen betrachtet wird, kann ausreichen, um die Qualität der Vorhersage zu bestimmen. Bei dynamischen Tabellensollen die Ebenen aufeinander aufbauen, sodass der Ansatz von oben nach unten wichtiger ist.