Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Azure AI Content Understanding ist ein innovativer generativer KI-Dienst, der die präzise und genaue Analyse umfangreicher Datensätze erleichtert. Der Dienst verarbeitet verschiedene Inhaltsmodalitäten, darunter Dokumente, Bilder, Videos und Audio, um sie in vom Benutzer angegebene Ausgabeformate zu transformieren.
Dieses Dokument enthält Anleitungen und bewährte Methoden zur effektiven Nutzung von Content Understanding für Ihre Datenverarbeitungs- und Analyseanforderungen.
Feldbeschreibungen nutzen, um die Ausgabe zu steuern
Beim Definieren eines Schemas ist es wichtig, detaillierte Feldbeschreibungen bereitzustellen. Klare und präzise Beschreibungen führen das Modell dazu, sich auf die richtigen Informationen zu konzentrieren und die Genauigkeit der Ausgabe zu verbessern.
Beispiel 1
Wenn Sie das Datum aus einer Rechnung extrahieren möchten, geben Sie zusätzlich zum Benennen des Felds
Date
eine Beschreibung wie:The date when the invoice was issued, typically found at the top right corner of the document.
Beispiel 2
Angenommen, Sie möchten die
Customer Name
aus einer Rechnung extrahieren. Ihre Beschreibung könnte Folgendes lesen:The name of the customer or client to whom this invoice is addressed, usually located near the billing address. It should be the name of the business or person, but not the entire mailing address.
Korrigieren von Fehlern durch Bearbeiten von Feldbeschreibungen
Wenn die Systemausgabe nicht den Erwartungen entspricht, besteht der erste Schritt darin, die Feldbeschreibungen zu verfeinern und zu aktualisieren. Wenn Sie den Kontext klarstellen und genauer darauf eingehen, was Sie benötigen, wird dadurch die Mehrdeutigkeit reduziert und die Genauigkeit verbessert.
Beispiel 3
Wenn das
Shipping date
Feld eine inkonsistente oder falsche Extraktion generiert hat, ändern Sie es gegebenenfalls nach einerDispatch Date
Bezeichnung zu etwas Genauerem, wie:The date when the products were shipped, typically found below the item list. It may also be labeled something similar like Delivery Date or Dispatch Date. Dates should typically have a format like 1/23/2024 or 01-04-2025.
Dieser zusätzliche Kontext führt das Modell an die richtige Position im Dokument.
Verwenden von Klassifizierungsfeldern für bestimmte Ausgaben
Wenn Sie das System aus einer Reihe vordefinierter Optionen auswählen müssen, z. B. Dokumenttyp, Produktkategorie oder Status, verwenden Sie Klassifizierungsfelder. Wenn es Unklarheiten bei den Optionen gibt, stellen Sie klare Beschreibungen für jede Option bereit, damit das Modell die Daten korrekt kategorisieren kann.
Beispiel 4
- Erstellen Sie ein Klassifizierungsfeld mit diesen Wörtern als Kategorienamen, wenn Sie Dokumente entweder als
Invoice
,Claim
oderReport
klassifizieren müssen.
Beispiel 5
Beim Verarbeiten von Produktbildern müssen Sie diese möglicherweise Kategorien wie
AlcoholicDrinks
,SoftDrinks
,Snacks
undDairyProducts
zuordnen. Da einige Elemente ähnlich erscheinen können, kann die Bereitstellung präziser Definitionen für Nahanruffälle hilfreich sein. Beispiel:Alcoholic Drinks
: Getränke, die Alkohol enthalten, wie Bier, Wein und Spirituosen. Diese Kategorie schließt Softdrinks oder andere nichtcoholische Getränke aus.Soft Drinks
: Alkoholfreie kohlensäurehaltige Getränke wie Limonade und Sprudelwasser. Diese Kategorie enthält keine Säfte oder alkoholische Getränke.
Indem Sie jede Kategorie klar definieren, stellen Sie sicher, dass das System Produkte korrekt klassifiziert und dabei die Fehlklassifizierung minimiert.
Verwenden von Konfidenzbewertungen, um zu bestimmen, wann eine menschliche Überprüfung erforderlich ist
Konfidenzbewertungen helfen Ihnen zu entscheiden, wann menschliche Prüfer einbezogen werden sollen. Kunden können Konfidenzbewertungen mithilfe von Schwellenwerten interpretieren, um zu entscheiden, welche Ergebnisse mehr Rezensionen benötigen, wodurch das Risiko von Fehlern minimiert wird.
Beispiel 6
Für einen Anwendungsfall der Rechnungsprüfung gilt: Wenn ein extrahiertes Schlüsselfeld wie
TotalInvoiceAmount
einen Konfidenzwert unter 0,80 aufweist, leiten Sie das Dokument zur manuellen Überprüfung weiter. Dadurch wird sichergestellt, dass ein Mensch bei Bedarf kritische Felder wie Rechnungssummen oder rechtliche Aussagen überprüft.Je nach Feldtyp können Sie unterschiedliche Konfidenzschwellenwerte festlegen. Beispielsweise eine niedrigere Schwelle für ein
Comments
Feld, das weniger kritisch ist, und eine höhere Schwelle fürContractTerminationDate
, um keine Fehler zuzulassen.
Verringern von Fehlern durch Einschränken der Sprachauswahl für Audio und Video
Wenn Sie mit Audio- und Videoinhalten arbeiten, kann die Auswahl einer schmalen Gruppe von Sprachen für die Transkription möglicherweise Fehler reduzieren. Je mehr Sprachen Sie einbeziehen, desto mehr muss das System erraten, welche Sprache gesprochen wird, was die Fehlerkennung erhöhen kann.
Beispiel 7
- Wenn Sie sicher sind, dass der Inhalt nur Englisch und Spanisch enthält, kann die Konfiguration Ihrer Transkription nur für diese beiden Sprachen die Qualität verbessern. Wenn der Inhalt jedoch versehentlich andere Sprachen enthält, kann diese Konfiguration tatsächlich die Gesamtqualität beeinträchtigen.
Transkription, Dokumenttext und Sprecherdaten: Felder sind nicht erforderlich
Standardmäßig können Informationen zur Inhaltsextraktion wie Sprachtranskriptionen, Dokumenttext, der von OCR
extrahiert wurde, und Video-Schlüsselframes direkt über die Analyseausgabe für eine sofortige Überprüfung oder eine benutzerdefinierte Verarbeitung aufgerufen werden. Es ist nicht erforderlich, ein Feld im Schema für diese Elemente zu definieren. Felder können verwendet werden, wenn eine weitere Verarbeitung erforderlich ist, z. B. Zusammenfassung von Transkriptionen, Identifizieren von Entitäten oder Extrahieren bestimmter Elemente aus OCR
. Jedes Feld kann das System anweisen, die benötigten Inhalte zu extrahieren oder zu generieren.
Klassifizierungskategorienamen und Beschreibungen
Um die Klassifizierer- und Splittinggenauigkeit zu verbessern, ist es wichtig, einen guten Kategorienamen und eine gute Beschreibung mit Kontext zu geben.
Beispiel 8
Achten Sie bei Kategorienamen darauf, allgemeine Titel (z. B. Jahresbericht, SEC-Formular 10-K) zu verwenden.
Stellen Sie bei Kategoriebeschreibungen sicher, dass Sie Kontext angeben, der eine Kategorie von einer anderen unterscheidet.
- Semantische Definition: z. B.
receipts for expense reporting
- Wichtiger Inhalt: Alle Inhalte, die eine Kategorie eindeutig identifizieren können, z. B. auf Steuerformularen, um diese von älteren Steuerformularen zu unterscheiden.
- Allgemeines Layout: Layout, das von anderen unterschieden werden kann,wie
two-column form
oder ausgefülltes/nicht ausgefülltes Kontrollkästchen
- Semantische Definition: z. B.