Dokumentfeldextraktion – benutzerdefiniertes generatives KI-Modell

Artikel
09/03/2024

Wichtig

Public Preview-Releases von Dokument Intelligenz bieten frühzeitigen Zugriff auf Features, die sich in der aktiven Entwicklung befinden. Features, Ansätze und Prozesse können sich aufgrund von Benutzerfeedback vor der allgemeinen Verfügbarkeit (General Availability, GA) ändern.
Die Public Preview von Dokument Intelligenz-Clientbibliotheken verwendet standardmäßig Version 2024-07-31-preview der REST-API und ist derzeit nur in den folgenden Azure-Regionen verfügbar.
- USA, Osten
- USA, Westen 2
- Europa, Westen
- USA Nord Mitte
Das neue benutzerdefinierte generative Modell in KI Studio ist lediglich in der Region „USA, Norden-Mitte“ verfügbar:

Das Modell für die Dokumentfeldextraktion (benutzerdefiniertes generatives KI-Modell) nutzt generative KI, um benutzerdefinierte Felder aus Dokumenten in einer Vielzahl visueller Vorlagen zu extrahieren. Das benutzerdefinierte generative KI-Modell kombiniert die Leistung des Dokumentenverständnisses mit Large Language Models (LLMs) und die Strenge und das Schema der benutzerdefinierten Extraktionsfunktionen, um in wenigen Minuten ein Modell mit hoher Genauigkeit zu erstellen. Bei diesem generativen Modelltyp können Sie mit einem einzigen Dokument beginnen und den Prozess der Schemaergänzung und Modellerstellung mit minimaler Beschriftung durchlaufen. Das benutzerdefinierte generative Model ermöglicht es Entwicklern und Unternehmen, Workflows zur Datenextraktion für jede Art von Dokument ganz einfach zu automatisieren, und zwar mit höherer Genauigkeit und Geschwindigkeit. Das benutzerdefinierte generative KI-Modell zeichnet sich durch das Extrahieren einfacher Felder aus Dokumenten ohne beschriftete Beispiele aus. Bei komplexen Feldern und benutzerdefinierten Feldern, z. B. Tabellen, wird die Extraktionsgenauigkeit jedoch durch die Bereitstellung einiger beschrifteter Beispiele verbessert. Sie können die REST-API oder Clientbibliotheken verwenden, um ein Dokument zur Analyse mit einem Modellbuild zu übermitteln, und sich des benutzerdefinierten generativen Prozesses bedienen.

Vorteile des benutzerdefinierten generativen KI-Modells

Automatische Bezeichnung Nutzen Sie große Sprachmodelle (LLM) und extrahieren Sie benutzerdefinierte Felder für verschiedene Dokumenttypen und visuelle Vorlagen.
Verbesserte Generalisierung Extrahieren Sie Daten aus unstrukturierten Daten und unterschiedlichen Dokumentvorlagen mit höherer Genauigkeit.
Fundierte Ergebnisse Lokalisieren Sie die extrahierten Daten in den Dokumenten. Benutzerdefinierte generative Modelle untermauern die Ergebnisse ggf., um sicherzustellen, dass die Antwort aus dem Inhalt generiert wird, und ermöglichen Workflows für die menschliche Überprüfung.
Zuverlässigkeitsbewertungen. Verwenden Sie Konfidenzbewertungen für jedes extrahierte Feld, um qualitativ hochwertige extrahierte Daten zu filtern, die direkte Verarbeitung von Dokumenten zu maximieren und die Kosten für die menschliche Überprüfung zu minimieren.

Gängige Anwendungsfälle

Vertragslebenszyklusverwaltung Erstellen Sie ein generatives Modell und extrahieren Sie die Felder, Klauseln und Verpflichtungen aus einer Vielzahl von Vertragstypen.
Darlehens- und Hypothekenanträge Die Automatisierung von Kredit- und Hypothekenanträgen ermöglicht es Banken, Kreditgebern und staatlichen Stellen, Kredit- und Hypothekenanträge schnell zu bearbeiten.
Finanzdienstleistungen Analysieren Sie mithilfe des benutzerdefinierten generativen KI-Modells komplexe Dokumente wie Finanzberichte und Anlagenverwaltungsberichte.
Ausgabenverwaltung. Belege und Rechnungen verschiedener Einzelhändler und Unternehmen müssen analysiert werden, um die Ausgaben zu überprüfen. Das benutzerdefinierte generative KI-Modell kann Ausgaben in verschiedenen Formaten und Dokumenten mit unterschiedlichen Vorlagen extrahieren.

Verwalten des Trainingsdatasets

Mit unseren anderen benutzerdefinierten Modellen müssen Sie das Dataset verwalten, neue Beispiele hinzufügen und das Modell für eine verbesserte Genauigkeit trainieren. Mit dem benutzerdefinierten generativen KI-Modell werden die beschrifteten Dokumente transformiert, verschlüsselt und als Teil des Modells gespeichert. Durch diesen Prozess wird sichergestellt, dass das Modell die beschrifteten Beispiele kontinuierlich verwenden kann, um die Extraktionsqualität zu verbessern. Wie bei anderen benutzerdefinierten Modellen werden die Modelle im Microsoft-Speicher abgelegt und können jederzeit gelöscht werden.

Der Dokument Intelligenz-Dienst verwaltet Ihre Datasets, aber Ihre Dokumente werden verschlüsselt gespeichert und nur verwendet, um die Modellergebnisse für Ihr spezifisches Modell zu verbessern. Ein vom Dienst verwalteter Schlüssel kann zur Verschlüsselung Ihrer Daten verwendet werden. Alternativ können die Daten auch mit einem vom Kunden verwalteten Schlüssel verschlüsselt werden. Die Änderung der Verwaltung und des Lebenszyklus des Datasets gilt nur für benutzerdefinierte generative Modelle.

Modellfunktionen

Das benutzerdefinierte generative Modell für die Feldextraktion unterstützt derzeit dynamische Tabellen mit dem 2024-07-31-preview und den folgenden Feldern:

Formularfelder	Auswahlmarkierungen	Tabellarische Felder	Signatur	Beschriften von Bereichen	Überlappende Felder
Unterstützt	Unterstützt	Unterstützt	Nicht unterstützt	Nicht unterstützt	Unterstützt

Buildmodus

Der Vorgang build custom model unterstützt benutzerdefinierte Vorlagen-, neuronale und generative Modelle; weitere Informationen finden Sie unter Modus zur Erstellung benutzerdefinierter Modelle. Dies sind die Unterschiede zwischen den Modelltypen:

Benutzerdefinierte generative KI-Modelle können komplexe Dokumente in verschiedenen Formaten, mit unterschiedlichen Vorlagen und unstrukturierten Daten verarbeiten.
Benutzerdefinierte neuronale Modelle unterstützen die Verarbeitung komplexer Dokumente sowie mehr Varianz in den Seiten für strukturierte und halbstrukturierte Dokumente.
Benutzerdefinierte Vorlagenmodelle stützen sich auf konsistente visuelle Vorlagen, wie Fragebögen oder Anwendungen, um die beschrifteten Daten zu extrahieren.

Unterstütztung für Sprachen und Gebietsschemata

Version 2024-07-31-preview des benutzerdefinierten generativen Modells für die Feldextraktion unterstützt das Gebietsschema en-us. Weitere Informationen zur Unterstützung von Sprachen finden Sie unter Sprachunterstützung – benutzerdefinierte Modelle.

Unterstützung für Regionen

Version 2024-07-31-preview des benutzerdefinierten generativen Modells für die Feldextraktion ist nur in North Central US verfügbar.

Eingabeanforderungen

Unterstützte Dateiformate:

Modell	PDF	Abbildung: `JPEG/JPG`, `PNG`, `BMP`, `TIFF`, `HEIF`	Microsoft Office: Word (`DOCX`), Excel (`XLSX`), PowerPoint (`PPTX`), HTML
Lesen Sie	✔	✔	✔
Layout	✔	✔	✔ (2024-07-31-preview, 2024-02-29-preview, 2023-10-31-preview)
Allgemeines Dokument	✔	✔
Vordefiniert	✔	✔
Benutzerdefinierte Extraktion	✔	✔
Benutzerdefinierte Klassifizierung	✔	✔	✔ (2024-07-31-preview, 2024-02-29-preview)

Die besten Ergebnisse erzielen Sie, wenn Sie pro Dokument ein deutliches Foto oder einen hochwertigen Scan bereitstellen.
In den Formaten PDF und TIFF können bis zu 2,000 Seiten verarbeitet werden (bei einem kostenlosen Abonnement werden nur die ersten beiden Seiten verarbeitet).
Die Dateigröße für die Analyse von Dokumenten beträgt 500 MB für den kostenpflichtigen Tarif (S0) und 4 MB für den kostenlosen Tarif (F0).
Die Bildgröße muss zwischen 50 × 50 Pixel und 10.000 × 10.000 Pixel liegen.
Wenn Ihre PDFs kennwortgeschützt sind, müssen Sie die Sperre vor dem Senden entfernen.
Die Mindesthöhe des zu extrahierenden Texts beträgt 12 Pixel für ein Bild von 1024 × 768 Pixel. Diese Abmessung entspricht etwa einem 8-Punkttext bei 150 Punkten pro Zoll (Dots Per Inch, DPI).
Die maximale Anzahl Seiten für Trainingsdaten beträgt beim benutzerdefinierten Modelltraining 500 für das benutzerdefinierte Vorlagenmodell und 50.000 für das benutzerdefinierte neuronale Modell.
- Für das Training benutzerdefinierter Extraktionsmodelle beträgt die Gesamtgröße der Trainingsdaten 50 MB für das Vorlagenmodell und 1 GB für das neuronale Modell.
- Für das Training benutzerdefinierter Klassifizierungsmodelle beträgt die Gesamtgröße der Trainingsdaten 1 GB bei maximal 10.000 Seiten. Für 2024-07-31-preview und höher beträgt die Gesamtgröße der Trainingsdaten 2 GB bei maximal 10.000 Seiten.

Bewährte Methoden

Repräsentative Daten Verwenden Sie repräsentative Dokumente, die auf die tatsächliche Datenverteilung abzielen, und trainieren Sie ein hochwertiges, individuelles generatives Modell. Wenn das Zieldokument zum Beispiel teilweise ausgefüllte Tabellenfelder enthält, fügen Sie Trainingsdokumente hinzu, die aus teilweise ausgefüllten Tabellen bestehen. Oder wenn das Feld „Datum“ heißt, sollten die Werte für dieses Feld ein Datum sein, da zufällige Zeichenfolgen die Leistung des Modells beeinträchtigen können.
Feldbenennung Wählen Sie einen genauen Feldnamen, der die Feldwerte repräsentiert. Wenn der Wert eines Feldes zum Beispiel das Transaktionsdatum enthält, sollten Sie das Feld TransactionDate nennen und nicht Date1.
Feldbeschreibung Geben Sie in der Beschreibung mehr kontextbezogene Informationen an, um das zu extrahierende Feld genau zu beschreiben. Beispiele hierfür sind die Position im Dokument, mögliche Feldbezeichnungen, mit denen der Begriff in Verbindung gebracht werden kann, sowie Möglichkeiten zur Unterscheidung von anderen Begriffen, die mehrdeutig sein könnten.
Varianten Benutzerdefinierte generative Modelle können über verschiedene Dokumentvorlagen desselben Dokumenttyps hinweg verallgemeinert werden. Als bewährte Methode wird ein einzelnes Modell für alle Variationen eines Dokumenttyps erstellt. Idealerweise sollten Sie für jeden Typ eine visuelle Vorlage verwenden, insbesondere für solche, die bestimmte Formatierungs- oder Strukturelemente enthalten, um die Genauigkeit und Konsistenz des Modells bei der Erstellung oder Verarbeitung von Dokumenten zu verbessern.

Dienstleitfäden

Das benutzerdefinierte generative Vorschaumodell unterstützt derzeit keine Extraktion von festen Tabellen und Signaturen.
Das Rückschließen auf ein und dasselbe Dokument kann bei verschiedenen Aufrufen zu leicht unterschiedlichen Ergebnissen führen und ist eine bekannte Einschränkung der aktuellen GPT-Modelle.
Zuverlässigkeitsbewertungen für jedes Feld können variieren. Wir empfehlen einen Test mit Ihren repräsentativen Daten, um die Zuverlässigkeitsschwellen für Ihr Szenario zu ermitteln.
Das Finden einer gemeinsamen Basis, insbesondere für tabellarische Felder, ist schwierig und ist in einigen Fällen möglicherweise nicht perfekt.
Die Latenz für große Dokumente ist hoch und eine bekannte Einschränkung in der Vorschau.
Zusammengesetzte Modelle unterstützen keine benutzerdefinierte generative Extraktion.

Trainieren eines Modells

Benutzerdefinierte generative Modelle sind mit der Version 2024-07-31-preview und späteren Modellen verfügbar.

Die build operation, um das Modell zu trainieren unterstützt die Eigenschaft buildMode, ein benutzerdefiniertes generatives Modell zu trainieren, indem Sie die Eigenschaft buildMode auf generative festlegen.


https://{endpoint}/documentintelligence/documentModels:build?api-version=2024-07-31-preview

{
  "modelId": "string",
  "description": "string",
  "buildMode": "generative",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}

Nächste Schritte

Erfahren Sie, wie Sie benutzerdefinierte generative Modelle erstellen.
Erfahren Sie mehr über benutzerdefinierte Modelle.

Teilen über