Benutzerdefiniertes neuronales Dokument Intelligenz-Modell

Artikel
03/19/2024

Wichtig

Public Preview-Releases von Dokument Intelligenz bieten frühzeitigen Zugriff auf Features, die sich in der aktiven Entwicklung befinden.
Features, Ansätze und Prozesse können sich aufgrund von Benutzerfeedback vor der allgemeinen Verfügbarkeit (General Availability, GA) ändern.
Die öffentliche Vorschauversion der Clientbibliotheken für Dokument-Intelligence ist standardmäßig die REST-API-Version 2024-02-29-preview.
Öffentliche Vorschauversion 2024-02-29-preview ist derzeit nur in den folgenden Azure-Regionen verfügbar:
USA, Osten
USA, Westen 2
Europa, Westen

Dieser Inhalt gilt für:Version 4.0 (Vorschau) | Vorherige Versionen:3.1 (allgemein verfügbar)3.0 (allgemein verfügbar)

Dieser Inhalt gilt für:v3.1 (allgemein verfügbar) | Neueste Version:v4.0 (Vorschau) | Vorherige Versionen:v3.0

Dieser Inhalt gilt für:v3.0 (GA) | Aktuelle Versionen:v4.0 (Vorschau)v3.1

Benutzerdefinierte neuronale Dokumentmodelle sind ein Deep Learning-Modell, das Layout- und Sprachfeatures kombiniert, um beschriftete Felder präzise aus Dokumenten zu extrahieren. Das benutzerdefinierte neuronale Basismodell wird mit verschiedenen Dokumenttypen trainiert, damit es zum Extrahieren von Feldern aus strukturierten, teilweise strukturierten und unstrukturierten Dokumenten geeignet ist. Benutzerdefinierte neuronale Modelle sind im v3.0-Modell und höheren Modellen verfügbar. In der folgenden Tabelle sind allgemeine Dokumenttypen für jede Kategorie aufgeführt:

Dokumente	Beispiele
Strukturiert	Umfragen, Fragebögen
Teilweise strukturiert	Rechnungen, Bestellungen
Unstrukturiert	Verträge, Briefe

Benutzerdefinierte neuronale Modelle verwenden das gleiche Beschriftungsformat und dieselbe Strategie wie benutzerdefinierte Vorlagenmodelle. Derzeit unterstützen benutzerdefinierte neuronale Modelle nur eine Teilmenge der Feldtypen, die von benutzerdefinierten Vorlagenmodellen unterstützt werden.

Modellfunktionen

Wichtig

Ab API-Version 2024-02-29-preview fügen benutzerdefinierte neurale Modelle Unterstützung für überlappende Felder und Tabellenzellenvertrauen hinzu.

Benutzerdefinierte neuronale Modelle unterstützen derzeit nur Schlüssel-Wert-Paare, Auswahlmarkierungen und strukturierte Felder (Tabellen). Zukünftige Releases bieten Unterstützung für Signaturen.

Formularfelder	Auswahlmarkierungen	Tabellarische Felder	Signatur	Region	Überlappende Felder
Unterstützt	Unterstützt	Unterstützt	Nicht unterstützt	Unterstützt ¹	Unterstützt ²

¹ Regionsbezeichnungen in benutzerdefinierten neuronalen Modellen verwenden die Ergebnisse der Layout-API für die angegebene Region. Dieses Feature unterscheidet sich von Vorlagenmodellen, bei denen Text zur Trainingszeit generiert wird, wenn kein Wert vorhanden ist. ² Überlappende Felder werden ab REST-API-Version 2024-02-29-previewunterstützt. Überlappende Felder weisen einige Grenzwerte auf. Weitere Informationen finden Sie unterüberlappenden Feldern.

Buildmodus

Der Vorgang zum Erstellen benutzerdefinierter Modelle unterstützt die benutzerdefinierten Vorlagenmodelle und die benutzerdefinierten neuronalen Modelle. Frühere Versionen der REST-API und der SDKs unterstützten nur einen einzigen Buildmodus, der nun als Vorlagenmodus bezeichnet wird.

Neuronale Modelle unterstützen Dokumente, die dieselben Informationen, aber unterschiedliche Seitenstrukturen enthalten. Zu diesen Dokumenten gehören beispielsweise die in den Vereinigten Staaten verwendeten W2-Steuerformulare. Sie enthalten die gleichen Informationen, können aber je nach Unternehmen unterschiedlich aussehen. Weitere Informationen finden Sie unter Buildmodus für benutzerdefinierte Modelle.

Unterstützte Sprachen und Gebietsschemas

Eine vollständige Liste der unterstützten Sprachen finden Sie unter Sprachunterstützung – Benutzerdefinierte Modelle.

Überlappende Felder

Mit der Veröffentlichung der API-Versionen 2024-02-29-preview und später werden benutzerdefinierte neuronale Modelle überlappende Felder unterstützen:

Um die überlappenden Felder zu verwenden, muss ihr Dataset mindestens ein Beispiel mit der erwarteten Überlappung enthalten. Um eine Überlappung zu beschriften, verwenden Sie die Bereichsbezeichnung, um die einzelnen Inhaltspannen (mit der Überlappung) für jedes Feld festzulegen. Das Bezeichnen einer Überlappung mit Feldauswahl (das Hervorheben eines Werts) schlägt im Studio fehl, da die Bereichsbeschriftung das einzige unterstützte Bezeichnungstool für die Angabe von Feldüberlappungen ist. Die Überlappungsunterstützung umfasst:

Vollständige Überlappung. Derselbe Tokensatz wird für zwei verschiedene Felder bezeichnet.
Teilüberlappung. Einige Token gehören zu beiden Feldern, aber es gibt Token, die nur Teil eines Felds oder des anderen sind.

Überlappende Felder weisen einige Grenzwerte auf:

Jedes Token oder Wort kann nur als zwei Felder bezeichnet werden.
Überlappende Felder in einer Tabelle können keine Tabellenzeilen umfassen.
Überlappende Felder können nur erkannt werden, wenn mindestens ein Beispiel im Dataset überlappende Bezeichnungen für diese Felder enthält.

Um überlappende Felder zu verwenden, bezeichnen Sie Ihr Dataset mit den Überlappungen, und trainieren Sie das Modell mit der API-Version 2024-02-29-preview oder höher.

Tabellarische Felder fügen Tabellen-, Zeilen- und Zellenkonfidenz hinzu

Mit der Veröffentlichung der API-Versionen 2022-06-30-preview und höher unterstützen benutzerdefinierte neuronale Modelle tabellarische Felder (Tabellen):

Modelle, die mit API-Version 2022-08-31 oder höher trainiert wurden, akzeptieren tabellarische Feldbeschriftungen.
Dokumente, die mit benutzerdefinierten neuronalen Modellen mithilfe der API-Version 2022-06-30-preview oder höher analysiert werden, erzeugen tabellarische Felder, die über Tabellen hinweg aggregiert werden.
Die Ergebnisse finden Sie im documents-Array des analyzeResult-Objekts, das nach einem Analysevorgang zurückgegeben wird.

Tabellarische Felder unterstützen standardmäßig seitenübergreifende Tabellen:

Um eine Tabelle zu beschriften, die mehrere Seiten umfasst, beschriften Sie jede Zeile der Tabelle auf den verschiedenen Seiten in einer einzelnen Tabelle.
Stellen Sie als bewährte Methode sicher, dass Ihr Dataset ein paar Beispiele der erwarteten Varianten enthält. Fügen Sie z. B. Beispiele hinzu, in denen sich die gesamte Tabelle auf einer einzelnen Seite befindet und in denen Tabellen zwei oder mehr Seiten umfassen.

Tabellarische Felder sind auch nützlich, wenn Sie sich wiederholende Informationen aus einem Dokument extrahieren, das nicht als Tabelle erkannt wird. Beispielsweise kann ein sich wiederholender Abschnitt mit Arbeitserfahrungen in einem Lebenslauf als tabellarisches Feld beschriftet und extrahiert werden.

Tabellarische Felder bieten Tabellen-, Zeilen- und Zellvertrauenssicherheit beginnend mit der 2024-02-29-preview API:

Feste oder dynamische Tabellen fügen Vertrauensunterstützung für die folgenden Elemente hinzu:
- Tabellenvertrauen, ein Maß dafür, wie genau die gesamte Tabelle erkannt wird.
- Zeilenvertrauen, ein Maß für die Erkennung einer einzelnen Zeile.
- Zellvertrauen, ein Maß für die Erkennung einer einzelnen Zelle.
Der empfohlene Ansatz besteht darin, die Genauigkeit von oben nach unten zu überprüfen, beginnend mit der Tabelle zuerst, gefolgt von der Zeile und dann der Zelle.

Weitere Informationen zu Tabellen-, Zeilen- und Zellvertrauenswerten finden Sie unter Konfidenz und Genauigkeit .

Unterstützte Regionen

Ab dem 18. Oktober 2022 wird das benutzerdefinierte Training neuronaler Modelle für Dokument Intelligenz bis auf Weiteres nur noch in den folgenden Azure-Regionen verfügbar sein:

Australien (Osten)
Brasilien Süd
Kanada, Mitte
Indien, Mitte
USA (Mitte)
Asien, Osten
East US
USA (Ost 2)
Frankreich, Mitte
Japan, Osten
USA Süd Mitte
Asien, Südosten
UK, Süden
Europa, Westen
USA, Westen 2
US Gov Arizona
US Government, Virginia

Tipp

Sie können ein Modell, das in einer der ausgewählten aufgelisteten Regionen trainiert wurde, in eine beliebige andere Region kopieren und entsprechend verwenden.

Verwenden Sie die REST-API oder Dokument Intelligenz Studio, um ein Modell in eine andere Region zu kopieren.

Tipp

Sie können ein Modell, das in einer der ausgewählten aufgelisteten Regionen trainiert wurde, in eine beliebige andere Region kopieren und entsprechend verwenden.

Verwenden Sie die REST-API oder Dokument Intelligenz Studio, um ein Modell in eine andere Region zu kopieren.

Tipp

Sie können ein Modell, das in einer der ausgewählten aufgelisteten Regionen trainiert wurde, in eine beliebige andere Region kopieren und entsprechend verwenden.

Verwenden Sie die REST-API oder Dokument Intelligenz Studio, um ein Modell in eine andere Region zu kopieren.

Eingabeanforderungen

Die besten Ergebnisse erzielen Sie, wenn Sie pro Dokument ein deutliches Foto oder einen hochwertigen Scan bereitstellen.

Unterstützte Dateiformate:

Modell	PDF	Bild: jpeg/jpg, png, bmp, tiff, heif	Microsoft Office: Word (docx), Excel (xlsx), PowerPoint (pptx) und HTML
Lesen	✔	✔	✔
Layout	✔	✔	✔ (2024-02-29-preview, 2023-10-31-preview, oder höher)
Allgemeines Dokument	✔	✔
Vordefiniert	✔	✔
Benutzerdefiniertes neuronales Modell	✔	✔

✱ Microsoft Office-Dateien werden derzeit für andere Modelle oder Versionen nicht unterstützt.

In den Formaten PDF und TIFF können bis zu 2,000 Seiten verarbeitet werden (bei einem kostenlosen Abonnement werden nur die ersten beiden Seiten verarbeitet).
Die Dateigröße für die Analyse von Dokumenten beträgt 500 MB für die kostenpflichtige (S0) und 4 MB für die kostenlose (F0) Stufe.
Die Bildgrößen müssen im Bereich zwischen 50 × 50 Pixel und 10.000 × 10.000 Pixel liegen.
Wenn Ihre PDFs kennwortgeschützt sind, müssen Sie die Sperre vor dem Senden entfernen.
Die Mindesthöhe des zu extrahierenden Texts beträgt 12 Pixel für ein Bild von 1024 × 768 Pixel. Diese Abmessung entspricht etwa einem 8-Punkt-Text bei 150 Punkten pro Zoll.
Die maximale Anzahl Seiten für Trainingsdaten beträgt beim benutzerdefinierten Modelltraining 500 für das benutzerdefinierte Vorlagenmodell und 50.000 für das benutzerdefinierte neuronale Modell.
Für das Training des benutzerdefinierten Extraktionsmodells beträgt die Gesamtgröße der Trainingsdaten 50 MB für das Vorlagenmodell und 1G-MB für das neuronale Modell.
Für das Training des benutzerdefinierten Klassifizierungsmodells beträgt die Gesamtgröße der Trainingsdaten 1GB mit einem Maximum von 10 000 Seiten.

Bewährte Methoden

Benutzerdefinierte neuronale Modelle unterscheiden sich auf verschiedene Weise von benutzerdefinierten Vorlagenmodellen. Das benutzerdefinierte Vorlagenmodell basiert auf einer konsistenten visuellen Vorlage, um die beschrifteten Daten zu extrahieren. Benutzerdefinierte neuronale Modelle unterstützen strukturierte, halbstrukturierte und unstrukturierte Dokumente zum Extrahieren von Feldern. Wenn Sie sich zwischen den beiden Modelltypen entscheiden müssen, beginnen Sie mit einem neuronalen Modell, und testen Sie es, um zu bestimmen, ob es Ihre Funktionsanforderungen erfüllt.

Umgang mit Variationen

Benutzerdefinierte neuronale Modelle können über verschiedene Formate eines einzelnen Dokumenttyps hinweg generalisiert werden. Als bewährte Methode wird ein einzelnes Modell für alle Variationen eines Dokumenttyps erstellt. Fügen Sie dem Trainingsdataset mindestens fünf beschriftete Stichproben für jede der verschiedenen Variationen hinzu.

Feldbenennung

Wenn Sie die Daten beschriften, verbessert die Beschriftung des für den Wert relevanten Felds die Genauigkeit der extrahierten Schlüssel-Wert-Paare. Für einen Feldwert, der die Lieferanten-ID enthält, sollten Sie das Feld beispielsweise supplier_id benennen. Feldnamen sollten die Sprache des Dokuments verwenden.

Beschriften zusammenhängender Werte

Werttoken/Wörter eines Felds müssen:

Eine aufeinanderfolgende Sequenz in natürlicher Lesereihenfolge ohne Überlappung mit anderen Feldern sein
Sich in einem Bereich befinden, der keine anderen Felder abdeckt

Repräsentative Daten

Werte in Trainingsfällen sollten verschieden und repräsentativ sein. Wenn ein Feld beispielsweise den Namen date hat, sollten die Werte für dieses Feld ein Datum sein. Ein synthetischer Wert wie eine zufällige Zeichenfolge kann sich auf die Modellleistung auswirken.

Aktuelle Einschränkungen

Das benutzerdefinierte neuronale Modell erkennt keine Werte, die über Seitengrenzen hinweg geteilt werden.
Nicht unterstützte Feldtypen für benutzerdefinierte neuronale Modelle werden ignoriert, wenn ein Datensatz, der für benutzerdefinierte Vorlagenmodelle gekennzeichnet ist, zum Trainieren eines benutzerdefinierten neuronalen Modells verwendet wird.
Benutzerdefinierte neuronale Modelle sind auf 20 Buildvorgänge pro Monat beschränkt. Erstellen Sie eine Supportanfrage, wenn Sie den Grenzwert erhöhen müssen. Weitere Informationen finden Sie unter Dokument Intelligenz-Dienst – Kontingente und Grenzwerte.

Trainieren eines Modells

Benutzerdefinierte neuronale Modelle sind im v3.0-Modell und höheren Modellen verfügbar.

Dokumenttyp	REST-API	SDK	Beschriften und Testen von Modellen
Benutzerdefiniertes Dokument	Dokument Intelligenz 3.1	Document Intelligence SDK	Dokument Intelligenz Studio

Der Buildvorgang zum Trainieren des Modells unterstützt die neue Eigenschaft buildMode. Um ein benutzerdefiniertes neuronales Modell zu trainieren, legen Sie buildMode auf neural fest.

https://{endpoint}/documentintelligence/documentModels:build?api-version=2024-02-29-preview

{
  "modelId": "string",
  "description": "string",
  "buildMode": "neural",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}

https://{endpoint}/formrecognizer/documentModels:build?api-version=v3.1:2023-07-31

{
  "modelId": "string",
  "description": "string",
  "buildMode": "neural",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}

https://{endpoint}/formrecognizer/documentModels/{modelId}:copyTo?api-version=2022-08-31

{
  "modelId": "string",
  "description": "string",
  "buildMode": "neural",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}

Nächste Schritte

Erfahren Sie, wie Sie benutzerdefinierte Modelle erstellen und zusammenstellen:

Erstellen eines benutzerdefinierten ModellsVerfassen benutzerdefinierter Modelle

Benutzerdefiniertes neuronales Dokument Intelligenz-Modell

Modellfunktionen

Buildmodus

Unterstützte Sprachen und Gebietsschemas

Überlappende Felder

Tabellarische Felder fügen Tabellen-, Zeilen- und Zellenkonfidenz hinzu

Unterstützte Regionen

Eingabeanforderungen

Bewährte Methoden

Umgang mit Variationen

Feldbenennung

Beschriften zusammenhängender Werte

Repräsentative Daten

Aktuelle Einschränkungen

Trainieren eines Modells

Nächste Schritte

Zusätzliche Ressourcen