Teilen über


Benutzerdefiniertes neuronales Dokument Intelligenz-Modell

Wichtig

  • Public Preview-Releases von Dokument Intelligenz bieten frühzeitigen Zugriff auf Features, die sich in der aktiven Entwicklung befinden. Features, Ansätze und Prozesse können sich aufgrund von Benutzerfeedback vor der allgemeinen Verfügbarkeit (General Availability, GA) ändern.
  • Die Public Preview von Dokument Intelligenz-Clientbibliotheken verwendet standardmäßig Version 2024-07-31-preview der REST-API.
  • Die Public Preview 2024-07-31-preview ist derzeit lediglich in den folgenden Azure-Regionen verfügbar. Beachten Sie, dass das benutzerdefinierte generative Modell (Dokumentfeldextraktion) in KI Studio nur in der Region „USA, Norden-Mitte“ verfügbar ist:
    • USA, Osten
    • USA, Westen 2
    • Europa, Westen
    • USA Nord Mitte

Dieser Inhalt gilt für:Häkchen Version 4.0 (Vorschau) | Frühere Versionen: Blaues Häkchen Version 3.1 (GA) Blaues Häkchen Version 3.0 (GA)

Dieser Inhalt gilt für: Häkchen Version 3.1 (GA) | Neueste Version: Lila Häkchen Version 4.0 (Vorschau) | Vorherige Versionen: Blaues Häkchen Version 3.0

Dieser Inhalt gilt für: Häkchen Version 3.0 (GA) | Aktuelle Versionen: Lila Häkchen Version 4.0 (Vorschau) lila-häkchen Version 3.1

Benutzerdefinierte neuronale Dokumentmodelle sind ein Deep Learning-Modell, das Layout- und Sprachfeatures kombiniert, um beschriftete Felder präzise aus Dokumenten zu extrahieren. Das benutzerdefinierte neuronale Basismodell wird mit verschiedenen Dokumenttypen trainiert, wodurch es zum Extrahieren von Feldern aus strukturierten und teilweise strukturierten Dokumenten geeignet ist. Benutzerdefinierte neuronale Modelle sind im v3.0-Modell und höheren Modellen verfügbar. In der folgenden Tabelle sind allgemeine Dokumenttypen für jede Kategorie aufgeführt:

Dokumente Beispiele
Strukturiert Umfragen, Fragebögen
Teilweise strukturiert Rechnungen, Bestellungen

Benutzerdefinierte neuronale Modelle verwenden das gleiche Beschriftungsformat und dieselbe Strategie wie benutzerdefinierte Vorlagenmodelle. Derzeit unterstützen benutzerdefinierte neuronale Modelle nur eine Teilmenge der Feldtypen, die von benutzerdefinierten Vorlagenmodellen unterstützt werden.

Modellfunktionen

Wichtig

Ab API-Version 2024-02-29-preview fügen benutzerdefinierte neurale Modelle Unterstützung für überlappende Felder und Tabellenzellenvertrauen hinzu.

Benutzerdefinierte neuronale Modelle unterstützen derzeit Schlüssel-Wert-Paare, Auswahlmarkierungen und strukturierte Felder (Tabellen).

Formularfelder Auswahlmarkierungen Tabellarische Felder Signatur Beschriften von Bereichen Überlappende Felder
Unterstützt Unterstützt Unterstützt Nicht unterstützt Unterstützt 1 Unterstützt 2

1 Regionsbezeichnungen in benutzerdefinierten neuronalen Modellen verwenden die Ergebnisse der Layout-API für die angegebene Region. Dieses Feature unterscheidet sich von Vorlagenmodellen, bei denen Text während des Trainings generiert wird, wenn kein Wert vorhanden ist.
2 Überlappende Felder werden ab Version 2024-02-29-preview der REST-API unterstützt. Überlappende Felder weisen einige Grenzwerte auf. Weitere Informationen finden Sie unter Überlappende Felder.

Buildmodus

Der Build-Vorgang unterstützt Vorlagenmodelle und neurale benutzerdefinierte Modelle. Frühere Versionen der REST-API und der SDKs unterstützten nur einen einzigen Buildmodus, der nun als Vorlagenmodus bezeichnet wird.

Neuronale Modelle unterstützen Dokumente, die dieselben Informationen, aber unterschiedliche Seitenstrukturen enthalten. Zu diesen Dokumenten gehören beispielsweise die in den Vereinigten Staaten verwendeten W2-Steuerformulare. Sie enthalten die gleichen Informationen, können aber je nach Unternehmen unterschiedlich aussehen. Weitere Informationen finden Sie unter Buildmodus für benutzerdefinierte Modelle.

Überlappende Felder

Mit der Veröffentlichung der API-Versionen 2024-02-29-preview und höher werden überlappende Felder durch benutzerdefinierte neurale Modelle unterstützt:

Überlappende Felder

Mit der Veröffentlichung der API-Versionen 2024-07-31-preview und höher werden überlappende Felder durch benutzerdefinierte neuronale Modelle unterstützt:

Um die überlappenden Felder zu verwenden, muss ihr Dataset mindestens ein Beispiel mit der erwarteten Überlappung enthalten. Um eine Überlappung zu beschriften, verwenden Sie die Bereichsbezeichnung, um die einzelnen Inhaltspannen (mit der Überlappung) für jedes Feld festzulegen. Das Bezeichnen einer Überlappung mit der Feldauswahl (Hervorheben eines Werts) in Studio schlägt fehl, da die Bereichsbezeichnung das einzige unterstützte Bezeichnungstool für die Angabe von Feldüberlappungen ist. Die Überlappungsunterstützung umfasst:

  • Vollständige Überlappung. Derselbe Tokensatz wird für zwei verschiedene Felder bezeichnet.
  • Teilüberlappung. Einige Token gehören zu beiden Feldern, aber es gibt Token, die nur Teil eines Felds oder des anderen sind.

Überlappende Felder weisen einige Grenzwerte auf:

  • Jedes Token oder Wort kann nur als zwei Felder bezeichnet werden.
  • Überlappende Felder in einer Tabelle können keine Tabellenzeilen umfassen.
  • Überlappende Felder können nur erkannt werden, wenn mindestens ein Beispiel im Dataset überlappende Bezeichnungen für diese Felder enthält.

Um überlappende Felder zu verwenden, bezeichnen Sie Ihr Dataset mit den Überlappungen, und trainieren Sie das Modell mit der API-Version 2024-02-29-preview oder höher.

Tabellarische Felder

Mit der Veröffentlichung der API-Versionen 2022-06-30-Preview und höher werden tabellarische Felder (Tabellen) durch benutzerdefinierte neuronale Modelle für die Analyse von Tabellen-, Zeilen- und Zelldaten mit zusätzlicher Konfidenz unterstützt:

  • Modelle, die mit API-Version 2022-06-30-preview oder höher trainiert wurden, akzeptieren tabellarische Feldbezeichnungen.
  • Dokumente, die mit benutzerdefinierten neuronalen Modellen mithilfe der API-Version 2022-06-30-preview oder höher analysiert werden, erzeugen tabellarische Felder, die über Tabellen hinweg aggregiert werden.
  • Die Ergebnisse finden Sie im documents-Array des analyzeResult-Objekts, das nach einem Analysevorgang zurückgegeben wird.

Tabellarische Felder unterstützen standardmäßig seitenübergreifende Tabellen:

  • Um eine Tabelle zu beschriften, die mehrere Seiten umfasst, beschriften Sie jede Zeile der Tabelle auf den verschiedenen Seiten in einer einzelnen Tabelle.
  • Stellen Sie als bewährte Methode sicher, dass Ihr Dataset ein paar Beispiele der erwarteten Varianten enthält. Fügen Sie z. B. Beispiele hinzu, in denen sich die gesamte Tabelle auf einer einzelnen Seite befindet und in denen Tabellen zwei oder mehr Seiten umfassen.

Tabellarische Felder sind auch nützlich, wenn Sie sich wiederholende Informationen aus einem Dokument extrahieren, das nicht als Tabelle erkannt wird. Beispielsweise kann ein sich wiederholender Abschnitt mit Arbeitserfahrungen in einem Lebenslauf als tabellarisches Feld beschriftet und extrahiert werden.

Tabellarische Felder bieten Tabellen-, Zeilen- und Zellvertrauenssicherheit beginnend mit der 2024-02-29-preview API:

  • Feste oder dynamische Tabellen fügen Vertrauensunterstützung für die folgenden Elemente hinzu:

    • Tabellenvertrauen, ein Maß dafür, wie genau die gesamte Tabelle erkannt wird.
    • Zeilenvertrauen, ein Maß für die Erkennung einer einzelnen Zeile.
    • Zellvertrauen, ein Maß für die Erkennung einer einzelnen Zelle.
  • Der empfohlene Ansatz besteht darin, die Genauigkeit von oben nach unten zu überprüfen, beginnend mit der Tabelle zuerst, gefolgt von der Zeile und dann der Zelle. Weitere Informationen zu Tabellen-, Zeilen- und Zellvertrauenswerten finden Sie unter Konfidenz und Genauigkeit .

Unterstützte Sprachen und Gebietsschemas

Unter Sprachunterstützung: benutzerdefinierte Modelle finden Sie eine vollständige Liste der unterstützten Sprachen.

Unterstützte Regionen

Ab dem 18. Oktober 2022 wird das benutzerdefinierte Training neuronaler Modelle für Dokument Intelligenz bis auf Weiteres nur noch in den folgenden Azure-Regionen verfügbar sein:

  • Australien (Osten)
  • Brasilien Süd
  • Kanada, Mitte
  • Indien, Mitte
  • USA (Mitte)
  • Asien, Osten
  • East US
  • USA (Ost 2)
  • Frankreich, Mitte
  • Japan, Osten
  • USA Süd Mitte
  • Asien, Südosten
  • UK, Süden
  • Europa, Westen
  • USA, Westen 2
  • US Gov Arizona
  • US Government, Virginia

Tipp

Sie können ein Modell, das in einer der ausgewählten aufgelisteten Regionen trainiert wurde, in eine beliebige andere Region kopieren und entsprechend verwenden.

Verwenden Sie die REST-API oder Dokument Intelligenz Studio, um ein Modell in eine andere Region zu kopieren.

Tipp

Sie können ein Modell, das in einer der ausgewählten aufgelisteten Regionen trainiert wurde, in eine beliebige andere Region kopieren und entsprechend verwenden.

Verwenden Sie die REST-API oder Dokument Intelligenz Studio, um ein Modell in eine andere Region zu kopieren.

Tipp

Sie können ein Modell, das in einer der ausgewählten aufgelisteten Regionen trainiert wurde, in eine beliebige andere Region kopieren und entsprechend verwenden.

Verwenden Sie die REST-API oder Dokument Intelligenz Studio, um ein Modell in eine andere Region zu kopieren.

Eingabeanforderungen

  • Die besten Ergebnisse erzielen Sie, wenn Sie pro Dokument ein deutliches Foto oder einen hochwertigen Scan bereitstellen.

  • Unterstützte Dateiformate:

    Modell PDF Bild:
    jpeg/jpg, png, bmp, tiff, heif
    Microsoft Office:
    Word (docx), Excel (xlsx), PowerPoint (pptx) und HTML
    Lesen
    Layout ✔ (2024-02-29-preview, 2023-10-31-preview, oder höher)
    Allgemeines Dokument
    Vordefiniert
    Benutzerdefiniertes neuronales Modell

    ✱ Microsoft Office-Dateien werden derzeit für andere Modelle oder Versionen nicht unterstützt.

  • In den Formaten PDF und TIFF können bis zu 2,000 Seiten verarbeitet werden (bei einem kostenlosen Abonnement werden nur die ersten beiden Seiten verarbeitet).

  • Die Dateigröße für die Analyse von Dokumenten beträgt 500 MB für die kostenpflichtige (S0) und 4 MB für die kostenlose (F0) Stufe.

  • Die Bildgrößen müssen im Bereich zwischen 50 × 50 Pixel und 10.000 × 10.000 Pixel liegen.

  • Wenn Ihre PDFs kennwortgeschützt sind, müssen Sie die Sperre vor dem Senden entfernen.

  • Die Mindesthöhe des zu extrahierenden Texts beträgt 12 Pixel für ein Bild von 1024 × 768 Pixel. Diese Abmessung entspricht etwa einem 8-Punkt-Text bei 150 Punkten pro Zoll.

  • Die maximale Anzahl Seiten für Trainingsdaten beträgt beim benutzerdefinierten Modelltraining 500 für das benutzerdefinierte Vorlagenmodell und 50.000 für das benutzerdefinierte neuronale Modell.

  • Für das Training des benutzerdefinierten Extraktionsmodells beträgt die Gesamtgröße der Trainingsdaten 50 MB für das Vorlagenmodell und 1G-MB für das neuronale Modell.

  • Für das Training des benutzerdefinierten Klassifizierungsmodells beträgt die Gesamtgröße der Trainingsdaten 1GB mit einem Maximum von 10 000 Seiten.

Bewährte Methoden

Benutzerdefinierte neuronale Modelle unterscheiden sich auf verschiedene Weise von benutzerdefinierten Vorlagenmodellen. Das benutzerdefinierte Vorlagenmodell basiert auf einer konsistenten visuellen Vorlage, um die beschrifteten Daten zu extrahieren. Benutzerdefinierte neurale Modelle unterstützen strukturierte und teilweise strukturierte Dokumente zum Extrahieren von Feldern. Beginnen Sie bei der Auswahl des Modelltyps mit einem neuralen Modell, und testen Sie, ob es Ihre funktionalen Anforderungen unterstützt.

  • Umgang mit Variationen: Benutzerdefinierte neurale Modelle können über die verschiedenen Formate eines einzelnen Dokumenttyps generalisiert werden. Als bewährte Methode wird ein einzelnes Modell für alle Variationen eines Dokumenttyps erstellt. Fügen Sie dem Trainingsdataset mindestens fünf beschriftete Stichproben für jede der verschiedenen Variationen hinzu.
  • Feldbenennung: Die Bezeichnung der Daten des Felds, das für den Wert relevant ist, führt zu einer Verbesserung der Genauigkeit der extrahierten Schlüssel-Wert-Paare. Für einen Feldwert, der die Lieferanten-ID enthält, sollten Sie das Feld beispielsweise supplier_id benennen. Feldnamen sollten die Sprache des Dokuments verwenden.
  • Bezeichnung zusammenhängender Werte: Werttoken/Wörter eines Felds müssen eine der folgenden Eigenschaften aufweisen:
    • Eine aufeinanderfolgende Sequenz in natürlicher Lesereihenfolge ohne Überlappung mit anderen Feldern sein
    • Sich in einem Bereich befinden, der keine anderen Felder abdeckt
  • Repräsentative Daten: Werte in Trainingsfällen sollten vielfältig und repräsentativ sein. Wenn ein Feld beispielsweise den Namen date hat, sollten die Werte für dieses Feld ein Datum sein. Ein synthetischer Wert wie eine zufällige Zeichenfolge kann sich auf die Modellleistung auswirken.

Aktuelle Einschränkungen

  • Das benutzerdefinierte neuronale Modell erkennt keine Werte, die über Seitengrenzen hinweg geteilt werden.
  • Nicht unterstützte Feldtypen für benutzerdefinierte neuronale Modelle werden ignoriert, wenn ein Datensatz, der für benutzerdefinierte Vorlagenmodelle gekennzeichnet ist, zum Trainieren eines benutzerdefinierten neuronalen Modells verwendet wird.
  • Benutzerdefinierte neuronale Modelle sind auf 20 Buildvorgänge pro Monat beschränkt. Erstellen Sie eine Supportanfrage, wenn Sie den Grenzwert erhöhen müssen. Weitere Informationen finden Sie unter Dokument Intelligenz-Dienst – Kontingente und Grenzwerte.

Trainieren eines Modells

Benutzerdefinierte neuronale Modelle sind im v3.0-Modell und höheren Modellen verfügbar.

Dokumenttyp REST-API SDK Beschriften und Testen von Modellen
Benutzerdefiniertes Dokument Dokument Intelligenz 3.1 Document Intelligence SDK Dokument Intelligenz Studio

Der Build-Vorgang zum Trainieren eines Modells unterstützt die neue buildMode-Eigenschaft. Legen Sie buildMode auf neural fest, um ein benutzerdefiniertes neurales Modell zu trainieren.

https://{endpoint}/documentintelligence/documentModels:build?api-version=2024-07-31-preview

{
  "modelId": "string",
  "description": "string",
  "buildMode": "neural",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}
https://{endpoint}/formrecognizer/documentModels:build?api-version=v3.1:2023-07-31

{
  "modelId": "string",
  "description": "string",
  "buildMode": "neural",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}
https://{endpoint}/formrecognizer/documentModels/{modelId}:copyTo?api-version=2022-08-31

{
  "modelId": "string",
  "description": "string",
  "buildMode": "neural",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}

Abrechnung

Ab Version 2024-07-31-preview können Sie Ihr benutzerdefiniertes neuronales Modell länger als die Standarddauer von 30 Minuten trainieren. Frühere Versionen sind auf 30 Minuten pro Trainingsinstanz und insgesamt 20 kostenlose Trainingsinstanzen pro Monat begrenzt. Mit 2024-07-31-preview können Sie 10 Stunden an kostenlosem Modelltraining erhalten und ein Modell für bis zu 10 Stunden trainieren.

Sie können die 10 kostenlosen Stunden für einen einzelnen Modellbuild mit einer großen Datenmenge oder für mehrere Builds verwenden, indem Sie den maximalen Dauerwert für den build-Vorgang durch Angeben von maxTrainingHours anpassen:


POST /documentModels:build
{
  ...,
  "maxTrainingHours": 10
}

Wichtig

  • Wenn Sie zusätzliche neuronale Modelle oder Modelle allgemein für einen längeren Zeitraum als 10 Stunden trainieren möchten, fallen Abrechnungsgebühren an. Ausführliche Informationen zu den Abrechnungsgebühren finden Sie auf der Preisseite.
  • Sie können sich für diesen kostenpflichtigen Trainingsdienst anmelden, indem Sie die maxTrainingHours auf die gewünschte maximale Anzahl von Stunden festlegen. Bei API-Aufrufen ohne Budget aber mit maxTrainingHours über 10 Stunden tritt ein Fehler auf.
  • Da jeder Build je nach Typ und Größe des Trainingsdatasets unterschiedliche Zeit in Anspruch nimmt, wird die Abrechnung für die tatsächliche Trainingszeit des neuronalen Modells mit mindestens 30 Minuten pro Trainingsauftrag berechnet.
  • Mit dieser kostenpflichtigen Abrechnungsstruktur können Sie größere Datasets für längere Zeiträume mit flexiblen Trainingsstunden trainieren.

GET /documentModels/{myCustomModel}
{
  "modelId": "myCustomModel",
  "trainingHours": 0.23,
  "docTypes": { ... },
  ...
}

Hinweis

Für Dokumentintelligenzversionen v3.1 (2023-07-31) und v3.0 (2022-08-31)die kostenpflichtige Schulung des benutzerdefinierten Neuralmodells ist nicht aktiviert. Für die beiden älteren Versionen erhalten Sie pro Modell maximal 30 Minuten Schulungsdauer. Wenn Sie mehr als 20 Modellinstanzen trainieren möchten, können Sie ein Azure-Supportticket erstellen, um das Trainingslimit zu erhöhen.

Abrechnung

Für die Dokument Intelligenz-Versionen v3.1 (2023-07-31) and v3.0 (2022-08-31) erhalten Sie maximal 30 Minuten Trainingsdauer pro Modell und maximal 20 kostenlose Trainings pro Monat. Wenn Sie mehr als 20 Modellinstanzen trainieren möchten, können Sie ein Azure-Supportticket erstellen, um das Trainingslimit zu erhöhen. Geben Sie für das Azure-Supportticket im Abschnitt summary einen Ausdruck wie Increase Document Intelligence custom neural training (TPS) limit ein. Ein Ticket kann nur auf Ressourcenebene und nicht auf Abonnementebene angewendet werden. Sie können eine Erhöhung des Trainingslimits für eine einzelne Dokument Intelligenz-Ressource anfordern, indem Sie Ihre Ressourcen-ID und -region im Supportticket angeben.

Wenn Sie Modelle länger als 30 Minuten trainieren möchten, wird kostenpflichtiges Training mit der neuesten Version, v4.0 (2024-07-31-preview), unterstützt Mit der neuesten Version können Sie Ihr Modell länger trainieren, um größere Dokumente zu verarbeiten. Weitere Informationen zu kostenpflichtigem Training finden Sie unter Abrechnung v4.0.

Abrechnung

Für die Dokument Intelligenz-Versionen v3.1 (2023-07-31) and v3.0 (2022-08-31) erhalten Sie maximal 30 Minuten Trainingsdauer pro Modell und maximal 20 kostenlose Trainings pro Monat. Wenn Sie mehr als 20 Modellinstanzen trainieren möchten, können Sie ein Azure-Supportticket erstellen, um das Trainingslimit zu erhöhen. Geben Sie für das Azure-Supportticket im Abschnitt summary einen Ausdruck wie Increase Document Intelligence custom neural training (TPS) limit ein. Ein Ticket kann nur auf Ressourcenebene und nicht auf Abonnementebene angewendet werden. Sie können eine Erhöhung des Trainingslimits für eine einzelne Dokument Intelligenz-Ressource anfordern, indem Sie Ihre Ressourcen-ID und -region im Supportticket angeben.

Wenn Sie Modelle länger als 30 Minuten trainieren möchten, wird kostenpflichtiges Training mit der neuesten Version, v4.0 (2024-07-31), unterstützt Mit der neuesten Version können Sie Ihr Modell länger trainieren, um größere Dokumente zu verarbeiten. Weitere Informationen zu kostenpflichtigem Training finden Sie unter Abrechnung v4.0.

Nächste Schritte

Erfahren Sie, wie Sie benutzerdefinierte Modelle erstellen und zusammenstellen: