Erstellen eines Trainingsdatasets für ein benutzerdefiniertes Modell

Wenn Sie das benutzerdefinierte Modell zur Formularerkennung verwenden, stellen Sie dem Vorgang Trainieren eines benutzerdefinierten Modells Ihre eigenen Trainingsdaten bereit, sodass das Modell mit Ihren branchenspezifischen Formularen trainiert werden kann. Folgen Sie diesem Leitfaden, um zu erfahren, wie Daten für ein effektives Training des Modells gesammelt und vorbereitet werden können.

Sie benötigen mindestens fünf ausgefüllte Formulare desselben Typs.

Wenn Sie manuell bezeichnete Trainingsdaten verwenden möchten, müssen Sie mit mindestens fünf ausgefüllten Formularen desselben Typs beginnen. Sie können trotzdem nicht bezeichnete Formulare zusätzlich zum erforderlichen Dataset verwenden.

Eingabeanforderungen für benutzerdefinierte Modelle

Stellen Sie zunächst sicher, dass Ihr Trainingsdataset den Eingabeanforderungen für die Formularerkennung entspricht.

  • Die besten Ergebnisse erzielen Sie, wenn Sie pro Dokument ein deutliches Foto oder einen hochwertigen Scan bereitstellen.

  • Unterstützte Dateiformate:

    Modell PDF Bild:
    JPEG/JPG, PNG, BMP und TIFF
    Microsoft Office:
    Word (DOCX), Excel (XLS), PowerPoint (PPT) und HTML
    Lesen REST-API-Version
    2022/06/30-preview
    Layout
    Allgemeines Dokument
    Vordefiniert
    Benutzerdefiniert

    ✱ Microsoft Office-Dateien werden derzeit für andere Modelle oder Versionen nicht unterstützt.

  • In den Formaten PDF und TIFF können bis zu 2.000 Seiten verarbeitet werden (bei einem kostenlosen Abonnement werden nur die ersten beiden Seiten verarbeitet).

  • Die Dateigröße der zu analysierenden Dokumente muss kleiner als 500 MB für die kostenpflichtige (S0) und 4 MB für die kostenlose (F0) Stufe betragen.

  • Die Bildgröße muss zwischen 50 x 50 Pixel und 10.000 px x 10.000 Pixel liegen.

  • Die PDF-Abmessungen sind bis zu 17 × 17 Zoll, sodass die Papierformate Legal oder A3 hineinpassen, oder kleiner.

  • Wenn Ihre PDFs kennwortgeschützt sind, müssen Sie die Sperre vor dem Senden entfernen.

  • Die Mindesthöhe des zu extrahierenden Textes beträgt 12 Pixel bei einem Bild mit 1024 x 768 Pixeln. Diese Abmessung entspricht etwa 8-Punkt-Text bei 150 Punkten pro Zoll (DPI).

  • Für das Training des benutzerdefinierten Modells beträgt die maximale Anzahl von Seiten für Trainingsdaten 500 für das benutzerdefinierte Vorlagenmodell und 50.000 für das benutzerdefinierte neuronale Modell.

  • Für das Training des benutzerdefinierten Modells beträgt die Gesamtgröße der Trainingsdaten 50 MB für das Vorlagenmodell und 1G-MB für das neuronale Modell.

Tipps zu Trainingsdaten

Befolgen Sie diese zusätzlichen Tipps, um Ihr Dataset für das Training weiter zu optimieren.

  • Verwenden Sie nach Möglichkeit textbasierte PDF-Dokumente anstelle von bildbasierten Dokumenten. Gescannte PDF-Dateien werden als Bilder behandelt.
  • Verwenden Sie als ausgefüllte Formulare Exemplare, in denen alle Felder ausgefüllt sind.
  • Verwenden Sie Formulare mit verschiedenen Werten in jedem Feld.
  • Wenn Ihre Formularbilder eine mäßige Qualität aufweisen, verwenden Sie ein größeres Dataset (beispielsweise 10–15 Bilder).

Hochladen Ihrer Trainingsdaten

Wenn Sie den Satz von Formulardokumenten, die Sie für das Training verwenden möchten, zusammengestellt haben, müssen Sie ihn in einen Azure Blob Storage-Container hochladen. Wenn Sie nicht wissen, wie Sie ein Azure Storage-Konto mit einem Container erstellen, folgen Sie den Anweisungen im Azure Storage-Schnellstart für das Azure-Portal. Verwenden Sie die Standardleistungsstufe.

Wenn Sie manuell bezeichnete Daten verwenden möchten, müssen Sie auch die Dateien .labels.json und .ocr.json hochladen, die den Trainingsdokumenten entsprechen. Sie können das Beispielbeschriftungstool (oder Ihre eigene Benutzeroberfläche) verwenden, um diese Dateien zu generieren.

Organisieren Ihrer Daten in Unterordnern (optional)

Standardmäßig werden von der Train Custom Model-API nur Formulardokumente verwendet, die sich im Stammverzeichnis Ihres Speichercontainers befinden. Sie können jedoch mit Daten in Unterordnern trainieren, wenn Sie dies im API-Aufruf angeben. Normalerweise hat der Text des Train Custom Model-Aufrufs das folgende Format, wobei <SAS URL> die SAS-URL (Shared Access Signature) des Containers ist:

{
  "source":"<SAS URL>"
}

Wenn Sie dem Anforderungstext den folgenden Inhalt hinzufügen, wird die API mit Dokumenten trainiert, die sich in Unterordnern befinden. Das Feld "prefix" ist optional und schränkt das Trainingsdataset auf Dateien ein, deren Pfad mit der angegebenen Zeichenfolge beginnt. So bewirkt beispielsweise der Wert "Test", dass die API nur Dateien oder Ordner berücksichtigt, die mit dem Wort „Test“ beginnen.

{
  "source": "<SAS URL>",
  "sourceFilter": {
    "prefix": "<prefix string>",
    "includeSubFolders": true
  },
  "useLabelFile": false
}

Nächste Schritte

Nachdem Sie nun gelernt haben, wie Sie ein Trainingsdataset erstellen, folgen Sie den Anweisungen in einem Schnellstart, um ein benutzerdefiniertes Formularerkennungsmodell zu trainieren und es mit Ihren Formularen zu verwenden.

Weitere Informationen