カスタム モデルのトレーニング データ セットを作成する

Form Recognizer のカスタム モデルを使用する場合は、モデルを業界固有のフォームに合わせてトレーニングできるように、独自のトレーニング データを Train Custom Model 操作に提供します。 このガイドに従い、モデルを効果的にトレーニングするためにデータを収集し、準備する方法について学習してください。

同じ種類の少なくとも 5 つの入力フォームが必要です。

手動でラベル付けされたトレーニング データを使用する場合は、同じ種類の少なくとも 5 つの入力済みフォームから開始する必要があります。 必要なデータ セットに加え、ラベル付けされていないフォームを引き続き使用することもできます。

カスタム モデルの入力要件

まず、トレーニング データ セットが Form Recognizer の入力の要件に従っていることを確認します。

  • 最適な結果を得るには、ドキュメントごとに 1 つの鮮明な写真または高品質のスキャンを提供してください。

  • サポートされているファイル形式:

    モデル PDF 画像:
    JPEG/JPG、PNG、BMP、TIFF
    Microsoft Office:
    Word (DOCX)、Excel (XLS)、PowerPoint (PPT)、HTML
    Read REST API バージョン
    2022/06/30-preview
    Layout
    一般的なドキュメント
    事前構築済み
    Custom

    ✱ 現在、Microsoft Office ファイルは他のモデルやバージョンではサポートされません。

  • PDF および TIFF の場合、最大 2000 ページを処理できます (Free レベルのサブスクリプションでは、最初の 2 ページのみが処理されます)。

  • ドキュメントを分析する場合のファイル サイズは、有料 (S0) レベルでは 500 MB 未満、無料 (F0) レベルでは 4 MB 未満である必要があります。

  • 画像のディメンションは、50 x 50 ピクセルから 10,000 x 10,000 ピクセルの間である必要があります。

  • PDF の寸法は、17 x 17 インチまでで、Legal または A3 サイズ以下の用紙に対応します。

  • PDF がパスワードでロックされている場合は、送信前にロックを解除する必要があります。

  • 抽出するテキストの最小の高さは、1024 x 768 ピクセルのイメージの場合は 12 ピクセルです。 このディメンションは、150 DPI (1 インチあたりのドット数) で約 8 ポイントのテキストに相当します。

  • カスタム モデル トレーニングにおけるトレーニング データの最大ページ数は、カスタム テンプレート モデルの場合は 500、カスタム ニューラル モデルの場合は 50,000 です。

  • カスタム モデル トレーニングにおけるトレーニング データの合計サイズは、テンプレート モデルの場合は 50 MB、ニューラル モデルの場合は 1GB です。

トレーニング データのヒント

以下の追加ヒントに従い、トレーニングのためにデータ セットをさらに最適化してください。

  • 可能であれば、画像ベースのドキュメントではなく、テキストベースの PDF ドキュメントを使用します。 スキャンした PDF は画像として処理されます。
  • 入力フォームの場合は、すべてのフィールドに入力されている例を使用します。
  • 各フィールドに異なる値が含まれたフォームを使用します。
  • フォームの画像の品質が低い場合は、より大きなデータ セット (たとえば 10 から 15 の画像) を使用します。

トレーニング データをアップロードする

トレーニングに使用するフォーム ドキュメントのセットをまとめたら、それを Azure Blob Storage コンテナーにアップロードする必要があります。 コンテナーを含む Azure Storage アカウントを作成する方法がわからない場合は、Azure portal の Azure Storage に関するクイックスタートに従ってください。 Standard パフォーマンス レベルを使用します。

手動でラベル付けされたデータを使用する場合は、トレーニング ドキュメントに対応する .labels.json ファイルと .ocr.json ファイルもアップロードする必要があります。 サンプル ラベル付けツール (または独自の UI) を使用して、これらのファイルを生成できます。

データをサブフォルダーに整理する (オプション)

既定では、カスタムモデルのトレーニング API は、ストレージ コンテナーのルートにあるフォーム ドキュメントのみが使用されます。 ただし、API 呼び出しで指定した場合は、サブフォルダー内のデータを使用してトレーニングすることができます。 通常、カスタム モデルのトレーニング呼び出しの本文は次の形式になります。<SAS URL> は、コンテナーの Shared Access Signature URL です。

{
  "source":"<SAS URL>"
}

次の内容を要求本文に追加すると、API によってサブフォルダーにあるドキュメントがトレーニングされます。 "prefix" フィールドはオプションであり、トレーニング データ セットを、指定された文字列で始まるパスのファイルに制限します。 そのため、たとえば、値 "Test" の場合、API は、"Test" という単語で始まるファイルまたはフォルダーのみを調べます。

{
  "source": "<SAS URL>",
  "sourceFilter": {
    "prefix": "<prefix string>",
    "includeSubFolders": true
  },
  "useLabelFile": false
}

次のステップ

トレーニング データ セットの作成方法を習得したので、クイックスタートに従って、カスタム Form Recognizer モデルをトレーニングし、お使いのフォームでの使用を開始してください。

関連項目