カスタム抽出モデルを構築してトレーニングする

[アーティクル]
02/27/2024

このコンテンツの適用対象: v4.0 (プレビュー) | 以前のバージョン: v3.1 (GA)v3.0 (GA)v2.1

Document Intelligence モデルの使用を開始するのに必要なトレーニングドキュメントはわずか 5 つです。少なくとも 5 つのドキュメントがある場合には、カスタムモデルのトレーニングを開始できます。カスタムテンプレートモデル (カスタムフォーム) またはカスタムニューラルモデル(カスタムドキュメント) のいずれかをトレーニングできます。トレーニングプロセスは両方のモデルで同じです。このドキュメントでは、いずれかのモデルをトレーニングするプロセスについて説明します。

カスタムモデルの入力要件

まず、トレーニングデータセットが Document Intelligence の入力の要件に従っていることを確認します。

最適な結果を得るには、ドキュメントごとに 1 つの鮮明な写真または高品質のスキャンを提供してください。

サポートされているファイル形式:

モデル	PDF	画像: JPEG/JPG、PNG、BMP、TIFF、HEIF	Microsoft Office: Word (DOCX)、Excel (XLS)、PowerPoint (PPT)、HTML
既読	✔	✔	✔
Layout	✔	✔	✔ (2024-02-29-preview、2023-10-31-preview)
一般的なドキュメント	✔	✔
事前構築済み	✔	✔
カスタム抽出	✔	✔
カスタム分類	✔	✔	✔ (2024-02-29-preview)

PDF および TIFF の場合、最大 2000 ページを処理できます (Free レベルのサブスクリプションでは、最初の 2 ページのみが処理されます)。
ドキュメントを分析するためのファイルサイズは、有料 (S0) レベルでは 500 MB、無料 (F0) レベルでは 4 MB です。
画像のディメンションは、50 x 50 ピクセルから 10,000 x 10,000 ピクセルの間である必要があります。
PDF がパスワードでロックされている場合は、送信前にロックを解除する必要があります。
抽出するテキストの最小の高さは、1024 x 768 ピクセルのイメージの場合は 12 ピクセルです。このディメンションは、150 DPI (1 インチあたりのドット数) で約 8 ポイントのテキストに相当します。
カスタムモデルトレーニングにおけるトレーニングデータの最大ページ数は、カスタムテンプレートモデルの場合は 500、カスタムニューラルモデルの場合は 50,000 です。
- カスタム抽出モデルトレーニングにおけるトレーニングデータの合計サイズは、テンプレートモデルの場合は 50 MB、ニューラルモデルの場合は 1GB です。
- カスタム分類モデルトレーニングの場合、トレーニングデータの合計サイズは 1GB で、最大 10,000 ページです。

トレーニングデータのヒント

次のヒントを使って、トレーニングのためにデータセットをさらに最適化してください。

画像ベースのドキュメントではなく、テキストベースの PDF ドキュメントを使用します。スキャンした PDF は画像として扱われます。
入力フィールドを含むフォームの場合は、すべてのフィールドが入力された例を使用します。
各フィールドに異なる値が含まれたフォームを使用します。
フォームの画像の品質が低い場合は、より大きなデータセット (たとえば 10 から 15 の画像) を使用します。

トレーニングデータをアップロードする

トレーニングに使用するフォームまたはドキュメントのセットを収集したら、それを Azure BLOB ストレージコンテナーにアップロードする必要があります。コンテナーを含む Azure Storage アカウントを作成する方法がわからない場合は、Azure portal の Azure Storage に関するクイックスタートに従ってください。 Free 価格レベル (F0) を使用してサービスを試用し、後から運用環境用の有料レベルにアップグレードすることができます。

動画: カスタムモデルをトレーニングする

トレーニングデータセットを収集してアップロードすると、カスタムモデルをトレーニングする準備ができます。次の動画では、プロジェクトを作成し、モデルのラベル付けとトレーニングを成功させるための基礎をいくつか確認します。

Document Intelligence Studio でプロジェクトを作成する

Document Intelligence Studio を使用すると、データセットの完成とモデルのトレーニングに必要なすべての API 呼び出しを利用し、調整することができます。

まず、Document Intelligence Studio に移動します。 Studio を初めて使用するときは、サブスクリプション、リソースグループ、リソースを初期化する必要があります。次に、カスタムプロジェクトの前提条件に従って、トレーニングデータセットにアクセスする Studio を構成します。
Studio で [カスタムモデル] タイルを選択し、カスタムモデルページで [プロジェクトの作成] ボタンを選択します。
1. [プロジェクトの作成] ダイアログで、プロジェクトの名前と必要に応じて説明を入力し、[続行] を選択します。
2. ワークフローの次の手順で、[続行] を選択する前に Document Intelligence リソースを選択または作成します。
重要

カスタムニューラルモデルは、いくつかのリージョンでのみ使用できます。ニューラルモデルのトレーニングを計画している場合は、これらのサポートされているリージョンの 1 つでリソースを選択または作成してください。
次に、カスタムモデルのトレーニングデータセットをアップロードするために使用したストレージアカウントを選択します。トレーニングドキュメントがコンテナーのルートにある場合は、フォルダーパスが空である必要があります。ドキュメントがサブフォルダーにある場合は、[フォルダーパス] フィールドにコンテナールートからの相対パスを入力します。ストレージアカウントが構成された後、[続行] を選択します。
最後に、プロジェクトの設定を確認し、[プロジェクトの作成] を選択して新しいプロジェクトを作成します。これで、ラベル付けウィンドウに表示され、データセット内のファイルが一覧表示されます。

データにラベルを付ける

プロジェクトでの最初のタスクは、抽出するフィールドをデータセットにラベル付けします。

ストレージにアップロードしたファイルが画面の左側に一覧表示され、最初のファイルにラベルを付ける準備が整っています。

画面の右上にあるプラス (➕) ボタンを選択して、データセットのラベル付けと最初のフィールドの作成を開始します。
グループの名前を入力します。
ドキュメント内の単語を 1 つまたは複数選んで、フィールドに値を割り当てます。ドロップダウンまたは右側のナビゲーションバーのフィールドリストでフィールドを選択します。ラベル付けされた値は、フィールドの一覧の中のフィールド名の下に表示されます。
データセットにラベルを付けたいすべてのフィールドに対して、このプロセスを繰り返します。
各ドキュメントを選択し、ラベル付けするテキストを選択して、データセット内の残りのドキュメントにラベルを付けます。

これで、データセット内のすべてのドキュメントにラベルが付けられました。 .labels.json ファイルと .ocr.json ファイルはトレーニングデータセット内の各ドキュメントと新しい fields.json ファイルに対応します。このトレーニングデータセットは、モデルをトレーニングするために送信されます。

モデルをトレーニングする

データセットにラベルが付いたので、モデルをトレーニングする準備が整いました。右上隅にある [ツール] を選択します。

[モデルのトレーニング] ダイアログで、一意のモデル ID と、必要に応じて説明を指定します。モデル ID は文字列データ型を受け取ります。
ビルドモードでは、トレーニングするモデルの種類を選択します。モデルの種類と機能の詳細を確認してください。
[トレーニング] を選択してトレーニングプロセスを開始します。
テンプレートモデルは数分でトレーニングされます。ニューラルモデルのトレーニングには最大 30 分かかる場合があります。
[モデル] メニューに移動して、トレーニング操作の状態を表示します。

モデルのテスト

モデルのトレーニングが完了したら、モデルの一覧ページでモデルを選択して、モデルをテストできます。

モデルを選択し、[テスト] ボタンを選択します。
+ Addボタンを選択して、モデルをテストするファイルを選択します。
ファイルを選択した後、[分析] ボタンを選択してモデルをテストします。
モデルの結果がメインウィンドウに表示され、抽出されたフィールドが右側のナビゲーションバーに一覧表示されます。
各フィールドの結果を評価して、モデルを検証します。
右側のナビゲーションバーには、モデルを呼び出すサンプルコードと、API からの JSON 結果もあります。

Document Intelligence Studio でカスタムモデルをトレーニングする方法を習得しました。モデルは、ドキュメントを分析するために、REST API SDK で使用する準備ができています。

適用対象: v2.1。 その他のバージョン: v3.0

Document Intelligence のカスタムモデルを使用する場合は、モデルを業界固有のフォームに合わせてトレーニングできるように、独自のトレーニングデータを Train Custom Model 操作に提供します。このガイドに従い、モデルを効果的にトレーニングするためにデータを収集し、準備する方法について学習してください。

同じ種類の完成したフォームが少なくとも 5 つ必要です。

手動でラベル付けされたトレーニングデータを使用する場合は、同じ種類の少なくとも 5 つの完成したフォームから開始する必要があります。必要なデータセットに加え、ラベル付けされていないフォームを引き続き使用することもできます。

カスタムモデルの入力要件

まず、トレーニングデータセットが Document Intelligence の入力の要件に従っていることを確認します。

最適な結果を得るには、ドキュメントごとに 1 つの鮮明な写真または高品質のスキャンを提供してください。

サポートされているファイル形式:

モデル	PDF	画像: JPEG/JPG、PNG、BMP、TIFF、HEIF	Microsoft Office: Word (DOCX)、Excel (XLS)、PowerPoint (PPT)、HTML
既読	✔	✔	✔
Layout	✔	✔	✔ (2024-02-29-preview、2023-10-31-preview)
一般的なドキュメント	✔	✔
事前構築済み	✔	✔
カスタム抽出	✔	✔
カスタム分類	✔	✔	✔ (2024-02-29-preview)

PDF および TIFF の場合、最大 2000 ページを処理できます (Free レベルのサブスクリプションでは、最初の 2 ページのみが処理されます)。
ドキュメントを分析するためのファイルサイズは、有料 (S0) レベルでは 500 MB、無料 (F0) レベルでは 4 MB です。
画像のディメンションは、50 x 50 ピクセルから 10,000 x 10,000 ピクセルの間である必要があります。
PDF がパスワードでロックされている場合は、送信前にロックを解除する必要があります。
抽出するテキストの最小の高さは、1024 x 768 ピクセルのイメージの場合は 12 ピクセルです。このディメンションは、150 DPI (1 インチあたりのドット数) で約 8 ポイントのテキストに相当します。
カスタムモデルトレーニングにおけるトレーニングデータの最大ページ数は、カスタムテンプレートモデルの場合は 500、カスタムニューラルモデルの場合は 50,000 です。
- カスタム抽出モデルトレーニングにおけるトレーニングデータの合計サイズは、テンプレートモデルの場合は 50 MB、ニューラルモデルの場合は 1GB です。
- カスタム分類モデルトレーニングの場合、トレーニングデータの合計サイズは 1GB で、最大 10,000 ページです。

トレーニングデータのヒント

次のヒントを使って、トレーニングのためにデータセットをさらに最適化してください。

画像ベースのドキュメントではなく、テキストベースの PDF ドキュメントを使用します。スキャンした PDF は画像として扱われます。
完成したフォームでは、すべてのフィールドに入力されている例を使用します。
各フィールドに異なる値が含まれたフォームを使用します。
完成したフォームでは、より大きなデータセット (10 から 15 の画像) を使用します。

トレーニングデータをアップロードする

トレーニング用のドキュメントのセットを収集したら、それを Azure BLOB ストレージコンテナーにアップロードする必要があります。コンテナーを含む Azure Storage アカウントを作成する方法がわからない場合は、Azure portal の Azure Storage に関するクイックスタートに従ってください。 Standard パフォーマンスレベルを使用します。

手動でラベル付けされたデータを使用したい場合は、トレーニングドキュメントに対応する .labels.json ファイルと .ocr.json ファイルをアップロードします。サンプルラベル付けツール (または独自の UI) を使用して、これらのファイルを生成できます。

データをサブフォルダーに整理する (オプション)

既定では、Train Custom Model API はストレージコンテナーのルートにあるドキュメントのみを使用します。ただし、API 呼び出しで指定した場合は、サブフォルダー内のデータを使用してトレーニングすることができます。通常、カスタムモデルのトレーニング呼び出しの本文は次の形式になります。<SAS URL> は、コンテナーの Shared Access Signature URL です。

{
  "source":"<SAS URL>"
}

次の内容を要求本文に追加すると、API はサブフォルダーにあるドキュメントでトレーニングを行います。 "prefix" フィールドはオプションであり、トレーニングデータセットを、指定された文字列で始まるパスのファイルに制限します。そのため、たとえば、"Test" という値の場合、API は、Test という単語で始まるファイルまたはフォルダーのみを調べます。

{
  "source": "<SAS URL>",
  "sourceFilter": {
    "prefix": "<prefix string>",
    "includeSubFolders": true
  },
  "useLabelFile": false
}

次のステップ

トレーニングデータセットの作成方法を習得したので、クイックスタートに従って、カスタム Document Intelligence モデルをトレーニングし、お使いのフォームでの使用を開始してください。

カスタムモデルの種類について学習する

カスタムモデルの精度と信頼度について学習する

サンプルラベル付けツールを使用したラベルによるトレーニング

カスタム抽出モデルを構築してトレーニングする

カスタムモデルの入力要件

トレーニングデータのヒント

トレーニングデータをアップロードする

動画: カスタムモデルをトレーニングする

Document Intelligence Studio でプロジェクトを作成する

データにラベルを付ける

モデルをトレーニングする

モデルのテスト

カスタムモデルの入力要件

トレーニングデータのヒント

トレーニングデータをアップロードする

データをサブフォルダーに整理する (オプション)

次のステップ

関連項目

その他のリソース

カスタム抽出モデルを構築してトレーニングする

カスタム モデルの入力要件

トレーニング データのヒント

トレーニング データをアップロードする

動画: カスタム モデルをトレーニングする

Document Intelligence Studio でプロジェクトを作成する

データにラベルを付ける

モデルをトレーニングする

モデルのテスト

カスタム モデルの入力要件

トレーニング データのヒント

トレーニング データをアップロードする

データをサブフォルダーに整理する (オプション)

次のステップ

関連項目

その他のリソース

カスタムモデルの入力要件

トレーニングデータのヒント

トレーニングデータをアップロードする

動画: カスタムモデルをトレーニングする

カスタムモデルの入力要件

トレーニングデータのヒント

トレーニングデータをアップロードする