ドキュメント処理カスタム モデルを作成する

要件 の確認後、ドキュメント処理モデルの作成を開始できます。

AI Builder にサインインする

  1. Power Apps または Power Automate にサイン インします。

  2. 左側のペインで、AI Builder>詳細を確認を選択します。

  3. ドキュメントからカスタム情報を抽出するを選択します。

  4. 開始する を選択します。

  5. ステップ バイ ステップのウィザードは、ドキュメントから抽出するすべてのデータを一覧表示するように求めることで、プロセスを説明します。 独自のドキュメントを使用してモデルを作成する場合は、同じレイアウトを使用するサンプルが 5 つ以上あることを確認してください。 それ以外の場合は、サンプル データを使用して モデルを作成できます。

  6. トレーニングを選択します。

  7. クイック テストを選択してモデルをテストします。

ドキュメントの種類を選択します

ドキュメントの種類を選択の手順で、データ抽出を自動化するために AI モデルを構築するドキュメントの種類を選択します。 次の 2 つのオプション用意されています:

  • 構造化および半構造化ドキュメント。 構造化および半構造化ドキュメントとは、指定されたレイアウト、フィールド、テーブル、チェックボックス、およびその他のアイテムが同じような場所で見つかるドキュメントのことです。 構造化および半構造化ドキュメントの例には、請求書、発注書、配送注文書、税務ドキュメントなどがあります。

  • 構造化されていない自由形式ドキュメント。 構造化されていないドキュメントとは、構造が設定されておらず、その多くは段落の数がそれぞれに異なる自由形式のドキュメントです。 構造化されていないドキュメントの例としては、契約書、作業明細書、手紙などがあります。

    Screenshot of the tiles under Select the type of documents your model will process.

抽出する情報を定義する

抽出する情報の選択画面で、モデルに抽出を学習させるフィールド、テーブル、チェックボックスを定義します。 + 追加ボタンを選択して、これらの定義を開始します。

Screenshot of the step in the document processing wizard where to define the fields, tables, or checkboxes we want the AI model to extract.

  • フィールド ごとに、モデルでフィールドに付ける名前を指定します。

  • チェックボックス には、モデル内でチェックボックスに付ける名前を指定します。 ドキュメント内でチェックできる項目ごとに、個別のチェック ボックスを定義します。

  • テーブル には、そのテーブルに付ける名前を指定します。 また、モデルが抽出する必要のあるさまざまな列を定義します。

コレクションごとにドキュメントをグループ化する

コレクションは、同じレイアウトを共有するドキュメントのグループです。 モデルで処理するドキュメント レイアウトと同じ数のコレクションを作成します。 たとえば、2 つの異なるベンダーからの請求書を処理する AI モデルを構築し、それぞれが独自の請求書テンプレートを持っている場合は、2 つのコレクションを作成します。

Animation of creating collections.

作成するコレクションごとに、1 つのコレクションにつき少なくとも 5 つのサンプル ドキュメントをアップロードする必要があります。 現在、JPG、PNG、PDF 形式のファイルを使用できます。

Animation of uploading documents.

Note

モデルごとに最大 200 のコレクションを作成できます。

ドキュメントにタグを付ける

アップロードしたドキュメントにタグを付けることで、AI Builder のモデルに、指定したフィールドやテーブルを抽出するように指示します。

タグ付けを開始するには、右側のパネルでコレクションの 1 つを選択します。

フィールドのタグ付け

フィールドにタグを付けるには、対象となるフィールドの周りに長方形を描き、それに対応するフィールド名を選択します。

Animation of tagging fields in a document.

サイズを変更して、選択範囲の調整はいつでもできます。

フィールドが 1 行で終わり、別の行で始まる場合は、‘タグ付けを続行する’のオプションを使用してタグ付けをすることができます。

Animation of tagging multiple words and line breaks.

また、Windows では Ctrl キー、macOS Command ⌘ キーを使用して、一度に複数の単語にタグ付けをすることもできます。 また、Shift キーを使用して最初と最後の単語を選択し、その 2 つの間のすべての単語にタグ付けをすることができます。

ドキュメント内の単語にカーソルを合わせると、薄い青色のボックスが表示されることがあります。 これは、単語の囲りに四角形を描画してフィールドを選択できることを示してます。

Screenshot of selecting fields close up.

テーブルへのタグ付け

  1. 対象となるドキュメントのテーブルを四角で囲み、対応するテーブル名を選択します。 右側のパネルの内容が変わります。

  2. 行のセパレータの間を左クリックして、を描画します。

  3. Ctrl + 左クリックでを描画します。

  4. 行と列が設定されたら、ヘッダー列を選択して目的の列にマッピングすることで、抽出するヘッダーを割り当てます。

  5. 右側のパネルには、プレビューが表示され、テーブルがどのように抽出されるかが表示されます。

  6. テーブルのヘッダがタグ付けされている場合は、最初の行を無視を選択して、テーブルのヘッダーがテーブルのコンテンツとして抽出されないようにします。

次のアニメーションは、このプロセスを表したものです。

Animation of tagging a table in a document.

テーブルの行と列を定義する別の方法は、行と列を区切る画面の上部にあるを選択することです。

Screenshot of delimit rows and columns.

高度なタグ付けモードを使用する

高度なタグ付けモードでは、セル レベルでテーブルにタグを付けることができます。 このモードは、次のような複雑なテーブルに使用します:

  • グリッドでのタグ付けができない、偏ったテーブル。
  • セル内の項目など、ネストされたアイテムを抽出する必要がある場合。

次の例のテーブルでは、単価を抽出する目的で、抽出する情報を選択するステップで別の列として定義します。 説明単価のそれぞれをテーブルの列として定義し、高度なタグ付けモードを使って、適切なタグ付けをします。 次の動画を参照してください。

Animation of delimit rows and columns.

既定のモードでタグ付けを開始すると、すべての行と列をすばやくキャプチャできます。 続いて、詳細モードに切り替えて、各セルを調整し、ネストされたアイテムにタグを付けます。

テーブル内の入れ子になった項目

これらを列として定義することにより、行内に入れ子になっている項目にタグ付けができます。 次の例のテーブルでは、単価を抽出するために、このトピックの前の手順で説明した情報を選択して手順を抽出するで別の列として定義します。 説明単価数量金額のそれぞれをテーブルの列として定義し、それぞれにタグを付けます。

Screenshot of tagging nested items in tables.

複数ページ テーブル

テーブルが複数のページにまたがる場合は、必ず、すべてのページでタグ付けしてください。 あるページでテーブルのタグ付けが完了したら、このテーブルは次のページに続きます を選択し、次のページでテーブルのタグ付けを続けます。 これにより、テーブルが複数のページにまたがることができることをモデルに教えます。

Screenshot showing to select the option ‘This table continues on next page’ to continue tagging a table that spans across multiple pages.

テーブルが存在するすべてのページにタグを付けた後。 完了 を選択し、テーブルを完全タグ付きとしてマークします。

次の例に示すように、結合されたセル、入れ子になった項目、境界線の有無、またはコーヒーの染みような予期せぬ要素を含む複雑なテーブルにタグを付けることができます。

Screenshot showing to select the option ‘Done’ once the table has been tagged in all pages.

チップ

ベスト プラクティスとして、想定されるバリエーションでトレーニング用のドキュメントをアップロードしてください。 たとえば、テーブル全体が 1 ページに含まれるサンプルや、テーブルが複数のページにまたがるサンプルを含めます。

チェック ボックスにタグ付けする

チェック ボックスにタグ付けする際は、抽出すべきチェックボックスの周囲に長方形を描き、対応するチェックボックスの名前を選択します。

Animation of tagging a checkbox.

ドキュメントの品質が低い場合、AI Builder がチェックボックスを検出できない可能性があります。 チェックボックスにタグを付けできない場合は、次のようにします:

  1. 右側のパネルで、抽出したいチェックボックスの横にある 3 つのドットを選択します。

  2. ドキュメントで使用できない を選択します。

AI Builder は、チェックボックスやラジオボタンなどの選択マークの検出と抽出に対応しており、選択マークの有無を示すマーカーが異なります。

ドキュメントにないフィールド、チェックボックス、テーブル

トレーニング用にアップロードしたドキュメントにフィールド、チェックボックス、テーブルが存在しない場合は、右のパネルでフィールド、チェックボックス、テーブルの横にあるドキュメントで使用できないを選択します。

Animation of a field or table not in document.

すべてのコレクションのすべてのドキュメントにタグを付ける

アップロードしたすべてのドキュメントが表示され、タグ付けができます。 複数のコレクションを作成した場合は、すべてのコレクションのすべてのドキュメントにタグ付けします。

ドキュメントでフィールドにタグを付けることができない場合は、考えられる解決策についてこのドキュメントのフィールドを読み込めませんでしたを参照してください。

次のステップ

ドキュメント処理モデルをトレーニングして発行する