カスタムモデルを作成する

[アーティクル]
11/21/2023

このコンテンツの適用対象:v4.0 (プレビュー) | 以前のバージョン:v3.1 (GA)v3.0 (GA)v2.1 (GA)

このコンテンツの対象:v3.1 (GA) | 最新バージョン:v4.0 (プレビュー) | 以前のバージョン:v3.0v2.1

このコンテンツの対象:v3.0 (GA) | 最新バージョン:v4.0 (プレビュー)v3.1 | 以前のバージョン:v2.1

このコンテンツの適用対象:v2.1 | 最新バージョン:v4.0 (プレビュー)

作成済みモデルは、カスタムモデルのコレクションを取得し、1 つのモデル ID に割り当てることで作成します。 200 個までのトレーニングされたカスタムモデルを 1 つの構成済みモデル ID に割り当てることができます。作成済みモデルにドキュメントが送信されると、サービスによって分類ステップが実行され、分析のために提示されたフォームを正確に表すカスタムモデルが決定されます。複数のモデルをトレーニングし、類似したフォームの種類を分析するためにそれらをグループ化する場合に作成済みモデルは役立ちます。たとえば、作成済みモデルには、サプライ、備品、家具の発注書を分析するようにトレーニングされたカスタムモデルを含めることができます。適切なモデルを手動で選択する代わりに、作成済みモデルを使用すれば、分析と抽出ごとに適切なカスタムモデルを決定できます。

詳細については、「構成済みカスタムモデル」を参照してください。

この記事では、構成済みカスタムモデルを作成して使用し、フォームとドキュメントを分析する方法について説明します。

前提条件

作業を開始するには、次のリソースが必要です。

Azure サブスクリプション。無料の Azure サブスクリプションを作成できます。
Document Intelligence インスタンス。 Azure サブスクリプションを入手したら、Azure portal で Document Intelligence リソースを作成して、キーとエンドポイントを取得します。既存の Document Intelligence リソースがある場合は、そのリソースページに直接移動します。 Free 価格レベル (F0) を使用してサービスを試用し、後から運用環境用の有料レベルにアップグレードすることができます。
1. リソースがデプロイされた後、[リソースに移動] を選択します。
2. Azure portal からキーとエンドポイントの値をコピーし、Microsoft メモ帳などの便利な場所に貼り付けます。アプリケーションを Document Intelligence API に接続するためのキーとエンドポイントの値が必要です。
ヒント

詳細については、「Document Intelligence リソースを作成する」を参照してください。
Azure ストレージアカウント。 Azure Storage アカウントを作成する方法がわからない場合は、Azure portal の Azure Storage に関するクイックスタートを参照してください。 Free 価格レベル (F0) を使用してサービスを試用し、後から運用環境用の有料レベルにアップグレードすることができます。

カスタムモデルを作成する

まず、構成するカスタムモデルのセットが必要です。 Document Intelligence Studio、REST API、またはクライアントライブラリ SDK が使用できます。手順は次のとおりです。

トレーニングデータセットを作成する
トレーニングセットを Azure BLOB ストレージにアップロードする
カスタムモデルをトレーニングする

トレーニングデータセットを作成する

カスタムモデルの構築は、トレーニングデータセットの確立から始まります。サンプルデータセットには、同じ種類の完成したフォームが少なくとも 5 つ必要です。異なるファイルの種類 (jpg、png、pdf、tiff) にして、テキストと手書きの両方を含めることができます。フォームは Document Intelligence の入力要件に従う必要があります。

ヒント

以下のヒントを使って、トレーニングのためにデータセットをさらに最適化してください。

可能であれば、画像ベースのドキュメントではなく、テキストベースの PDF ドキュメントを使用します。スキャンした PDF は画像として処理されます。
入力フォームの場合は、すべてのフィールドに入力されている例を使用します。
各フィールドに異なる値が含まれたフォームを使用します。
フォームの画像の品質が低い場合は、より大きなデータセット (たとえば 10 から 15 の画像) を使用します。

トレーニングドキュメントを収集する方法のヒントについては、「トレーニングデータセットの作成」を参照してください。

トレーニングデータセットをアップロードする

トレーニングドキュメントのセットをまとめたら、Azure BLOB ストレージコンテナーにトレーニングデータをアップロードする必要があります。

手動でラベル付けされたデータを使用する場合は、トレーニングドキュメントに対応する .labels.json ファイルと .ocr.json ファイルをアップロードする必要があります。

カスタムモデルをトレーニングする

ラベル付けされたデータによるモデルのトレーニングでは、ラベル付けされた指定のフォームを使用して、教師あり学習を使って、目的とする値が抽出されます。ラベル付きデータにより、性能の高いモデルが得られ、複雑なフォームやキーのない値を含んだフォームでも機能するモデルを作成できます。

Document Intelligence では、prebuilt-layout モデル API を使用して、活字または手書きのテキストの要素について予想されるサイズや位置を学習し、テーブルを抽出します。その後、ユーザーによって指定されたラベルを使用して、ドキュメントに含まれるキーと値の関係およびテーブルを学習します。新しいモデルをトレーニングする際は、手動でラベル付けされた同じタイプ (同じ構造) のフォームを 5 つ使うことをお勧めします。その後、必要に応じてラベル付きのデータを追加し、モデルの精度を向上させます。 Document Intelligence を使用すると、教師あり学習機能を使用してキーと値のペアおよびテーブルを抽出するようにモデルをトレーニングできます。

カスタムモデルを作成するには、まずプロジェクトを構成することから始めます。

Studio ホームページで、[カスタムモデル] カードから [新規作成] を選択します。
[➕ プロジェクトの作成] コマンドを使用して、新しいプロジェクト構成ウィザードを開始します。
プロジェクトの詳細を入力し、Azure サブスクリプションとリソース、および自分のデータが含まれている Azure Blob Storage コンテナーを選択します。
設定を確認して送信し、プロジェクトを作成します。

Document Intelligence Studio でのカスタムプロジェクトの作成を示すアニメーション。

カスタムモデルを作成しているときに、ドキュメントからデータコレクションを抽出する必要がある場合があります。コレクションは、2 つの形式のいずれかで表示されます。ビジュアルパターンとしてテーブルを使用した場合、

特定のフィールド (列) セットに対する値 (行) の動的または可変の値の数
特定のフィールド (列や行) セットに対する特定の値のコレクション

Document Intelligence Studio のテーブルとしてのラベル付けに関するページを参照してください

ラベルを使用してトレーニングを行うと、一部のシナリオでパフォーマンスの向上につながります。ラベルを使用してトレーニングするには、トレーニングドキュメントと共に、BLOB ストレージコンテナーに特別なラベル情報ファイル (<filename>.pdf.labels.json) を用意する必要があります。

ラベルファイルには、ユーザーが手動で入力したキーと値の関連付けが含まれています。ラベル付けされたデータのトレーニングにはラベルファイルが必要ですが、すべてのソースファイルに、対応するラベルファイルが存在する必要はありません。ラベルのないソースファイルは通常のトレーニングドキュメントとして扱われます。信頼できるトレーニングには、ラベル付けされたファイルを 5 つ以上お勧めします。 Document Intelligence Studio などの UI ツールを使用して、これらのファイルを生成できます。

ラベルファイルを作成したら、useLabelFile パラメーターを true に設定してトレーニングメソッドを呼び出すことで、そのファイルを含めることができます。

useLabelFile オプションパラメーターを示すスクリーンショット。

Language	方法
C#	StartBuildModel
Java	beginBuildModel
JavaScript	beginBuildModel
Python	begin_build_document_model

作成済みモデルを作成する

Note

create compose model 操作は、ラベルを "使用して" トレーニングされたカスタムモデルでのみ使用できます。 ラベルのないモデルを作成しようとすると、エラーが発生します。

create compose model 操作では、100 個までのトレーニング済みカスタムモデルを 1 つのモデル ID に割り当てることができます。作成済みモデルを使用してドキュメントを分析する場合、Document Intelligence では、まず送信されたフォームを分類し、次に最も適合する割り当て済みモデルを選んで、そのモデルに対する結果を返します。この操作は、受信フォームが複数のテンプレートのいずれかに属している場合に役立ちます。

トレーニングプロセスが正常に完了したら、構成済みモデルの構築を開始できます。構成済みモデルを作成して使用する手順を次に示します。

カスタムモデル ID を収集する
カスタムモデルを作成する
ドキュメントを分析する
構成済みモデルを管理する

モデルの ID を収集する

Document Intelligence Studio を使用してモデルをトレーニングした場合、モデル ID はプロジェクトの [モデル] メニューの下に表示されます。

Document Intelligence Studio の [モデル構成] ウィンドウのスクリーンショット。

カスタムモデルを作成する

カスタムモデルプロジェクトを選択します。
プロジェクトで、メニュー項目から Models を選択します。
表示されたモデルの一覧から、構成するモデルを選択します。
左上隅にある [作成] ボタンを選択します。
ポップアップウィンドウで、新しく作成するモデルに名前を付け、 [作成] をクリックします。
操作が完了すると、新しく作成されたモデルが一覧に表示されます。
モデルの準備ができたら、Test コマンドを使用してテストドキュメントでそのモデルを検証し、結果を確認します。

ドキュメントを分析する

カスタムモデルの Analyze 操作では、Document Intelligence への呼び出しで modelID を指定する必要があります。構成済みモデル ID をアプリケーションの modelID パラメーターに指定する必要があります。

Document Intelligence Studio の作成済みモデル ID のスクリーンショット。

構成済みモデルを管理する

ライフサイクル全体を通して、次のようにカスタムモデルを管理できます。

新しいドキュメントをテストして検証します。
アプリケーションで使用するモデルをダウンロードします。
ライフサイクルが完了したら、モデルを削除します。

Document Intelligence Studio の作成済みモデルのスクリーンショット

トレーニングプロセスが正常に完了したら、構成済みモデルの構築を開始できます。構成済みモデルを作成して使用する手順を次に示します。

作成済みモデルを作成する
ドキュメントを分析する
構成済みモデルを管理する

作成済みモデルを作成する

任意のプログラミング言語を使用して、構成済みモデルを作成できます。

プログラミング言語	コードサンプル
C#	モデルの構成
Java	モデルの構成
JavaScript	モデルを構成する
Python	構成済みモデルを作成する

ドキュメントを分析する

作成したモデルを構築したら、それを使ってフォームとドキュメントを分析できます。構成済みの model ID を使い、提供されたドキュメントに従って、集計されたカスタムモデルのうちどれが最も適合するかをサービスに判断させます。

プログラミング言語	コードサンプル
C#	モデル ID を使用してカスタムまたは構成モデルでドキュメントを分析する
Java	モデル ID を使用してカスタムまたは構成モデルでドキュメントを分析する
JavaScript	モデル ID を使用してカスタムまたは構成モデルでドキュメントを分析する
Python	モデル ID を使用してカスタムまたは構成モデルでドキュメントを分析する

構成済みモデルを管理する

カスタムモデルは、ライフサイクルの各段階で管理できます。リソース間でのカスタムモデルのコピー、サブスクリプションに属するすべてのカスタムモデルの一覧表示、特定のカスタムモデルに関する情報の取得、アカウントからのカスタムモデルの削除ができます。

プログラミング言語	コードサンプル
C#	Document Intelligence リソース間でカスタムモデルをコピーする
Java	Document Intelligence リソース間でカスタムモデルをコピーする
JavaScript	Document Intelligence リソース間でカスタムモデルをコピーする
Python	Document Intelligence リソース間でカスタムモデルをコピーする

すばらしい。カスタムモデルと作成済みモデルを作成し、それらを Document Intelligence プロジェクトとアプリケーションで使用する手順について学習しました。

次のステップ

Document Intelligence クイックスタートのいずれかをお試しください。

Document Intelligence Studio

Document Intelligence では、高度な機械学習テクノロジを使用して、ドキュメントイメージから情報を検出および抽出し、抽出したデータを構造化 JSON 出力で返します。 Document Intelligence を使用すると、スタンドアロンのカスタムモデルをトレーニングしたり、カスタムモデルを組み合わせて作成済みモデルを作成したりできます。

カスタムモデル。 Document Intelligence のカスタムモデルを使用すると、ビジネスに固有のフォームやドキュメントに含まれるデータの分析と抽出ができます。カスタムモデルは、特定のデータとユースケースに合わせてトレーニングされます。
作成済みモデル。作成済みモデルは、カスタムモデルのコレクションを取得し、目的のフォームの種類を含む 1 つのモデルに割り当てることによって作成されます。作成済みモデルにドキュメントが送信されると、サービスによって分類ステップが実行され、分析のために提示されたフォームを正確に表すカスタムモデルが決定されます。

この記事では、Document Intelligence サンプルラベル付けツール、REST API、またはクライアントライブラリ SDK を使用して Document Intelligence のカスタムモデルと作成済みモデルを作成する方法について説明します。

サンプルラベル付けツール

サンプルラベル付けツールを使用して、カスタムフォームからデータを抽出してみてください。以下のリソースが必要です。

Azure サブスクリプション — 無料で作成することができます
Azure portal の Document Intelligence Studio インスタンス。 Free 価格レベル (F0) を利用して、サービスを試用できます。リソースがデプロイされたら、[リソースに移動] を選択してキーとエンドポイントを取得します。

Azure portal のキーとエンドポイントの場所のスクリーンショット。

試してみる

Document Intelligence UI で、次の手順を実行します。

[Use Custom to train a model with labels and get key value pairs](キーと値のペアを取得するためにカスタムを使用してラベルでモデルのトレーニングを行う) を選択してください。
次のウィンドウで [New project](新規プロジェクト) を選択します:

モデルを作成する

カスタムモデルと作成済みモデルを構築、トレーニング、使用するための手順は次のとおりです。

トレーニングデータセットを作成する
トレーニングセットを Azure BLOB ストレージにアップロードする
カスタムモデルをトレーニングする
カスタムモデルを作成する
ドキュメントを分析する
カスタムモデルを管理する

トレーニングデータセットを作成する

トレーニングデータセットをアップロードする

Azure BLOB ストレージコンテナーにトレーニングデータをアップロードする必要があります。コンテナーを含む Azure Storage アカウントを作成する方法がわからない場合は、Azure portal の Azure Storage に関するクイックスタートを参照してください。 Free 価格レベル (F0) を使用してサービスを試用し、後から運用環境用の有料レベルにアップグレードすることができます。

カスタムモデルをトレーニングする

ラベル付きデータセットを使って、モデルをトレーニングします。ラベル付きデータセットは事前構築済みレイアウト API に依存していますが、特定のラベルやフィールドの場所など、補助的なユーザーの入力が含まれています。ラベル付きのトレーニングデータに対して、同じ種類の少なくとも 5 つの完成したフォームで開始します。

Document Intelligence では、Layout API を使用して、活字または手書きのテキストの要素について予想されるサイズや位置が学習され、テーブルが抽出されます。その後、ユーザーによって指定されたラベルを使用して、ドキュメントに含まれるキーと値の関係およびテーブルを学習します。新しいモデルをトレーニングする際は、手動でラベル付けされた同じタイプ (同じ構造) のフォームを 5 つ使うことをお勧めします。必要に応じてラベル付きのデータを追加し、モデルの精度を向上させます。 Document Intelligence を使用すると、教師あり学習機能を使用してキーと値のペアおよびテーブルを抽出するようにモデルをトレーニングできます。

ラベルを使用したトレーニングを開始する

[!VIDEO https://learn.microsoft.com/Shows/Docs-Azure/Azure-Form-Recognizer/player]

作成済みモデルを作成する

Note

[モデルの作成] は、ラベルを使用してトレーニングするカスタムモデルでのみ使用できます。 ラベルのないモデルを作成しようとすると、エラーが発生します。

モデルの構成操作では、最大 200 個のトレーニング済みカスタムモデルを 1 つのモデル ID に割り当てることができます。作成済みモデル ID で Analyze を呼び出すと、Document Intelligence によって、まず送信されたフォームが分類され、最も適合する割り当て済みモデルが選択され、そのモデルに対する結果が返されます。この操作は、受信フォームが複数のテンプレートのいずれかに属している場合に役立ちます。

Document Intelligence サンプルラベル付けツール、REST API、またはクライアントライブラリ SDK を使用し、次の手順に従って、作成済みモデルを設定します。

カスタムモデル ID を収集する
カスタムモデルを作成する

カスタムモデル ID を収集する

トレーニングプロセスが正常に完了すると、カスタムモデルにモデル ID が割り当てられます。モデル ID は次のようにして取得できます。

Document Intelligence サンプルラベル付けツールを使用してモデルをトレーニングすると、モデル ID が [Train Result](トレーニング結果) ウィンドウに表示されます。

$[Train Result]$トレーニング結果$ ウィンドウのスクリーンショット。$

カスタムモデルを作成する

1 つのフォームの種類に対応するカスタムモデルを収集したら、それらをまとめた 1 つのモデルを作成できます。

サンプルラベル付けツールを使用すると、モデルのトレーニングと、それらを 1 つのモデル ID にまとめる作業をすばやく開始できます。

トレーニングが完了したら、次のようにしてモデルを作成します。

左側のレールメニューで、[モデルの作成] アイコン (マージ矢印) を選択します。
メインウィンドウで、1 つのモデル ID に割り当てるモデルを選択します。矢印アイコンの付いたモデルは、既に作成済みのモデルです。
左上隅にある [作成] ボタンを選択します。
ポップアップウィンドウで、新しく作成するモデルに名前を付け、 [作成] をクリックします。

操作が完了すると、新しく作成されたモデルが一覧に表示されます。

カスタムまたは作成済みモデルを使用してドキュメントを分析する

カスタムフォームの Analyze 操作では、Document Intelligence への呼び出しで modelID を指定する必要があります。 modelID パラメーターには、1 つのカスタムモデル ID または作成済みモデル ID を指定できます。

ツールの左ペインのメニューで、[分析] アイコン (電球) を選択します。
分析するローカルファイルまたは画像の URL を選択します。
[Run Analysis](分析の実行) ボタンを選択します。
このツールでは、境界ボックスにタグが適用され、各タグの信頼度がパーセント単位でレポートされます。

$Document Intelligence ツールの [analyze-a-custom-form]$カスタムフォームの分析$ ウィンドウのスクリーンショット。$

トレーニングデータセットの一部ではなかったフォームを分析して、新しくトレーニングしたモデルをテストします。レポートされる精度によっては、モデルを改善するために、さらにトレーニングを行う必要が生じる場合があります。さらにトレーニングを続けて結果を改善することができます。

カスタムモデルを管理する

ライフサイクル全体にわたってカスタムモデルを管理できます。サブスクリプションに属するすべてのカスタムモデルの一覧を表示したり、特定のカスタムモデルに関する情報を取得したり、アカウントからカスタムモデルを削除したりします。

次のステップ

Document Intelligence クライアントライブラリの詳細については、API リファレンスのドキュメントを参照してください。

Document Intelligence API リファレンス

カスタム モデルを作成する

前提条件

カスタム モデルを作成する

トレーニング データセットを作成する

トレーニング データセットをアップロードする

カスタム モデルをトレーニングする

作成済みモデルを作成する

モデルの ID を収集する

カスタム モデルを作成する

ドキュメントを分析する

構成済みモデルを管理する

次のステップ

サンプル ラベル付けツール

モデルを作成する

トレーニング データセットを作成する

トレーニング データセットをアップロードする

カスタム モデルをトレーニングする

作成済みモデルを作成する

カスタム モデル ID を収集する

カスタム モデルを作成する

カスタムまたは作成済みモデルを使用してドキュメントを分析する

カスタム モデルを管理する

次のステップ

その他のリソース

カスタムモデルを作成する

カスタムモデルを作成する

トレーニングデータセットを作成する

トレーニングデータセットをアップロードする

カスタムモデルをトレーニングする

カスタムモデルを作成する

サンプルラベル付けツール

トレーニングデータセットを作成する

トレーニングデータセットをアップロードする

カスタムモデルをトレーニングする

カスタムモデル ID を収集する

カスタムモデルを作成する

カスタムモデルを管理する