SharePoint で非構造化ドキュメント処理モデルをトレーニングする

2025-01-07

^{適用対象: ✓ 非構造化ドキュメント処理}

「Syntex でモデルを作成する」の手順に従って、コンテンツセンターで非構造化ドキュメント処理モデルを作成します。または、「ローカル SharePoint サイトにモデルを作成する」の手順に従って、ローカルサイトにモデルを作成します。次に、この記事から始めてモデルのトレーニングを開始します。

分類子を作成する

分類子は、ドキュメントの種類の識別および分類を自動化するために使用できるモデルの種類です。

たとえば、次の図に示すように、ドキュメントライブラリに追加されたすべての 契約更新 ドキュメントを特定することも可能です。

契約更新ドキュメント。

分類子を作成すると、モデルに関連付けられる新しい SharePoint コンテンツの種類を作成できます。

分類子を作成するときに、モデルを定義するために説明を作成する必要があります。この手順では、このドキュメントの種類を一貫して見つけることが予想される一般的なデータをメモできます。

コンテンツタイプが同じファイルを特定できるように、モデルに "トレーニング" するには、ドキュメントの種類 ("ファイルの例") の例を使用します。

分類子を作成するには、次の操作を行う必要があります。

モデルに名前をつけます。
サンプルファイルを追加します。
サンプルファイルにラベルを付けます。
説明を作成します。
モデルをテストします。

注:

モデルでは、ドキュメントタイプを特定して分類するために分類子を使用していますが、モデルで識別された各ファイルから特定の情報を取得することもできます。これを行うには、モデルに追加する 抽出機能 を作成します。「抽出機能を作成」を参照してください。

モデルに名前を付けます

モデルを作成する最初の手順は、名前を付けることです。

コンテンツセンターから [ 新規] を選択し、[ モデル] を選択します。
[ モデル作成のオプション] ページで 、[ 教育方法] を選択します。
[ 教育方法: 詳細 ] ページで、[ 次へ] を選択します。
[ 指導方法を使用してモデルを作成する] ページの [ モデル名 ] フィールドに、モデルの名前を入力します。たとえば、契約更新ドキュメントを特定する場合、モデルに契約更新と名前を付けます。
[作成] を選択します。このアクションにより、モデルのホームページが作成されます。

モデルを作成するときに、新しいサイトコンテンツタイプも作成します。コンテンツタイプは、共通の特徴を持つドキュメントのカテゴリを表し、特定のコンテンツの列またはメタデータプロパティのコレクションを共有します。 SharePoint コンテンツの種類は、[コンテンツの種類ギャラリー] で管理されます。この例では、モデルを作成するときに、新しい コントラクト更新 コンテンツタイプを作成します。

このモデルを SharePoint コンテンツタイプギャラリー内の既存のエンタープライズコンテンツタイプにマップしてスキーマを使用する場合は、[詳細設定] を選択します。エンタープライズコンテンツタイプは、SharePoint 管理センターのコンテンツタイプハブに格納され、テナントのすべてのサイトにシンジケートされます。既存のコンテンツタイプを使用してスキーマを活用して識別と分類に役立てることができる場合でも、識別したファイルから情報を抽出するためにモデルをトレーニングする必要があることに注意してください。

詳細設定。

サンプルファイルを追加する

モデルのホームページで、ドキュメントの種類を識別するためにモデルのトレーニングに役立つサンプルファイルを追加します。

注:

分類子と抽出機能トレーニングに同じファイルを使用する必要があります。後で追加するオプションは常に用意されていますが、通常はサンプルファイルすべてを追加します。モデルを学習させるためにラベルを付け、残りのラベルのないものをテストして、モデルの適合性を評価します。

トレーニングセットについては、ポジティブなものとネガティブなものと両方のサンプルを使用します。

ポジティブな例: ドキュメントの種類を表すドキュメント。これらには、この種類のドキュメントに常に存在する文字列と情報が含まれます。
負の例: 分類するドキュメントを表さないその他のドキュメント。

モデルをトレーニングする場合は、少なくとも1つのポジティブな例と少なくとも1つのネガティブな例を使用してください。トレーニングプロセスの後にモデルをテストする別のモデルを作成する必要があります。

サンプルファイルを追加するには:

モデルのホームページの [ サンプルファイルの追加] タイルで、[ ファイルの追加] を選択します。
[ モデル用にサンプルファイルを選択してください] ページで、コンテンツセンターのトレーニングファイルライブラリからサンプルファイルを選択します。まだアップロードしていない場合は、[アップロード] をクリックしてトレーニングファイル ライブラリにコピー して、今すぐアップロードすることを選択します。
モデルのトレーニングに使用するサンプルファイルを選択したら、[ 追加] を選択します。

サンプルファイルにラベルを付ける

サンプルファイルを追加した後は、ポジティブまたはネガティブのラベルを付ける必要があります。

モデルのホームページの [ファイルの 分類とトレーニングの実行 ] タイルで、[ 分類子のトレーニング] を選択します。この手順では、サンプルファイルの一覧を示すラベルページが表示され、最初のファイルがビューアーに表示されます。
最初のサンプルファイルの一番上にあるビューアーで、作成したモデルの例として、そのファイルが適切かどうかをテキストを見て確認する必要があります。正の例の場合は、[ はい] を選択します。負の例の場合は、[いいえ] を選択 します。
左側にある ラベル付きのサンプル リストで、サンプルとして使用する追加のファイルを選択し、ラベルを付けます。

注:

少なくとも5個のポジティブな例にラベルを付けます。少なくとも1つのネガティブな例にラベルを付けます。

説明を作成する

次の手順では、トレーニングページに説明を作成します。詳細を使用すると、モデルがドキュメントの識別をしやすくなります。たとえば、契約更新ドキュメントには常に、テキスト文字列追加の開示要求が含まれます。

注:

エクストラクターを使用する場合、説明を使用すると、文書から抽出する文字列を特定します。

説明を作成するには:

[モデルのホーム] ページで、[トレーニング] タブを選択し、[トレーニング] ページに移動します。
[トレーニング] ページの [トレーニング済みファイル] セクションには、以前にラベルが付けられたサンプルファイルの一覧が表示されています。一覧からいずれかのポジファイルを選び、viewer で表示します。
[説明] セクションで、[新しい ] を選択し、[空を選択します。
[ 説明の作成 ] ページで、を
します。名前を入力します (たとえば、"暴露ブロック")。
b. [ 種類]を選びます。この例では、文字列を追加するので、[ 語句のリスト] を選択します。
c. [ ここに入力してください] ボックスに、文字列を入力します。このサンプルには、"追加情報開示の要求" を追加します。文字列に大文字と小文字を区別する必要がある場合は、大文字と小文字の区別を選択することができます。
d. [保存] を選択します。
コンテンツセンターでは、作成した説明がポジティブまたはネガティブの例として、残りのラベル付きファイルの例を正しく識別するのに適しているかどうかを確認するようになりました。 [トレーニング済みファイル] セクションで、トレーニングが完了した後で結果を確認するため、[評価] 列をチェックします。ファイルには、ユーザーがポジティブまたはネガティブとラベルをつけたものと一致させるために作成した説明が適切であった場合、一致が表示されます。

ラベルが付けられたファイルの不一致 を受信した場合は、モデルがドキュメントの種類を識別できるように、追加の説明を作成し提供しなければならない場合があります。不一致が発生した場合は、ファイルを選択して、不一致が発生した理由の詳細を取得します。

エクストラクターをトレーニングしたら、そのトレーニング済みエクストラクターを説明として使用できます。 [説明セクション] では、これは [モデルリファレンス] として表示されています。

タイプモデルリファレンスを示す説明セクションのスクリーンショット。

モデルをテストする

ラベル付けされたサンプルファイルで一致するものを受け取った場合は、モデルがこれまでに見たことのないラベル付けされていない残りのサンプルファイルでモデルをテストできるようになりました。この手順は省略可能ですが、モデルを使用する前にモデルの "適合性" または準備状況を評価するための便利な手順です。これは、モデルがこれまでに見たことがないファイルでテストすることで行います。

[モデルのホーム] ページで、[テスト] タブを選択します。ラベルなしのサンプルファイル上でモデルが実行されます。
[ テストファイル ] の一覧では、サンプルファイルが表示され、モデルがポジティブかネガティブであるかを予測します。この情報を使用して、ドキュメントを特定するときの分類子の有効性を判断します。

次の方法で共有