Microsoft Syntex で抽出器を作成するときに用語ストア分類を活用する
適用対象: ✓ 非構造化ドキュメント処理
Microsoft Syntex を使用して非構造化ドキュメント処理モデルで抽出器を作成する場合、 用語ストア のグローバル用語セットを利用して、抽出するデータの優先用語を表示できます。
例として、モデルは、ドキュメント ライブラリにアップロードされているすべての契約ドキュメントを識別して分類します。 さらに、モデルは各契約から契約サービス値も抽出し、ライブラリ ビューの列に表示します。 契約内のさまざまな契約サービス値の中には、会社が使用しなくなって名前が変更された古い値がいくつかあります。 たとえば、契約サービスでの Design、Graphics、Topography という用語への参照はすべて、Creative と呼ばれる必要があります。 モデルがコントラクト ドキュメントから古い用語の 1 つを抽出するたびに、現在の用語 (Creative) をライブラリ ビューに表示する必要があります。 次の例では、モデルのトレーニング中に、1 つのサンプル ドキュメントに 古いデザイン用語が含まれていることがわかります。
エクストラクターでマネージド メタデータ列を使用する
用語セットは、 SharePoint 管理センターのマネージド メタデータ サービス (MMS) 用語ストアで構成されます。 次の例では、 Contract Services用語セット は、クリエイティブを含む複数の用語を含むように構成 されています。 詳細は、この用語に 3 つの同義語 (Design、Graphics、Topography) があり、これらの同義語を Creative に翻訳する必要があることを示しています。
用語セットで同義語を使用する理由は多く考えられます。 たとえば、古い用語、名前が変更された用語、または名前付けに関する組織部門間のバリエーションがある可能性があります。
モデルで抽出子を作成するときに管理メタデータ フィールドを選択できるようにするには、それを管理メタデータ サイト列として追加する必要があります。 サイト列を追加すると、モデルの抽出子を作成するときに選択できるようになります。
モデルをドキュメント ライブラリに適用した後、ドキュメントがライブラリにアップロードされると、抽出子が同義語の値 (Design、Graphics、Topography) のいずれかを検出すると、Creative Services 列に優先用語 (Creative) が表示されます。
注:
用語セットが開いている場合、優先する用語またはシノニム値と一致しない抽出された値は、用語セットのルートに新しい用語として追加されます。 これらの新しい用語は、用語セットが存在する用語ストアで移動、マージ、またはシノニムにすることができます。