Microsoft Syntexでの非構造化ドキュメント処理の概要

注:

2024 年 6 月まで、 従量課金制 を設定している場合は、非構造化ドキュメント処理やその他の選択された Syntex サービスを無償で試すことができます。 詳細と制限事項については、「Microsoft Syntexを試してサービスを調べる」を参照してください。

非構造化ドキュメント処理モデル (教育方法) を使用して、ファイルを自動的に分類し、情報を抽出します。 文字やコントラクトなどの非構造化ドキュメントに最適です。

注:

Microsoft は、Syntex でモデルをトレーニングおよび処理するために使用するデータのプライバシーと所有権を尊重します。 お客様のorganizationのデータは、AI モデル、大言語モデル、またはその他のモデルをトレーニングするために Microsoft によって使用または転送されることはありません。 データは、organizationのテナント内に安全に保持されます。 詳細については、「 Microsoft データ保護とプライバシー」を参照してください。

非構造化モデルの概要

非構造化ドキュメント処理モデル (旧称 ドキュメント理解モデル) は、人工知能 (AI) を使用してドキュメントを処理します。 これらのドキュメントには、フレーズやパターンに基づいて識別できるテキストが含まれている必要があります。 識別されたテキストは、ファイルのタイプ (分類) および抽出するもの (抽出プログラム) の両方を指定します。

注:

Syntex とシナリオの例を使用する方法の詳細については、「Microsoft Syntexとシナリオの導入を開始する」および「Microsoft Syntexのユース ケース」を参照してください。

非構造化ドキュメント処理モデルは、 コンテンツ センターと呼ばれる SharePoint サイトの種類で作成および管理されます。 SharePoint ドキュメント ライブラリに適用した場合、モデルはコンテンツタイプに関連付けられ、抽出される情報を格納するための列が含まれます。 作成したコンテンツタイプは、SharePoint コンテンツタイプ ギャラリーに保存されます。 既存のコンテンツ タイプを使用してスキーマを使用することもできます。

注:

読み取り専用またはシールされたコンテンツ タイプは更新できないため、モデルでは使用できません。

非構造化ドキュメント処理モデルに 分類子抽出器 を追加して、次のアクションを実行します。

  • 分類子は、ドキュメント ライブラリにアップロードされたドキュメントを識別および分類するために使用されます。 たとえば、分類子を "トレーニング" して、ライブラリにアップロードされているすべての契約更新ドキュメントを識別させることができます。 契約更新コンテンツ タイプは、分類子を作成するときにユーザーが定義します。

  • 抽出子は、これらのドキュメントから情報を引き出します。 たとえば、ドキュメント ライブラリで識別される契約更新ドキュメントごとに、各ドキュメントの サービス開始日クライアント を示す列が表示されます。

サンプルファイルを使用して、モデル内の分類子と抽出子をトレーニングおよびテストできます。 サンプルファイルは、ファイルからデータを識別して抽出しようとするときに何を探すべきかについてのモデル例を提供します。 たとえば、会社が使用している契約更新ドキュメントの例を使用して、契約更新の分類子と抽出子をトレーニングします。 サンプルファイルを使用して、モデルの有効性をテストすることもできます。

モデルを公開したら、コンテンツセンターを使用して、アクセスできる SharePoint ドキュメントライブラリにモデルを適用します。

要件と制限事項

このモデルを選択するときに考慮すべき要件については、Microsoft Syntexのモデルの要件と制限事項に関するページを参照してください。