Syntex でコンテンツを処理する方法

完了

おそらく、Contoso Electronics と同様に、organizationには既に多数のドキュメントがあり、Syntex を使用して処理プロセスを最適化する方法を知りたいと考えています。 このユニットでは、コンテンツの分類、メタデータの抽出、Contoso Electronics のレンズによるラベル付けの適用など、コンテンツ ライフサイクルのステージ 2、3、4 で Syntex がどのように役立つかについて説明します。

ステージ 2、3、および 4 が Syntex コンテンツ処理として強調表示されている一般的なコンテンツ ライフ サイクルの図。

次の情報を学習します。

  • Syntex によって提供されるドキュメント処理モデルの種類
  • 各モデルの機能、要件、および制限
  • ニーズの分析、モデルの設定、トレーニングの一般的なプロセス

開始する前に、 SharePoint サイトに "SharePoint Contracts 管理チーム サイト テンプレート" を 設定することをお勧めします。 このテンプレートを使用すると、このテンプレートに付属するサンプル ファイル、テンプレート、ライブラリ、モデルと共に練習できます。

コントラクト管理テンプレートの選択のスクリーンショット。

ドキュメント処理モデル

Microsoft Syntexでのコンテンツの理解は、ドキュメント処理モデルから始まります。 ドキュメント処理モデルを使用すると、SharePoint ドキュメント ライブラリにアップロードされたドキュメントを特定して分類し、各ファイルから必要な情報を抽出できます。 Syntex は、ドキュメントの機能と目的に応じて、ドキュメントを処理するためのさまざまなモデルを提供します。 ドキュメント処理モデルには、事前構築済みモデルとカスタム モデルの 2 つのカテゴリがあります。

各カテゴリのモデルの重要な事実を見てみましょう。

事前構築済みモデル

最初に、Syntex には、コントラクト モデル、請求書モデル、レシート モデルの 3 つの事前構築済みモデルが用意されており、契約ドキュメントから重要な情報を分析して抽出し、売上請求書と売上受領書を処理します。 これらの事前構築済みモデルは、事前構成され、事前トレーニングされています。 最初からモデルを構築する代わりに、事前構築済みモデルに対してファイルを分析し、抽出するフィールドを特定することから始めることができます。 どちらのモデルも、.bmp、.jpeg、.pdf、.png、.tiffのファイルで動作します。

契約処理

コントラクト処理モデルは、コントラクト ドキュメントから重要な情報を分析および抽出します。 事前構築済み コントラクト処理モデル は、さまざまな形式のコントラクトを認識し、クライアント名と住所、契約期間、更新日などの重要なコントラクト情報を抽出します。

請求書処理

請求書処理モデルは、請求書を処理してキー情報を抽出します。 事前構築済みの請求書処理モデルは、PDF ドキュメントとイメージ ファイルで機能しますが、米国からの英語の請求書のみをサポートします。

領収書処理

レシート処理モデルを使用して、印刷済みまたは手書きのレシートから重要な情報を取得します。 この事前構築済みのレシート処理モデルは、PDF ドキュメントとイメージ ファイルで動作しますが、オーストラリア、カナダ、英国、インド、米国からの英語の販売レシートのみをサポートしています。

事前構築済みモデルの使用

事前構築済みモデルを使用するには、まずモデルを作成します。 次に、事前構築済みモデルと比較するサンプル ファイルをアップロードします。 ドキュメントから抽出する必要がある情報をモデルに伝える必要があります (抽出元を選択します)。 抽出器を選択したら、モデルを保存してドキュメント ライブラリに適用できます。 抽出子によって抽出されたキー データがドキュメント ライブラリに表示されます。

カスタム モデル

多くの場合、ドキュメントは契約、請求書、領収書ではありません。 これらのドキュメントを処理するには、カスタム モデルを作成する必要があります。 カスタム モデルには、構造化ドキュメント処理モデル、フリーフォーム ドキュメント処理モデル、非構造化ドキュメント処理モデルの 3 種類があります。 各ドキュメントは、情報構造、ファイル形式、およびサポートされている言語の観点から、特定の種類のドキュメントで最適に動作します。 コスト、各モデルを使用するための要件、および設定する作業も、モデルの種類によって異なります

構造化ドキュメント処理モデル

構造化ドキュメント処理モデルは、ドキュメント内の情報がフォームや請求書などのテーブル形式で格納されている場合に最適です。 このカスタム モデルは、PDF ドキュメントとイメージ ファイルで動作します。 さまざまな言語をサポートし、レイアウト メソッドを使用して情報を分類および抽出します。

フリーフォーム ドキュメント処理モデル

フリーフォーム ドキュメント処理モデルは、形式が異なる可能性があるが、すべてのドキュメントに類似のコンテンツが存在する非構造化ドキュメントとフリーフォーム ドキュメントに最適です。 このカスタム モデルは PDF ドキュメントとイメージ ファイルで動作しますが、現在は英語のドキュメントのみをサポートしています。 このモデルでは、フリーフォームの選択方法を使用して、情報を分類および抽出します。

注:

構造化ドキュメント処理モデルとフリーフォーム ドキュメント処理モデルの両方が、Power Platform に依存しています。 これら 2 つのモデルの使用を決定する前に、Power Platform の可用性をチェックすることもできます。 どちらのモデルにも AI Builder クレジットが必要です。 各Microsoft Syntexライセンスの「シート」には3,500クレジットが付属し、必要に応じてさらに購入できます。

非構造化ドキュメント処理モデル

ドキュメントにさまざまなコンテンツ構造があり、同様のキー情報が含まれている場合は、 非構造化ドキュメント処理モデルの使用を検討する必要があります。 3 つのカスタム モデルのうち、非構造化ドキュメント処理モデルは、 最も広い範囲のドキュメントの種類をサポートします。 このモデルでは、英語、フランス語、ドイツ語、イタリア語、スペイン語など、ラテン語ベースの言語がサポートされています。 教育方法を使用してファイルをトレーニングします。 非構造化ドキュメント処理モデルは、すべてのリージョンで使用できます。

次のビデオでは、非構造化ドキュメント処理モデルについて簡単に概要を示します。

非構造化ドキュメント処理モデルの作成のシミュレートされたエクスペリエンスを確認するには、次の図を選択します。 対話型ガイド

すべてのモデル

すべてのモデルについて、まず 1 つまたは複数のサンプル ファイルをアップロードして モデルをトレーニングする必要があります。 ただし、モデルによって異なるトレーニング方法が使用され、ドキュメントの種類と言語のセットが異なります。 さらに、一部のモデルでは、Power Platform と AI Builder がリージョンで使用できない場合、特定のリージョンでは機能しない可能性があることを考慮する必要があります。 各ドキュメント処理モデルの要件と制限事項の詳細を参照してください。

次の点にご注意ください。

  • 一元的に作成されたモデルは、 エンタープライズ モデルと呼ばれ、 ローカル モデルとしてローカルに知られています。
  • エンタープライズ モデルは複数のライブラリに適用できますが、ローカル モデルは 1 つのライブラリにのみ適用できます。
  • モデルの信頼度スコアが低い場合は、追加のサンプル ファイルをアップロードし、モデルを再トレーニングします。

モデルの作成を開始する前に

  • 抽出する必要がある情報について考えてください。
  • Syntex フリーフォームまたは構造化モデルを更新する場合は、これらの変更を公開して公開することを忘れないでください。 モデルの詳細ページで、最後にトレーニングしたバージョンを選択し、[発行] を選択 します
  • 抽出器の追加や削除など、Syntex モデルを更新する場合は、割り当てられているライブラリにモデルを同期することを忘れないでください。 同期するアクションにより、コンテンツ タイプと列がそれに応じて更新されます。

ドキュメントのタグ付け

Syntex では、ドキュメント処理モデルに加えて、AI を使用してドキュメントに自動的にタグを付ける機能が提供されます。 画像の場合、 画像タグ付け では、AI によって抽出されたわかりやすいキーワードが [画像タグ] 列に格納されるため、画像の検索、並べ替え、フィルター処理、管理が容易になります。 サポートされている他のドキュメントの場合、分類タグ付けでは用語ストアで構成された用語が分類列に格納されるため、これらのドキュメントの検索、並べ替え、フィルター処理、管理が容易になります。

光学式文字認識(OCR)

Syntex の OCR サービスは 、画像やドキュメントから印刷または手書きのテキストを抽出し、検索でインデックスを作成します。 このサービスは、探しているキーワードやフレーズをすばやく正確に見つけるのに役立ちます。

Contoso Electronics は、構造化されたドキュメント処理モデルを使用してドキュメント品質のチェックを最適化します

次に、Contoso Electronics がドキュメントの品質チェックプロセスを最適化するアプローチを識別する方法を見てみましょう。

シナリオを特定する

Contoso Electronics は、複数の国/地域で事業を展開する大企業であり、すべての書類が各特定の領域で顧客が期待する内容に沿っていることを確認したいと考えています。 これには、技術的な設計、プロセス、顧客の注文が正確であることを確認することなどが含まれます。 基本的には、ルールに従っていることを確認し、すべてが整っていることを確認することがすべてです。

以前は、Contoso Electronics のドキュメント プロセッサが手動で品質チェックを行い、貴重な時間とリソースのコストを削減していました。 Syntex を使用すると、ドキュメント プロセッサは、プロジェクトに関連付けられている各ドキュメントから重要な情報を自動的にキャプチャし、品質チェックをより迅速かつ簡単にできることを願っています。

アプローチを決定する

Contoso のドキュメント品質チェック用に Syntex を実装するには、最初に使用するドキュメント処理モデルを特定します。 リーダーシップは、IT 部門に対して、さまざまなプロジェクトやサテライトの場所のドキュメント プロセッサを使用して意思決定を行うように依頼します。 チームはまず、品質チェック、形式、コンテンツ構造、言語について Contoso ドキュメントの種類を分析します。

Contoso Electronics のドキュメントは、PDF ドキュメント、画像、Microsoft Word ドキュメント、電子メール、html ページなど、多くの形式で提供されているのがすぐに分かっています。 ただし、品質チェックの対象となるドキュメントのメインの種類は、PDF と.jpeg形式でスキャンされた画像です。 Contoso Electronics は世界中のプロジェクトを持つ多国籍企業であるため、多くのドキュメントはラテンアルファベット言語または非アルファベット言語のいずれかです。 また、これらのドキュメントのほとんどは、同様の構造とレイアウトを持ちます。 各カスタム モデルの比較テーブルの特徴の一覧に従って、チームは構造化ドキュメント処理モデルが使用するのに適したモデルであることを確認します。

Syntex を設定する

次に、IT 部門は 、Power Platform と AI Builder が各 Contoso Electronics サテライトの場所で使用可能であることを確認する必要があります。 すべてのサテライトの場所に Power Platform と AI Builder があることを確認した後、IT 部門は Syntex の設定を開始します。 Contoso Electronics では、Microsoft 365 Multi-Geo 環境が設定されています。 つまり、すべてのサテライトの場所で構造化ドキュメント処理モデルを使用する必要があるため、Microsoft サポートに問い合わせる必要があります。 各サテライトの場所と本社からのドキュメント処理のニーズに基づいて、チームは取得する必要がある Syntex ライセンスの初期数も決定します。

また、チームはモデルの実行コストも確認します。 構造化ドキュメント処理では、AI Builder クレジットが使用されます。 各 Syntex ライセンスでは、1 か月あたり 3,500 クレジットを使用でき、最大割り当ては 1 organization あたり 100 万クレジット/月です。 100 万クレジットの割り当てにより、2,000 のファイル ページを処理できます。 未使用のクレジットは月から月にロールオーバーされませんが、 AI Builder 計算ツールで推定月単位のクレジットを計算した後、チームは既定のクレジットで十分であると判断します。 その後、IT 部門は コンテンツ センターを作成し、ドキュメント プロセッサを他の管理者としてコンテンツ センター サイトに追加します。

モデルをCreateしてトレーニングする

Contoso Electronics では、ドキュメント プロセッサが独自の ローカル構造化ドキュメント処理モデルを作成できるようになりました。 これらのモデルをトレーニングして、エンジニアリング 契約などの構造化ドキュメントを分析し、顧客名、プロジェクト番号、ドキュメント番号、状態、承認者などのキー識別子を抽出します。 ドキュメントの準拠と一貫性を維持するために、ドキュメント プロセッサは、 ドキュメントに保持 ラベルと 秘密度 ラベルを自動的にタグ付けするようにモデルをトレーニングできます (2023 年後半以降)。

モデルをトレーニングしてドキュメントで使用すると、ドキュメントから抽出された情報に従って、ベンダー名、プロジェクト番号、ドキュメント番号の新しい列が生成されます。 また、モデルは、適用時に保持ラベルと秘密度ラベルを含むドキュメントに自動的にラベルを付けます。

次のユニットでは、Contoso Electronics のコントラクト マネージャーがコンテンツ クエリ、ルール、およびその他のツールを使用して、生成された列から情報を検索する方法について説明します。 また、Syntex と他のツールを組み合わせてワークフローを自動化する方法についても説明します。