トレーニング可能な分類子の使用を開始する

Microsoft Purview トレーニング可能な分類子は、評価するサンプルを提供することで、さまざまな種類のコンテンツを認識するためにトレーニングできるツールです。トレーニングが完了したら、それを使用して、Office 秘密度ラベル、コミュニケーションコンプライアンスポリシー、保持ラベルポリシーの適用項目を特定できます。

カスタムトレーニング可能な分類子を実装するには、次の 2 つの手順が必要です。

2 セットのサンプルデータ (人間が選択) を指定します。
1. カテゴリに属する項目のみを含むセット。
2. カテゴリに属 していない 項目のみを含むセット。
一致を検出する分類子の機能をテストします。

この記事では、カスタム分類子を作成してテストする方法について説明します。

さまざまな種類の分類子の詳細については、「トレーニング可能な分類子について」を参照してください。

重要

Microsoft Purview コミュニケーションコンプライアンスでは、Microsoft が提供するトレーニング可能な分類子の使用のみがサポートされています。カスタムトレーニング可能な分類子はサポートされていません。

前提条件

ライセンス

ライセンスの詳細については、次を参照してください。

アクセス許可

次のシナリオで分類子を使用するには、次のアクセス許可が必要です。

シナリオ	必要なロールのアクセス許可
保持ラベルポリシー	レコード管理保持管理
秘密度ラベルポリシー	セキュリティ管理者コンプライアンス管理者コンプライアンスデータ管理者
コミュニケーションコンプライアンスポリシー	Insider Risk Management 管理者監督レビュー管理者

重要

既定では、カスタム分類子を作成するユーザーのみがトレーニングし、その分類子によって行われた予測を確認できます。

カスタムトレーニング可能な分類子の準備

カスタムトレーニング可能な分類子を作成する前に、関連する内容を理解しておくと役立ちます。

全体的なワークフロー

カスタムトレーニング可能な分類子を作成する全体的なワークフローの詳細については、カスタムトレーニング可能な分類子を作成するためのプロセスフローに関するページを参照してください。

シードコンテンツ

トレーニング可能な分類子が、アイテムが特定のコンテンツカテゴリに属していることを個別かつ正確に識別できるようにするには、カテゴリ内にあるコンテンツの種類のサンプルを多数提示する必要があります。このトレーニング可能な分類子へのサンプルのフィードは 、シード処理と呼ばれます。人間はシードコンテンツを選択する必要があり、そのコンテンツには 2 つのデータセットが含まれている必要があります。1 つのセットには、分類子が検出するように設計されたコンテンツを強く表す項目 (正のサンプル) のみが含まれており、2 つ目のセットには明確に属していない項目 (負のサンプル) が含まれています。

分類子をトレーニングするには、少なくとも 50 個の陽性サンプル (最大 500 個) と少なくとも 150 個の負のサンプル (最大 1,500 個) が必要です。提供するサンプルが多いほど、分類子が行う予測の精度が高くなります。トレーニング可能な分類子は、最後に作成された 2,000 個までのサンプルを処理します (ファイルによって作成された日付/タイムスタンプによって)。

ヒント

最良の結果を得るには、少なくとも 50 個の正の例と少なくとも 150 個の負の例を含む、少なくとも 200 個の項目をテストサンプルセットに含めます。

トレーニング可能な分類子を作成する方法

プレビュー中: 次のプロセスでは、トレーニング可能な分類子のテストが自動化され、作成ワークフローが 12 日から 2 日に短縮されます。場合によっては、プロセスに数時間かかる場合があります。

分類子がカテゴリ内にあると肯定的に識別するデータを強く表す 50 から 500 個のシードコンテンツ項目を収集します。サポートされているファイルの種類の一覧については、「 SharePoint Server の既定のクロールされたファイル名拡張子と解析されたファイルの種類」を参照してください。

注:

カスタムトレーニング可能な分類子のトレーニングまたはテスト用のコンテンツのシード処理では、テキストベースのファイルのみがサポートされます。イメージファイルまたはイメージのみの PDF は使用できません。
カテゴリに属していないデータを表すシードコンテンツの 2 番目のセット (150 から 1,500 項目) を収集します。
正と負のシードコンテンツを別の SharePoint フォルダーに配置します。コミュニケーションサイトまたはその他の SharePoint サイトの種類を使用しますが、Teams フォルダーの種類や OneDrive フォルダーは使用しないでください。各フォルダーは、 シードコンテンツのみを保持する専用である必要があります。各セットのサイト、ライブラリ、フォルダーの URL を書き留めます。

ヒント

シードデータの新しい SharePoint サイトとフォルダーを作成する場合は、そのシードデータを使用するトレーニング可能な分類子を作成する前に、その場所のインデックスを作成するために少なくとも 1 時間を許可します。
コンプライアンス管理者またはセキュリティ管理者ロールアクセスを使用して Microsoft Purview ポータルにサインインし、[ データ損失防止>Data 分類>Classifiers] に移動します。

重要

使用するアカウントは、SharePoint のシードコンテンツフォルダーにアクセスできる必要があります。

[ トレーニング可能な分類子 ] タブを選択します。
[ トレーニング可能な分類子の作成] を選択します。
肯定的な例のソースを追加します。分類子が検出する必要があるシードコンテンツの SharePoint サイト、ライブラリ、およびフォルダー URL を選択し、[次へ] を選択します。
否定的な例のソースを追加します。分類子が無視するシードコンテンツの SharePoint サイト、ライブラリ、フォルダー URL を選択し、[次へ] を選択します。
設定を確認し、[トレーニング可能な分類子の作成] を選択します。
トレーニング可能な分類子は、24 時間以内にシードデータを処理し、予測モデルを構築します。シードデータの処理中、分類子の状態は [進行中] になります。分類子がシードデータの処理を完了すると、状態 が [トレーニング] に変わり、項目がテストされました。
トレーニングが完了し、項目が (自動的に) テストされたら、[ 使用する公開] を選択して分類子を発行します。

分類子を発行すると、機密ラベルを使用した Office の自動ラベル付け、条件に基づく保持ラベルポリシーの自動適用、およびコミュニケーションコンプライアンスの条件として使用できます。

分類子をテストする

トレーニング可能な分類子が、予測モデルを構築するのに十分な正と負のサンプルを処理した後、予測をテストします。分類子をテストするときに、その予測が正しいかどうかを確認します。分類子がすべてのデータを処理した後、結果を調べて、各予測が正しいか、正しくないか、不確実かを確認できます。 Microsoft では、このフィードバックを集計して予測モデルを改善します。

フィードバック

このページはお役に立ちましたか?

Last updated on 2026-06-20