Microsoft Purview トレーニング可能な分類子は、さまざまな種類のコンテンツを認識するためにトレーニングできるツールです。このツールを使用して、見るサンプルを提供します。 トレーニングが完了したら、それを使用して、Office 秘密度ラベル、コミュニケーション コンプライアンス ポリシー、保持ラベル ポリシーの適用項目を特定できます。
カスタムトレーニング可能な分類子を実装するために、次の 2 つの手順が必要です。
- 2 セットのサンプル データ (人間が選択) を指定します。
- カテゴリに属する項目のみを含むセット。
- カテゴリに属 していない 項目のみを含むセット。
- 一致を検出する分類子の機能をテストします。
この記事では、カスタム分類子を作成してテストする方法について説明します。
さまざまな種類の分類子の詳細については、「 トレーニング可能な分類子について」を参照してください。
ヒント
E5 のお客様でない場合は、90 日間の Microsoft Purview ソリューション試用版を使用して、Purview の追加機能が組織のデータ セキュリティとコンプライアンスのニーズの管理にどのように役立つかを確認してください。 Microsoft Purview トライアル ハブ で今すぐ開始してください。 サインアップと試用期間の詳細については、こちらをご覧ください。
前提条件
ライセンス
ライセンスの詳細については、次を参照してください。
アクセス許可
次のシナリオで分類子を使用するには、次のアクセス許可が必要です。
シナリオ | 必要なロールのアクセス許可 |
---|---|
保持ラベル ポリシー | レコード管理 保持管理 |
秘密度ラベル ポリシー | セキュリティ管理者 コンプライアンス管理者 コンプライアンス データ管理者 |
コミュニケーション コンプライアンス ポリシー | Insider Risk Management 管理者 監督レビュー管理者 |
重要
既定では、カスタム分類子を作成するユーザーのみが、その分類子によって行われた予測をトレーニングおよびレビューできます。
カスタム トレーニング可能な分類子の準備
詳しく説明する前に、カスタムトレーニング可能な分類子の作成に何が関係しているのかを理解しておくと役立ちます。
全体的なワークフロー
カスタムトレーニング可能な分類子を作成する全体的なワークフローの詳細については、カスタムトレーニング可能な分類 子を作成するためのプロセス フローに関するページを参照してください。
シード コンテンツ
トレーニング可能な分類子が、アイテムが特定のコンテンツ カテゴリに属していることを個別かつ正確に識別できるようにするには、カテゴリ内にあるコンテンツの種類のサンプルを多数提示する必要があります。 このトレーニング可能な分類子へのサンプルのフィードは 、シード処理と呼ばれます。 人間はシード コンテンツを選択する必要があり、そのコンテンツには、分類子が検出するように設計されたコンテンツを強く表す項目 (正のサンプル) と、明確に属していない項目の 2 番目のセット (負のサンプル) のみを含む 2 つのデータ セットが含まれている必要があります。
分類器をトレーニングするには、少なくとも 50 個の陽性サンプル (最大 500 個) と少なくとも 150 個の陰性サンプル (最大 1500 個) が必要です。 提供するサンプルが多いほど、分類子が行う予測の精度が高くなります。 トレーニング可能な分類子は、最後に作成された 2000 個までのサンプルを (ファイルで作成された日付/タイム スタンプによって) 処理します。
ヒント
最良の結果を得るには、少なくとも 50 個の正の例と少なくとも 150 個の負の例を含む、少なくとも 200 個の項目をテスト サンプル セットに含めます。
トレーニング可能な分類子を作成する方法
プレビュー中: 次のプロセスでは、トレーニング可能な分類子のテストが自動化され、作成ワークフローが 12 日から 2 日に短縮されます。 (場合によっては、プロセスに数時間かかる場合があります)。
分類子がカテゴリ内にあると肯定的に識別するデータを強く表す 50 から 500 個のシード コンテンツ項目を収集します。 サポートされているファイルの種類の一覧については、「 SharePoint Server の既定のクロールされたファイル名拡張子と解析されたファイルの種類」を参照してください。
カテゴリに属していないデータを表すシード コンテンツの 2 番目のセット (150 から 1500 アイテム) を収集します。
正と負のシード コンテンツを別の SharePoint フォルダーに配置します。 各フォルダーは、 シード コンテンツのみを保持する専用である必要があります。 各セットのサイト、ライブラリ、フォルダーの URL を書き留めます。
ヒント
シード データの新しい SharePoint サイトとフォルダーを作成する場合は、そのシード データを使用するトレーニング可能な分類子を作成する前に、その場所のインデックスを作成するために少なくとも 1 時間を許可します。
コンプライアンス管理者またはセキュリティ管理者ロールアクセス権を使用して Microsoft Purview ポータル または Microsoft Purview ポータル にサインインし、 データ損失防止>Data 分類>Classifiers に移動します。
[トレーニング可能な分類子] タブを選択します。
[トレーニング可能な分類子を作成] を選択します。
正の例のソースを追加します。分類子によって検出されるシード コンテンツの SharePoint サイト、ライブラリ、フォルダー URL を選択し、[次へ] を選択します。
否定的な例のソースを追加する: 分類子によって無視されるシード コンテンツの SharePoint サイト、ライブラリ、およびフォルダー URL を選択し、[次へ] を選択します。
設定を確認し、[ トレーニング可能な分類子の作成] を選択します。
トレーニング可能な分類子は、24 時間以内にシード データを処理し、予測モデルを構築します。 シード データの処理中、分類子の状態は [進行中] になります。 分類子がシード データの処理を完了すると、状態 が [トレーニング] に変わり、項目がテストされました。
トレーニングが完了し、項目が (自動的に) テストされたら、 使用するために [発行] を選択して分類子を発行します。
公開されると、分類子は、 機密ラベルを使用した Office の自動ラベル付け、条件 に基づく保持ラベル ポリシーの自動適用 、 およびコミュニケーション コンプライアンスの条件として使用できます。
分類子をテストする
トレーニング可能な分類子が、予測モデルを構築するのに十分な正と負のサンプルを処理したら、予測をテストする必要があります。 分類子のテストでは、その予測が正しいかどうかを確認します。 すべてのデータが処理されたら、結果を手動で調べて、各予測が正しいか正しくないか、わからないかを確認します。 Microsoft では、このフィードバックを集計して予測モデルを改善します。