トレーニング可能な分類子を使用してデータを分類する
トレーニング可能な分類子は、AI を使用して、定義済みのパターンやキーワードで分類できないデータを識別して分類します。 信用カード番号や社会保障番号などの構造化データを検出する機密情報の種類 (SID) とは異なり、トレーニング可能な分類子は意味とコンテキストに基づいてコンテンツを分析します。 これにより、コントラクト、財務レポート、人事レコードなどの非構造化データを検出するのに役立ちます。
トレーニング可能な分類子を使用する理由
多くの組織には、予測可能な形式に従わない機密性の高いコンテンツがあります。 トレーニング可能な分類子は、次の場合に役立ちます。
- SID で検出できない複雑なデータを特定します。
- 手動分類への依存を減らします。
- 保護する必要があるコンテンツを自動的に認識することで、コンプライアンスとセキュリティを向上させます。
トレーニング可能な分類子の種類
Microsoft Purview には、次の 2 種類のトレーニング可能な分類子が用意されています。
- 事前トレーニング済み分類子: 履歴書、ソース コード、攻撃的な言語などの一般的なコンテンツ タイプに使用できる組み込みの分類子。 Microsoft では、精度を向上させるために、これらの分類子を定期的に更新します。
- カスタムトレーニング可能な分類子: 組織は、実際の例を使用して独自の分類子をトレーニングして、ビジネス固有のデータを検出できます。 カスタム分類子では、時間の経過に伴う精度を向上させるために、手動トレーニングと絞り込みが必要です。
事前トレーニングされた分類子
事前トレーニングされた分類子は、組織が手動で設定しなくても、一般的な種類の非構造化データを識別するのに役立ちます。 これらは、従来のパターン ベースのメソッドで分類するのが困難なコンテンツのカテゴリを検出するように設計されています。
Microsoft では、次のような特定の種類のコンテンツに対して事前トレーニング済みの分類子を提供しています。
- 不適切な言語: 不適切なコンテンツまたは不適切なコンテンツを検出します。
- 履歴書: 人事データ管理の求職者履歴書を特定します。
- ソース コード: 専用または機密性の高いコードの追跡と保護に役立ちます。
事前トレーニングされた分類子は、AI と機械学習を使用して Microsoft によって構築され、洗練されています。 これらは定期的に更新され、精度が向上し、進化するコンテンツ タイプに適応します。
トレーニング可能な分類子が使用される場所
トレーニング可能な分類子は、いくつかの Microsoft Purview ソリューションと統合されているため、組織はデータを効果的に分類および管理できます。
- 自動ラベル付けポリシー: 分類子の結果に基づいて秘密度ラベルを自動的に適用します。
- 保持ポリシー: 古いデータを破棄しながら、重要なコンテンツを特定して保持します。
- データ損失防止 (DLP): 機密情報がorganizationの外部で共有されないようにします。
- コミュニケーション コンプライアンス: 不適切なコンテンツを含むポリシー違反のメッセージを監視します。
トレーニング可能な分類子の制限事項
トレーニング可能な分類子は強力な AI 駆動型分類を提供しますが、いくつかの制限があります。
- 精度を向上させるには、最初の トレーニングとレビュー プロセスが必要です。
- 暗号化されたコンテンツでは機能しません。
- サポートされている場所 (SharePoint、OneDrive、Exchange など) 内のコンテンツのみを分類 します。
トレーニング可能な分類子と機密情報の種類を比較する
| 機能 | トレーニング可能な分類子 | 機密情報の種類 (SID) |
|---|---|---|
| 検出方法 | AI ベースの分析 | パターンベース (正規表現、キーワードなど) |
| 最適な | 非構造化データ | 構造化データ |
| トレーニングが必要ですか? | はい | いいえ (組み込みの SID) |
| 自動ラベル付け、DLP、コンプライアンスで動作しますか? | はい | はい |
| 暗号化されたコンテンツを検出しますか? | 不要 | 不要 |