Microsoft Purview スキャンのベストプラクティス

[アーティクル]
08/23/2023

Microsoft Purview ガバナンスソリューションは、オンプレミス、マルチクラウド、およびサービスとしてのソフトウェア (SaaS) データソースの自動スキャンをサポートします。

スキャンを実行すると、登録されたデータソースからメタデータを取り込むプロセスが呼び出されます。スキャンとキュレーションプロセスの最後にキュレーションされたメタデータには、技術的なメタデータが含まれます。このメタデータには、テーブル名やファイル名、ファイルサイズ、列、データ系列などのデータ資産名を含めることができます。スキーマの詳細は、構造化データソースについてもキャプチャされます。リレーショナルデータベース管理システムは、この種類のソースの例です。

キュレーションプロセスは、構成されたスキャンルールセットに基づいて、スキーマ属性に自動分類ラベルを適用します。秘密度ラベルは、Microsoft Purview アカウントがMicrosoft Purview コンプライアンスポータルに接続されている場合に適用されます。

重要

ストレージアカウントの更新を妨げる Azure ポリシーがある場合は、Microsoft Purview のスキャンプロセスにエラーが発生します。 Microsoft Purview 例外タグガイドに従って、Microsoft Purview アカウントの例外を作成します。

データソースを管理するためにベストプラクティスが必要な理由

ベストプラクティスを使用すると、次の機能を利用できます。

コストを最適化します。
オペレーショナルエクセレンスを構築します。
セキュリティコンプライアンスを向上させます。
パフォーマンス効率を向上させます。

ソースを登録し、接続を確立する

次の設計上の考慮事項と推奨事項は、ソースを登録して接続を確立するのに役立ちます。

設計上の考慮事項

コレクションを使用して、地理的、ビジネス機能、データソースなど、organizationの戦略に合わせた階層を作成します。階層は、登録およびスキャンするデータソースを定義します。
設計上、同じ Microsoft Purview アカウントにデータソースを複数回登録することはできません。このアーキテクチャは、同じデータソースに異なるアクセス制御を割り当てるリスクを回避するのに役立ちます。

設計に関する推奨事項

同じデータソースのメタデータが複数のチームによって使用される場合は、親コレクションでデータソースを登録および管理できます。その後、各サブコレクションの下に対応するスキャンを作成できます。このようにして、関連する資産が各子コレクションの下に表示されます。親を持たないソースは、マップビューの点線のボックスにグループ化されます。矢印は両親にリンクしません。
Azure サブスクリプションやリソースグループなどの複数のソースをクラウドに登録する必要がある場合は、Azure Multiple オプションを使用します。詳細については、次のドキュメントを参照してください。
データソースが登録されると、同じソースがさまざまなチームまたは部署によって異なる方法で使用されている場合に備えて、同じソースを複数回スキャンできます。

データソースを登録するための階層を定義する方法の詳細については、「コレクションアーキテクチャのベストプラクティス」を参照してください。

スキャン

次の設計上の考慮事項と推奨事項は、スキャンプロセスに関連する重要な手順に基づいて編成されています。

設計上の考慮事項

データソースが登録されたら、自動でセキュリティで保護されたメタデータのスキャンとキュレーションを管理するためのスキャンを設定します。
スキャンのセットアップには、スキャンの名前、スキャンのスコープ、統合ランタイム、スキャントリガーの頻度、スキャンルールセット、およびリソースセットの構成が、スキャン頻度ごとにデータソースごとに一意に行われます。
資格情報を作成する前に、データソースの種類とネットワーク要件を検討してください。この情報は、シナリオに必要な認証方法と統合ランタイムを決定するのに役立ちます。

設計に関する推奨事項

関連するコレクションにソースを登録したら、スキャンを設定するときにここに示されている順序を計画して従います。このプロセス順序は、予期しないコストとやり直しを回避するのに役立ちます。

スキャンの準備中に従う順序を示すスクリーンショット。

システムの組み込みの分類規則から分類要件を特定します。または、必要に応じて、特定のカスタム分類ルールを作成することもできます。特定の業界、ビジネス、または地域の要件に基づいて作成します。この要件は、すぐには使用できません。
- 分類のベストプラクティスを参照してください。
- カスタム分類と分類ルールを作成する方法を参照してください。
スキャンを構成する前に、スキャンルールセットを作成します。

スキャンルールセットを作成するときは、次の点を確認します。
- スキャンするデータソースに対して、システムの既定のスキャン規則セットで十分かどうかを確認します。それ以外の場合は、カスタムスキャンルールセットを定義します。
- カスタムスキャンルールセットには、システムの既定値とカスタムの両方を含めることができるため、スキャン対象のデータ資産に関連しないオプションをクリアします。
- 必要に応じて、不要な分類ラベルを除外するカスタムルールセットを作成します。たとえば、システムルールセットには、米国だけでなく、惑星の一般的な政府コードパターンが含まれています。データは、"ベルギーの運転免許証番号" など、他の種類のパターンと一致する場合があります。
- 煩雑にならないように、カスタム分類ルールを 最も重要 で 関連する ラベルに制限します。アセットにタグ付けされたラベルが多すぎないようにします。
- カスタム分類またはスキャンルールセットを変更すると、フルスキャンがトリガーされます。再作業やコストのかかるフルスキャンを回避するために、分類とスキャンルールセットを適切に構成します。
  
  注:
  
  ストレージアカウントをスキャンすると、Microsoft Purview は、定義されたパターンのセットを使用して、資産のグループがリソースセットを形成するかどうかを判断します。リソースセットパターンルールを使用して、Microsoft Purview がリソースセットとしてグループ化されている資産を検出する方法をカスタマイズまたはオーバーライドできます。また、ルールによって、カタログ内での資産の表示方法も決定されます。詳細については、「リソースセットパターンルールの作成」を参照してください。この機能にはコストに関する考慮事項があります。詳細については、価格に関するページを参照してください。
登録済みデータソースのスキャンを設定します。
- スキャン名: 既定では、Microsoft Purview では SCAN -[A-Z][a-z][a-z] という名前付け規則が使用されます。これは、実行したスキャンを特定する場合には役に立ちません。意味のある名前付け規則を使用してください。たとえば、スキャン 環境-source-frequency-time に DEVODS-Daily-0200 という名前を付けます。この名前は、0200 時間の毎日のスキャンを表します。
- 認証: Microsoft Purview では、ソースの種類に応じて、データソースをスキャンするためのさまざまな認証方法が提供されます。 Azure クラウド、オンプレミス、サードパーティのソースを使用できます。認証方法の最小特権原則に従って、次の優先順位に従います。
  - Microsoft Purview MSI - マネージドサービス ID (Azure Data Lake Storage Gen2 ソースなど)
  - ユーザー割り当てマネージド ID
  - サービスプリンシパル
  - SQL 認証 (たとえば、オンプレミスまたはAzure SQL ソースの場合)
  - アカウントキーまたは基本認証 (SAP S/4HANA ソースなど)
  詳細については、資格情報を管理するためのハウツーガイドを参照してください。
  
  注:
  
  ストレージアカウントに対してファイアウォールが有効になっている場合は、スキャンを設定するときにマネージド ID 認証方法を使用する必要があります。新しい資格情報を設定する場合、資格情報名には 文字、数字、アンダースコア、ハイフンのみを含めることができます。
- 統合ランタイム
  - 詳細については、「ネットワークアーキテクチャのベストプラクティス」を参照してください。
  - セルフホステッド統合ランタイム (SHIR) が削除された場合、それに依存する進行中のスキャンは失敗します。
  - SHIR を使用する場合は、スキャンするデータソースのメモリで十分であることを確認します。たとえば、SAP ソースのスキャンに SHIR を使用すると、"メモリ不足エラー" と表示される場合は、次のようになります。
    - SHIR マシンに十分なメモリがあることを確認します。推奨される量は 128 GB です。
    - スキャン設定で、使用可能な最大メモリを適切な値 (100 など) として設定します。
    - 詳細については、「 SAP ECC Microsoft Purview のスキャンと管理」の前提条件を参照してください。
- スコープスキャン
  - スキャンのスコープを設定する場合は、詳細レベルまたは親レベルで関連する資産のみを選択します。この方法により、スキャンコストが最適であり、パフォーマンスが効率的になります。親が完全または部分的にチェックされている場合、特定の親の下のすべての将来の資産が自動的に選択されます。
  - 一部のデータソースの例を次に示します。
    - データベースまたはData Lake Storage Gen2 Azure SQLの場合は、データソースの特定の部分にスキャンのスコープを設定できます。フォルダー、サブフォルダー、コレクション、スキーマなど、リスト内の適切な項目を選択します。
    - Oracle、Hive メタストアデータベース、Teradata ソースの場合、エクスポートするスキーマの特定のリストは、SQL LIKE 式を使用してセミコロンで区切られた値またはスキーマ名パターンを使用して指定できます。
    - Google Big クエリでは、エクスポートするデータセットの特定のリストをセミコロンで区切って指定できます。
    - AWS アカウント全体のスキャンを作成する場合は、スキャンする特定のバケットを選択できます。特定の AWS S3 バケットのスキャンを作成するときに、スキャンする特定のフォルダーを選択できます。
    - Erwin の場合は、Erwin モデルロケーター文字列のセミコロン区切りのリストを指定することで、スキャンのスコープを設定できます。
    - Cassandra の場合、エクスポートするキースペースの特定のリストは、セミコロンで区切られた値または SQL LIKE 式を使用してキースペースの名前パターンを使用して指定できます。
    - Looker の場合、スキャンの範囲を指定するには、セミコロンで区切られた Looker プロジェクトの一覧を指定します。
    - Power BI テナントの場合は、個人用ワークスペースを含めるか除外するかを指定するだけです。
  - 一般に、ワイルドカード (データレイクなど) に基づいてサポートされている "無視パターン" を使用して、一時、構成ファイル、RDBMS システムテーブル、バックアップテーブルまたは STG テーブルを除外します。
  - ドキュメントや非構造化データをスキャンする場合は、そのようなドキュメントの膨大な数をスキャンしないようにします。スキャンでは、このようなドキュメントの最初の 20 MB が処理され、スキャン期間が長くなる可能性があります。
- スキャンルールセット
  - スキャンルールセットを選択するときは、先ほど作成した関連システムまたはカスタムスキャンルールセットを必ず構成してください。
  - カスタムファイルタイプを作成し、それに応じて詳細を入力できます。現在、Microsoft Purview では、カスタム区切り記号でサポートされている文字は 1 つだけです。実際のデータで ~などのカスタム区切り記号を使用する場合は、新しいスキャンルールセットを作成する必要があります。
- スキャンの種類とスケジュール
  - スキャンプロセスは、完全スキャンまたは増分スキャンを実行するように構成できます。
  - ビジネス以外またはピーク時以外の時間帯にスキャンを実行して、ソースに対する処理オーバーロードを回避します。
  - で繰り返しを開始 するには、 スケジュールスキャン時間より少なくとも 1 分短くする必要があります。それ以外の場合は、次回の繰り返しでスキャンがトリガーされます。
  - 初期スキャンはフルスキャンであり、後続のスキャンはすべて増分です。後続のスキャンは、定期的な増分スキャンとしてスケジュールできます。
  - スキャンの頻度は、データソースまたはビジネス要件の変更管理スケジュールと一致している必要があります。例:
    - ソース構造が毎週変更される可能性がある場合は、スキャン頻度を同期する必要があります。変更には、追加、変更、または削除された資産内の新しい資産またはフィールドが含まれます。
    - 分類ラベルまたは秘密度ラベルが、規制上の理由から、週単位で最新であることが予想される場合は、スキャン頻度を毎週にする必要があります。たとえば、パーティションファイルがソースデータレイクに毎週追加される場合は、毎月のスキャンをスケジュールできます。メタデータに変更がないため、毎週のスキャンをスケジュールする必要はありません。この提案では、新しい分類シナリオがないことを前提としています。
    - スキャンが作成された日と同じ日に実行されるようにスケジュールする場合、開始時刻は少なくとも 1 分前のスキャン時刻である必要があります。
    - スキャンを実行できる最大期間は 7 日間です。メモリの問題が原因である可能性があります。この期間は、インジェストプロセスを除外します。 7 日後に進行状況が更新されていない場合、スキャンは失敗としてマークされます。現在、インジェスト (カタログへの) プロセスにはそのような制限はありません。
- スキャンの取り消し
  - 現在、スキャンをキャンセルまたは一時停止できるのは、スキャンをトリガーした後にスキャンの状態が "キューに入っている" 状態に移行した場合のみです。
  - 個々の子スキャンの取り消しはサポートされていません。

注意すべき点

スキャンの実行後にフィールドまたは列、テーブル、またはファイルがソースシステムから削除された場合、次にスケジュールされた完全スキャンまたは増分スキャンの後にのみ Microsoft Purview に反映 (削除) されます。
資産は、資産の名前の下にある [削除 ] アイコンを使用して、Microsoft Purview カタログから削除できます。このアクションでは、ソース内のオブジェクトは削除されません。同じソースでフルスキャンを実行すると、カタログに再び取り込まれます。代わりに週単位または月単位のスキャン (増分) をスケジュールした場合、オブジェクトがソースで変更されない限り、削除された資産は選択されません。たとえば、列がテーブルに追加または削除された場合です。
Microsoft Purview ガバナンスポータルを使用してデータ資産または基になるスキーマを 手動で 編集した後の後続のスキャンの動作を理解するには、「カタログ資産の詳細」を参照してください。
詳細については、資産を表示、編集、削除する方法に関するチュートリアルを参照してください。

次の手順

データソースを管理する

Share via

Microsoft Purview スキャンのベストプラクティス

データソースを管理するためにベストプラクティスが必要な理由

ソースを登録し、接続を確立する

設計上の考慮事項

設計に関する推奨事項

スキャン

設計上の考慮事項

設計に関する推奨事項

注意すべき点

次の手順

フィードバック

フィードバック

その他のリソース

Share via

Microsoft Purview スキャンのベスト プラクティス

データ ソースを管理するためにベスト プラクティスが必要な理由

ソースを登録し、接続を確立する

設計上の考慮事項

設計に関する推奨事項

スキャン

設計上の考慮事項

設計に関する推奨事項

注意すべき点

次の手順

フィードバック

フィードバック

その他のリソース

Microsoft Purview スキャンのベストプラクティス

データソースを管理するためにベストプラクティスが必要な理由