Microsoft Purview でデータ ソースをスキャンする
- [アーティクル]
-
-
Microsoft Purview では、 データ ソースを登録した後、ソースをスキャンして技術的なメタデータをキャプチャし、スキーマを抽出し、データに分類を適用できます。
この記事では、データ ソースをスキャンするための基本的な手順について説明します。
Microsoft Purview で現在登録およびスキャンできるすべてのソースの一覧を次に示します。
データ ソースをスキャンする前に、次の手順を実行する必要があります。
-
データ ソースを登録する - これは基本的に、データ ソースのアドレスを Microsoft Purview に提供し、Microsoft Purview データ マップ内のコレクションまたはドメインにマップします。
- ネットワークを検討し、 シナリオに適した統合ランタイム構成を選択します。
- ソースへの接続に使用する資格情報を検討します。 すべての ソース ページ には、[ スキャン ] セクションがあり、使用可能な認証の種類に関する詳細が含まれます。
次の手順では、例として Azure Blob Storage を使用し、Microsoft Purview マネージド ID を使用して認証します。
重要
これらはスキャンを作成するための一般的な手順ですが、 ソース固有の 事前要求とスキャンの手順についてはソース ページを参照する必要があります。
Microsoft Purview ポータルを開き、[データ マップ] ->[データ ソース] に移動して、登録されているソースをマップ ビューまたはテーブル ビューで表示します。
ヒント
データ マップに多数の登録済みソースがある場合、テーブル ビューのパフォーマンスが高くなることがあります。
ソースを見つけて、[ 新しいスキャン ] アイコンを選択します。
スキャンの [名前] を指定します。
認証方法を選択します。 ここでは、Purview MSI (マネージド ID) を選択しました。
スキャンの現在のドメイン、コレクション、またはサブ コレクションを選択します。 選択したコレクションまたはドメインには、スキャン中に検出されたメタデータが格納されます。
注意
スキャンは常に登録済みソースと同じドメインに存在しますが、サブコレクションを選択できます。
[ 接続のテスト] を選択します。 成功しない場合は、「トラブルシューティング」セクションを参照してください。 接続に成功したら、[続行] を選択 します。
ソースに応じて、スキャンの範囲を特定のデータのサブセットにすることができます。 Azure Blob Storageの場合は、リスト内の適切な項目を選択することで、フォルダーとサブフォルダーを選択できます。
スキャン ルール セットを選択します。 スキャン ルール セットには、スキャンでチェックされるデータ分類の種類が含まれています。 システムの既定値 (ソースで使用できるすべての分類が含まれます)、organization内の他のユーザーによって行われた既存のカスタム ルール セット、またはインラインで新しいルール セットを作成することができます。
注意
選択できるのは、ソースが登録されているドメインに関連付けられている資格情報とスキャン ルール セットのみです。
スキャン トリガーを選択します。 スケジュールを設定することも、スキャンを 1 回実行することもできます。 サポートされている スケジュール オプションの詳細については、こちらをご覧ください。
スキャンを確認し、[ 保存して実行] を選択します。
スキャンを設定するときは、1 回/オンデマンドで実行するか、定期的なスケジュールで実行するかを選択できます。 次のスケジュール オプションを構成できます。
-
タイム ゾーン: スキャン スケジュールを調整するタイム ゾーンを選択します。 選択したタイム ゾーンで夏時間が表示される場合、トリガーは差分を自動的に調整します。
-
繰り返し: 毎日、 毎週、または 毎月 のスキャンの繰り返しを選択できます。
-
毎日の繰り返し: 繰り返しを X 日ごとに設定し、その日のスキャン開始時刻を指定します。
-
[週単位の繰り返し]: [繰り返し] を [X 週ごと] に設定し、週の 1 つまたは複数の日を選択し、その日のスキャン開始時刻を指定します。
-
毎月の繰り返し: 繰り返しを X か月ごとに設定し、月の日数または平日を選択し、月の 1 つまたは複数の日/平日を選択し、その日のスキャン開始時刻を指定します。
-
[開始の繰り返し] : スキャン スケジュールが開始されるタイミングを設定します。
-
繰り返しの終了日を指定する (省略可能): 一定の時間が経過した後にスキャンを停止する場合は、[チェック] ボックスを選択して終了日を指定して、このオプションを有効にすることができます。
データ ソース内のデータ量によっては、スキャンの実行に時間がかかる場合があるため、進行状況をチェックし、スキャンが完了したときに結果を確認する方法を次に示します。
スキャンは、コレクション、ドメイン、またはソース自体から表示できます。
コレクションまたはドメインから表示するには、データ マップの [コレクション ] または [ドメイン] に移動し、[ スキャン ] ボタンを選択します。
スキャン名を選択して詳細を表示します。
または、コレクションまたはドメイン内のデータ ソースに直接移動し、[詳細の表示] を選択してスキャンの状態をチェックすることもできます。
スキャンの詳細は、前回の実行状態でのスキャンの進行状況と、スキャンおよび分類された資産の数を示します。
スキャン全体が正常に実行されると、[ 最終実行] 状態 が [進行中 ] に更新され、[ 完了] に更新されます
スキャンが完了すると、そのスキャンを管理または再実行できます。
コレクションの一覧またはソース ページから [ スキャン名 ] を選択して、スキャンを管理します。
スキャンをもう一度実行し、スキャンを編集し、スキャンを削除できます
フル スキャンを実行すると、スコープ内のすべてのコンテンツがスキャンされますが、一部のソースでは 増分スキャン も使用できます。 増分スキャンでは、前回のスキャン以降に更新されたリソースのみがスキャンされます。 ソース ページで サポートされている機能 テーブルを確認して、最初のスキャン後にソースで増分スキャンを使用できるかどうかを確認します。
スキャンの接続の設定は、ネットワークと資格情報のカスタム 設定であるため、複雑になる可能性があります。
ソースに接続できない場合は、次の手順に従います。
-
ソース ページの前提条件を確認して、見逃したことがないことを確認します。
- ソース ページの [スキャン ] セクションで認証オプションを確認して、認証方法が正しく設定されていることを確認します。
- [ 接続のトラブルシューティング] ページを確認します。
-
サポート リクエストを作成して、サポート チームが特定の環境のトラブルシューティングを支援できるようにします。