Microsoft Purview で Azure Synapse Analytics データ資産をカタログ化する
Azure Synapse Analytics は、クラウド規模の分析ワークロード向けプラットフォームであり、次のような複数のソースのデータを処理します。
- サーバーレスおよび専用 SQL プール内のリレーショナル データベース
- Azure Data Lake Storage Gen2 内のファイル
包括的なデータ分析ソリューションには、データ レイク内の多数のフォルダーとファイルを含めることができます。また、それぞれが複数のフィールドを持つ多数のテーブルがそれぞれに含まれている複数のデータベースも含めることができます。 データ アナリストにとって、Synapse Analytics ワークスペースに関連付けられたデータ資産を見つけて理解することは、分析やレポート作成を開始する前に、大きな課題となる可能性があります。
このシナリオで役立つのが Microsoft Purview で、"データ マップ" 内のデータ資産をカタログ化し、データ スチュワードがメタデータ、分類、特定分野の連絡先の詳細、およびデータを識別して理解するのに役立つその他の情報を追加できるようにします。
Microsoft Purview 向けにデータ アクセスを構成する
Azure Synapse ワークスペースで使用されるデータ レイク ストレージおよびデータベースでデータ資産をスキャンするには、Microsoft Purview に、データを読み取るための適切なアクセス許可が必要です。 実際には、これは、Microsoft Purview アカウントで使用されるアカウント (通常は、Microsoft Purview のプロビジョニング時に作成されるシステム割り当てマネージド ID) は、適切なロールベースのアクセス制御 (RBAC) ロールとデータベース ロールのメンバーである必要があることを意味します。
この図は、Microsoft Purview に、次のアクセスを許可するロール メンバーシップが必要であることを示しています。
- Azure Synapse ワークスペースへの読み取りアクセス (Azure サブスクリプションの Azure Synapse ワークスペース リソースの閲覧者ロールのメンバーシップによって実現されます)。
- スキャンされる各 SQL データベースへの読み取りアクセス (各データベースの固定データベース ロール db_datareader のメンバーシップによって実現されます)。
- データ レイク ストレージへの読み取りアクセス (データ レイクの Azure Data Lake Storage Gen2 コンテナーをホストする Azure Storage アカウントのストレージ BLOB データ閲覧者ロールのメンバーシップによって実現されます)。
ヒント
詳細情報:
- Microsoft Azure の RBAC の詳細については、「Azure ロールベースのアクセス制御 (Azure RBAC) とは」を参照してください。
- Azure Synapse Analytics SQL プールのデータベース レベルのロールの詳細については、「データベース レベルのロール」を参照してください。
このモジュールの後半の演習では、自分で Microsoft Purview データ アクセスをサポートするために RBAC と SQL データベース ロールのメンバーシップを割り当てる機会があります。
データ ソースの登録とスキャン
Microsoft Purview では、登録済みの "ソース" をスキャンして "コレクション" 内のデータ資産をカタログ化する "データ マップ" の作成がサポートされています。 コレクションは、Microsoft Purview アカウントのプロビジョニング時に作成されるルート コレクションの下に、関連するデータ資産の論理グループの階層を形成します。 Microsoft Purview ガバナンス ポータルを使用して、アカウント内のコレクションを作成および管理できます。
特定のデータ ソースの資産を含めるには、ソースをコレクションに登録する必要があります。 Microsoft Purview では、次のようなさまざまな種類のソースがサポートされています。
- Azure Synapse Analytics - Synapse Analytics ワークスペース内の 1 つ以上の SQL データベース。
- Azure Data Lake Storage Gen2 - データ レイク内のフォルダーとファイルをホストするために使用される BLOB コンテナー。
Azure Synapse Analytics ワークスペースで使用される資産をカタログ化するには、次に示すように、これらのソースの一方または両方をコレクションに登録します。
データ資産が格納されているソースを登録したら、各ソースをスキャンして、含まれている資産をカタログ化できます。 各ソースを対話形式でスキャンし、期間スキャンをスケジュールしてデータ マップを最新の状態に保つことができます。
ヒント
ソースの登録とスキャンの詳細については、「Microsoft Purview でのスキャンとインジェスト」を参照してください。
このモジュールの後半の演習では、Azure Synapse Analytics ワークスペースのソースを登録してスキャンする機会があります。
カタログ化されたデータ資産の表示と管理
各スキャンで登録済みソース内のデータ資産が検出されると、データ カタログ内の関連付けられたコレクションに追加されます。 次に示すように、Microsoft Purview ガバナンス ポータルでデータ カタログに対してクエリを実行して、データ資産を表示およびフィルター処理できます。
データ資産には、複数のレベルの登録済みデータ ストア内の項目が含まれます。 たとえば、Azure Synapse Analytics ソースの資産には、データベース、スキーマ、テーブル、個々のフィールドが含まれます。また、Azure Data Lake Storage Gen 2 ソースの資産にはコンテナー、フォルダー、ファイルが含まれます。
各資産のプロパティを表示および編集して、説明、エキスパート ヘルプの連絡先、その他の有用なメタデータなどのコンテキスト情報を追加できます。 また、データ資産は、データ フィールドの特定のパターンを一般的な種類のデータ (パスポート番号、クレジット カード番号など) と一致させる組み込みまたはカスタム分類を使用して分類することもできます。
ヒント
データ資産の分類の詳細については、「Microsoft Purview ガバナンス ポータルでのデータ分類」を参照してください。