Snowflake データ ソースをスキャンする場合、Microsoft Purview では、次のような技術的なメタデータの抽出がサポートされます。
- サーバー、データベース、スキーマ、およびテーブル (列を含む)。列、外部キー、および一意の制約を含むビュー。
- パラメーター データセットと結果セットを含むストアド プロシージャ。
- パラメーター データセットを含む関数。
- 列を含むパイプ、ステージ、ストリーム。
- タスクとシーケンス。
Microsoft Purview で Snowflake データをカタログするようにデータ マップ スキャンを構成する
Snowflake ソースを登録する
統合カタログで新しい Snowflake ソースを登録するには、次の手順に従います。
- Microsoft Purview ポータルにサインインします。
- [Data Map solution]\(データ マップ ソリューション\) カードを選択します。 Data Map ソリューション カードが表示されない場合は、[すべてのソリューションを表示] を選択し、[コア] セクションから [データ マップ] を選択します。
- [登録] を選択します。
- [ ソースの登録] で、[ Snowflake] を選択します。
データ マップ スキャンを設定する
- 登録されている Snowflake ソースを選択します。
- [+ 新しいスキャン] を選択します。
- 以下の詳細を指定します。
- 名前: スキャンの名前
- 統合ランタイム経由で接続する: シナリオに応じて、Azure 自動解決統合ランタイム、マネージド Virtual Network IR、または SHIR を選択します。
- 接続のホスト: スキャン中に Snowflake への接続を確立するために使用するエンドポイントを選択します。 サーバー URL、またはデータ ソースで構成した他のホストから選択できます。
- 資格情報: データ ソースに接続する資格情報を選択します。 次のことを確認してください。
- 資格情報の作成時に [基本認証] を選択します。
- [ユーザー名] 入力フィールドに、Snowflake への接続に使用するユーザー名を指定します。
- Snowflake への接続に使用するユーザー パスワードを秘密キーに格納します。
- Warehouse: 大文字と小文字を区別してスキャンを強化するために使用するウェアハウス インスタンスの名前を指定します。 資格情報で指定されたユーザーに割り当てられた既定のロールには、このウェアハウスに対する USAGE 権限が必要です。
- データベース: 大文字と小文字を区別してインポートする 1 つ以上のデータベース インスタンス名を指定します。 リスト内の名前をセミコロン (;)で区切ります。 たとえば、DB1 です。DB2。 資格情報で指定されたユーザーに割り当てられた既定のロールには、データベース オブジェクトに対する適切な権限が必要です。
- スキーマ: インポートするスキーマのサブセットをセミコロン区切りリストとして一覧表示します。
- [接続のテスト] を選択して設定を検証します (Azure Integration Runtimeを使用する場合に使用できます)。
- [続行] を選択します。
- 分類用のスキャン ルール セットを選択します。 システムの既定値、既存のカスタム ルール セット、または新しいルール セットをインラインで作成することができます。
- スキャンを確認し、[ 保存して実行] を選択します。
スキャンすると、Snowflake のデータ資産が統合カタログ検索で使用できるようになります。 Microsoft Purview で Snowflake に接続して管理する方法の詳細については、 こちらのドキュメントを参照してください。
重要
オブジェクトがデータ ソースから削除された場合、後続のスキャンでは、Microsoft Purview の対応する資産は自動的に削除されません。
データ品質スキャン用に Snowflake データ ソースへの接続を設定する
この時点で、スキャンされた資産はカタログ化とガバナンスの準備が整います。 スキャンした資産をガバナンス ドメイン Sele のデータ製品に関連付けます。 [データ品質] タブで、新しいAzure SQLデータベース接続を追加します。手動で入力したデータベース名を取得します。
Microsoft Purview ポータルで、統合カタログを開きます。
[ 正常性管理] で、[ データ品質] を選択します。
一覧からガバナンス ドメインを選択し、[管理] ドロップダウン リストから [Connections] を選択します。
[Connections] ページで接続を構成します。
- 接続名と説明を追加します。
- ソースの種類 Snowflake を選択します。
- サーバー名、ウェアハウス名、データベース名、スキーマ名、テーブル名を追加します。
- [認証方法 - 基本認証] を選択します。
- ユーザー名を追加します。
- 資格情報の追加:
- Azure サブスクリプションを追加する
- キー コンテナー接続
- シークレット名
- シークレット バージョン
- Snowflake が Azure Virtual Networkで実行されている場合は、[マネージド V-Net を有効にする] チェック ボックスをオンにします。
- [Azure リージョン] を選択します。
- リソース ID Private Link追加します。
- 完全修飾ドメイン名を追加します。
接続をテストして、動作することを確認します。 Virtual Networkを使用している場合、テスト接続機能はサポートされていません。
ターゲットの Snowflake プライベート リンクのリソース ID は、次の形式になります: /subscriptions/(subscription_id)/resourcegroups/az(region)-privatelink/providers/microsoft.network/privatelinkservices/sf-pvlinksvc-az(region)
。
- リージョン ID と完全修飾名を取得するには、
SYSTEM_WHITE_LIST
とSYSTEM_WHITE_LIST_PRIVATELINK
を実行して、パブリック ホストと許可リスト ホストのSNOWFLAKE_DEPLOYMENT
、SNOWFLAKE_DEPLOYMENT_REGIONLESS
、OCSP_CACHE
の値を取得します。 - サブスクリプション ID を取得するには、
ACCOUNTADMIN
としてSYSTEM$GET_SNOWFLAKE_PLATFORM_INFO()
を実行して、snowflake-vnet-subnet-ids 値を取得します。 Snowflake の Azure テナントのPrivate Linkのサブスクリプション ID は、ここから取得されます。
重要
- データ品質スチュワードは、データ品質接続を設定するために Snowflake への 読み取り専用アクセス権 を必要とします。
- Snowflake コネクタは 、https:// を受け入れられません。 データ ソース接続を構成するためにサーバー名を追加するときに、 https:// を削除します。
- パブリック アクセスが無効になっている場合は、Key Vaultの [信頼できる Microsoft サービスを許可する] チェック ボックスをオンにする必要があります。 これは、Snowflake ワークスペースではなく、Key Vaultにのみ必要です。
- Virtual Networkサポートは現在プレビュー段階であり、グローバルに利用できます。 このフェーズの柔軟性を維持するために、データ ガバナンス SKU に一時的に含まれています。 Virtual Network価格はまだ利用できないため、機能の一般公開前に行われる可能性があります。
Snowflake でのデータのプロファイリングとデータ品質スキャン
接続のセットアップが正常に完了したら、プロファイルを作成してルールを適用し、Snowflake でデータのデータ品質スキャンを実行できます。 以下のドキュメントで説明されているステップバイステップのガイドラインに従ってください。