设置 Snowflake 数据的数据质量

扫描 Snowflake 数据源时,Microsoft Purview 支持提取技术元数据,包括:

  • 服务器、数据库、架构和表,包括列;视图,包括列、外键和唯一约束。
  • 存储过程,包括参数数据集和结果集。
  • 函数,包括参数数据集。
  • 管道、阶段和流,包括列。
  • 任务和序列。

在 Microsoft Purview 中将数据映射扫描配置为编录 Snowflake 数据

注册 Snowflake 源

若要在 统一目录 中注册新的 Snowflake 源,请执行以下步骤:

  • 登录到 Microsoft Purview 门户
  • 选择数据映射解决方案卡。 如果未显示数据映射解决方案卡,请选择“查看所有解决方案”,然后从“核心”部分选择“数据映射”。
  • 选择“注册”。
  • “注册源”上,选择“ Snowflake”。

设置数据映射扫描

  • 选择已注册的 Snowflake 源。
  • 选择“+ 新建扫描”。
  • 提供以下详细信息:
    • 名称:扫描的名称
    • 通过集成运行时进行连接:根据方案选择 Azure 自动解决的集成运行时、托管虚拟网络 IR 或 SHIR。
    • 用于连接的主机:选择用于在扫描期间与 Snowflake 建立连接的终结点。 可以从服务器 URL 或数据源中配置的其他主机中进行选择。
    • 凭据:选择要连接到数据源的凭据。 请确保:
      • 创建凭据时选择“基本身份验证”。
      • 在“用户名”输入字段中提供用于连接到 Snowflake 的用户名。
      • 将用于连接到 Snowflake 的用户密码存储在密钥中。
    • 仓库:指定用于在大写情况下支持扫描的仓库实例的名称。 分配给凭据中指定的用户的默认角色必须对此仓库具有 USAGE 权限。
    • 数据库:指定要以大写形式导入的一个或多个数据库实例名称。 使用分号 (;) 分隔列表中的名称。 例如,DB1;DB2。 分配给凭据中指定的用户的默认角色必须对数据库对象具有足够的权限。
    • 架构:列出要导入的架构子集,表示为分号分隔列表。
  • 选择“测试连接”以验证使用 Azure Integration Runtime) 时可用的设置 (。
  • 选择 继续。
  • 选择用于分类的扫描规则集。 可以在系统默认规则集和现有自定义规则集之间进行选择,也可以内联创建新的规则集。
  • 查看扫描并选择“ 保存并运行”。

扫描后,Snowflake 中的数据资产将在统一目录搜索中可用。 有关如何在 Microsoft Purview 中连接和管理 Snowflake 的更多详细信息, 请遵循此文档。

重要

从数据源中删除对象后,后续扫描不会自动删除 Microsoft Purview 中的相应资产。

为数据质量扫描设置与 Snowflake 数据源的连接

此时,扫描的资产已准备好进行编目和治理。 将扫描的资产关联到治理域 Sele 中的数据产品。 在“数据质量”选项卡上,添加新Azure SQL数据库连接:获取手动输入的数据库名称。

  1. Microsoft Purview 门户中,打开统一目录

  2. “运行状况管理”下,选择“ 数据质量”。

  3. 从列表中选择治理域,然后从“管理”下拉列表中选择“Connections”。

  4. “Connections”页上配置连接:

    • 添加连接名称和说明。
    • 选择源类型 Snowflake
    • 添加服务器名称、仓库名称、数据库名称、架构名称和表名称。
    • 选择“身份验证方法 - 基本身份验证”。
    • 添加用户名。
    • 添加凭据:
      • 添加 Azure 订阅
      • Key Vault 连接
      • 机密名称
      • 机密版本
    • 如果 Snowflake 在 Azure 虚拟网络上运行,请选中“启用托管 V-Net”复选框。
    • 选择“Azure 区域”。
    • 添加专用链接资源 ID。
    • 添加完全限定的域名。
  5. 测试连接以确保它正常工作。 如果使用 虚拟网络,则不支持测试连接功能。

    显示如何设置雪花连接的屏幕截图。

    显示如何配置 snowflake 连接令牌的屏幕截图。

目标 Snowflake 专用链接的资源 ID 采用以下格式: /subscriptions/(subscription_id)/resourcegroups/az(region)-privatelink/providers/microsoft.network/privatelinkservices/sf-pvlinksvc-az(region)

  • 若要获取区域 ID 和完全限定的名称,请运行 SYSTEM_WHITE_LISTSYSTEM_WHITE_LIST_PRIVATELINK 获取公共主机和OCSP_CACHE允许列表主机的 SNOWFLAKE_DEPLOYMENTSNOWFLAKE_DEPLOYMENT_REGIONLESS和 值。
  • 若要获取订阅 ID,请运行 以SYSTEM$GET_SNOWFLAKE_PLATFORM_INFO()ACCOUNTADMIN获取 snowflake-vnet-subnet-ids 值。 从中获取 Snowflake Azure 租户专用链接的订阅 ID。

重要

  • 数据质量专员需要对 Snowflake 具有 只读 访问权限才能设置数据质量连接。
  • Snowflake 连接器不接受 https://。 添加服务器名称以配置数据源连接时删除 https://
  • 如果禁用了公共访问,则需要选中“允许受信任的Microsoft服务”复选框进行密钥保管库。 这仅适用于密钥保管库,而不适用于 Snowflake 工作区。
  • 虚拟网络支持目前为预览版,可在全球范围内提供。 它暂时包含在数据治理 SKU 中,以保持此阶段的灵活性。 虚拟网络定价尚不可用,可能在功能正式发布之前进行定价。

Snowflake 中数据的分析和数据质量扫描

成功完成连接设置后,可以在 Snowflake 中分析、创建和应用规则,并运行数据质量扫描。 遵循以下文档中所述的分步指南:

参考文档