在 Microsoft Purview 中连接到并管理 Cassandra

本文概述了如何注册 Cassandra,以及如何在 Microsoft Purview 中对 Cassandra 进行身份验证和交互。 有关 Microsoft Purview 的详细信息,请阅读 介绍性文章

支持的功能

元数据提取 完整扫描 增量扫描 作用域扫描 分类 标记 访问策略 血统 数据共享 实时视图

支持的 Cassandra 服务器版本为 3。x 或 4。x.

扫描 Cassandra 源时,Microsoft Purview 支持:

  • 提取技术元数据,包括:

    • 群集
    • Keyspaces
    • 包含列和索引的表
    • 具体化视图(包括列)
  • 提取表和具体化视图之间资产关系的静态世系。

设置扫描时,可以选择扫描整个 Cassandra 实例,或将扫描范围限定为与给定名称 () 或名称模式 () 匹配的键空间子集。

已知限制

从数据源中删除对象时,当前后续扫描不会自动删除 Microsoft Purview 中的相应资产。

先决条件

注意

如果数据存储不可公开访问 (如果数据存储限制从本地网络、专用网络或特定 IP 等 ) 的访问, 则需要配置自承载集成运行时才能连接到它

注册

本部分介绍如何使用 Microsoft Purview 治理门户在 Microsoft Purview 中注册 Cassandra

注册步骤

若要在数据目录中注册新的 Cassandra 服务器,请执行以下操作:

  1. 通过以下方式打开 Microsoft Purview 治理门户:

  2. 在左窗格中选择“ 数据映射 ”。

  3. 选择“注册”。

  4. “注册源 ”屏幕上,选择“ Cassandra”,然后选择“ 继续”:

    显示“注册源”屏幕的屏幕截图。

  5. “注册源 (Cassandra) ”屏幕上:

    1. 输入名称。 数据源将在目录中使用此名称。
    2. 在“ 主机 ”框中,输入运行 Cassandra 服务器的服务器地址。 例如,20.190.193.10。
    3. 在“ 端口 ”框中,输入 Cassandra 服务器使用的端口。
    4. 选择一个集合或创建一个新集合, (可选) 。 显示“ (Cassandra) ”屏幕的“注册源”的屏幕截图。
    5. 选择“注册”。

扫描

按照以下步骤扫描 Cassandra 以自动识别资产。 有关一般扫描的详细信息,请参阅 扫描和引入简介

创建并运行扫描

若要创建并运行新扫描,请执行以下操作:

  1. 如果服务器可公开访问,请跳到步骤 2。 否则,需要确保已配置自承载集成运行时:

    1. Microsoft Purview 治理门户中,转到管理中心,然后选择“ 集成运行时”。
    2. 确保自承载集成运行时可用。 如果未设置,请使用 此处 提到的步骤设置自承载集成运行时。
  2. Microsoft Purview 治理门户中,导航到 “源”。

  3. 选择已注册的 Cassandra 服务器。

  4. 选择“ 新建扫描”。

  5. 提供以下详细信息。

    1. 名称:指定扫描的名称。

    2. 通过集成运行时进行连接:如果服务器可公开访问,请选择 Azure 自动解析的集成运行时;如果配置的自承载集成运行时未公开可用,请选择该运行时。

    3. 凭据:配置 Cassandra 凭据时,请确保:

      • 选择“ 基本身份验证” 作为身份验证方法。
      • 在“ 用户名 ”框中,提供要为其建立连接的用户的名称。
      • 在密钥保管库的机密中,保存要为其建立连接的 Cassandra 用户的密码。

      有关详细信息,请参阅 Microsoft Purview 中的源身份验证凭据

    4. Keyspaces:指定要导入的 Cassandra 密钥空间的列表。 多个键空间必须用分号分隔。 例如,keyspace1;keyspace2。 当列表为空时,将导入所有可用的键空间。

      可以使用使用 SQL LIKE 表达式语法的键空间名称模式,包括 %。

      例如:A%;%B;%C%;D

      此表达式表示:

      • 以 A 开头或
      • 以 B 或 结尾
      • 包含 C 或
      • 等于 D

      不能使用 NOT 或特殊字符。

    5. 使用安全套接字层 (SSL) :选择 TrueFalse 以指定在连接到 Cassandra 服务器时是否使用安全套接字层 (SSL) 。 默认情况下,此选项设置为 False

    6. 使用自承载集成运行时) 时,最大可用内存 (适用:指定 VM 上可用于扫描进程的最大内存 () GB。 此值取决于要扫描的 Cassandra 服务器的大小。 扫描 Cassandra 源

  6. 选择“ 测试连接 ”以验证设置。

  7. 选择 继续

  8. 选择 扫描触发器。 可以设置计划或运行扫描一次。

  9. 查看扫描,然后选择“ 保存并运行”。

查看扫描和扫描运行

查看现有扫描:

  1. 转到 Microsoft Purview 治理门户。 在左窗格中,选择“ 数据映射”。
  2. 选择数据源。 可以在“最近扫描”下查看该数据源上的现有 扫描列表,也可以在“扫描”选项卡上查看所有 扫描
  3. 选择要查看的结果的扫描。 窗格显示之前的所有扫描运行,以及每个扫描运行的状态和指标。
  4. 选择运行 ID 以检查扫描运行详细信息

管理扫描

若要编辑、取消或删除扫描,请执行以下操作:

  1. 转到 Microsoft Purview 治理门户。 在左窗格中,选择“ 数据映射”。

  2. 选择数据源。 可以在“最近扫描”下查看该数据源上的现有 扫描列表,也可以在“扫描”选项卡上查看所有 扫描

  3. 选择要管理的扫描。 然后,可以:

    • 通过选择“编辑扫描 ”来编辑扫描
    • 选择“取消扫描运行”, 取消正在进行的扫描
    • 通过选择“删除扫描” 来删除扫描

注意

  • 删除扫描不会删除从以前的扫描创建的目录资产。
  • 如果源表已更改,并且你在 Microsoft Purview 的“ 架构 ”选项卡上编辑说明后重新扫描源表,则资产将不再使用架构更改进行更新。

血统

扫描 Cassandra 源后,可以 浏览数据目录搜索数据目录 以查看资产详细信息。

转到“资产 -> 世系”选项卡,可以看到资产关系(如果适用)。 有关支持的 Cassandra 世系方案,请参阅支持 的功能 部分。 有关世系的一般信息,请参阅 数据世系世系用户指南

Cassandra 世系视图

后续步骤

注册源后,请按照以下指南详细了解 Microsoft Purview 和数据。