在 Microsoft Purview 中连接和管理 Teradata
本文概述了如何注册 Teradata,以及如何在 Microsoft Purview 中对 Teradata 进行身份验证和交互。 有关 Microsoft Purview 的详细信息,请阅读 介绍性文章。
支持的功能
元数据提取 | 完整扫描 | 增量扫描 | 作用域扫描 | 分类 | 标记 | 访问策略 | 血统 | 数据共享 | 实时视图 |
---|---|---|---|---|---|---|---|---|---|
是 | 是 | 否 | 是 | 是 | 否 | 否 | 是的* | 否 | 否 |
* 除了数据源中资产的世系之外,如果数据集用作 数据工厂 或 Synapse 管道中的源/接收器,也支持沿袭。
支持的 Teradata 数据库版本为 12.x 到 17.x。
扫描 Teradata 源时,Microsoft Purview 支持:
提取技术元数据,包括:
- 服务器
- Databases
- 包含列、外键、索引和约束的表
- 包含列的视图
- 存储过程,包括参数数据集和结果集
- 包含参数数据集的函数
提取表和视图之间的资产关系的静态世系。
设置扫描时,可以选择扫描整个 Teradata 服务器,或将扫描范围限定为与给定名称 () 或名称模式 () 匹配的数据库子集。
已知限制
从数据源中删除对象时,当前后续扫描不会自动删除 Microsoft Purview 中的相应资产。
扫描所需的权限
Microsoft Purview 支持基本身份验证 (用户名和密码) 扫描 Teradata。 用户应为下面列出的每个系统表授予 SELECT 权限:
grant select on dbc.tvm to [user];
grant select on dbc.dbase to [user];
grant select on dbc.tvfields to [user];
grant select on dbc.udtinfo to [user];
grant select on dbc.idcol to [user];
grant select on dbc.udfinfo to [user];
为了检索视图列的数据类型,Microsoft Purview 会为每个视图查询发出 prepare 语句 select * from <view>
,并分析包含数据类型详细信息的元数据,以提高性能。 它需要对视图具有 SELECT 数据权限。 如果缺少权限,将跳过视图列数据类型。
对于分类,用户还需要对表/视图具有读取权限才能检索示例数据。
先决条件
具有活动订阅的 Azure 帐户。 免费创建帐户。
有效的 Microsoft Purview 帐户。
需要数据源管理员和数据读取者权限才能在 Microsoft Purview 治理门户中注册和管理源。 有关权限的详细信息,请参阅 Microsoft Purview 中的访问控制。
设置最新的 自承载集成运行时。 有关详细信息,请参阅 创建和配置自承载集成运行时指南。
确保在安装了自承载集成运行时的计算机上安装 了 JDK 11 。 在新安装 JDK 后重启计算机,使其生效。
确保在自承载集成运行时计算机上安装Visual C++ 可再发行程序包 (版本 Visual Studio 2012 Update 4 或更高版本) 。 如果未安装此更新, 可以在此处下载。
在运行自承载集成运行时的计算机上下载 Teradata JDBC 驱动程序 。 记下用于设置扫描的文件夹路径。
注意
自承载集成运行时应可以访问驱动程序。 默认情况下,自承载集成运行时使用本地服务帐户“NT SERVICE\DIAHostService”。 确保它具有驱动程序文件夹的“读取和执行”和“列出文件夹内容”权限。
注册
本部分介绍如何使用 Microsoft Purview 治理门户在 Microsoft Purview 中注册 Teradata。
注册步骤
通过以下方式打开 Microsoft Purview 治理门户:
- 直接浏览并选择 https://web.purview.azure.com Microsoft Purview 帐户。
- 打开Azure 门户,搜索并选择 Microsoft Purview 帐户。 选择 Microsoft Purview 治理门户 按钮。
在左侧导航中选择“ 数据映射 ”。
选择 “注册”
在“注册源”上,选择“ Teradata”。 选择“ 继续”
在“ 注册源 (Teradata) ”屏幕上,执行以下操作:
输入数据源将在目录中列出的名称。
输入 主机名 以连接到 Teradata 源。 它也可以是服务器的 IP 地址。
选择集合或创建新集合 (可选)
完成以注册数据源。
扫描
按照以下步骤扫描 Teradata 以自动识别资产。 有关一般扫描的详细信息,请参阅 扫描和引入简介。
创建并运行扫描
在“管理中心”中,选择“ 集成运行时”。 确保已设置自承载集成运行时。 如果未设置,请使用 此处 提到的步骤设置自承载集成运行时
在 Microsoft Purview 治理门户的左窗格中选择“数据映射”选项卡。
选择已注册的 Teradata 源。
选择 “新建扫描”
提供以下详细信息:
名称:扫描的名称
通过集成运行时进行连接:选择配置的自承载集成运行时。
凭据:选择要连接到数据源的凭据。 请确保:
- 创建凭据时选择“基本身份验证”。
- 在“用户名输入”字段中提供用于连接到数据库服务器的用户名
- 将数据库服务器密码存储在密钥中。
若要详细了解凭据,请参阅此处的链接
架构:以分号分隔列表的形式列出要导入的数据库子集。 例如:
schema1; schema2
。 如果该列表为空,则导入所有用户数据库。 例如,默认忽略所有系统数据库 (SysAdmin) 和对象。使用 SQL LIKE 表达式语法的可接受数据库名称模式包括使用 %。 例如:
A%; %B; %C%; D
- 从 A 或 开始
- 以 B 或 结尾
- 包含 C 或
- 等于 D
不允许使用 NOT 和特殊字符
驱动程序位置:指定计算机中运行自主机集成运行时的 JDBC 驱动程序位置的路径,例如
D:\Drivers\Teradata
。 它是有效 JAR 文件夹位置的路径。 请确保自承载集成运行时可以访问驱动程序,有关详细信息,请参阅 先决条件部分。存储过程详细信息:控制从存储过程导入的详细信息数:
- 签名:存储过程的名称和参数。
- 代码、签名:存储过程的名称、参数和代码。
- 世系、代码、签名:存储过程的名称、参数和代码,以及派生自代码的数据世系。
- 无:不包括存储过程详细信息。
最大可用内存: 客户 VM 上可供扫描进程使用的最大内存 () GB。 这取决于要扫描的 Teradata 源的大小。
注意
作为经验法则,请为每 1000 个表提供 2GB 内存
选择 继续。
选择用于分类的 扫描规则集 。 可以在系统默认规则集和现有自定义规则集之间进行选择,也可以内联 创建新的规则集 。
选择 扫描触发器。 可以设置计划或运行扫描一次。
查看扫描并选择“ 保存并运行”。
查看扫描和扫描运行
查看现有扫描:
- 转到 Microsoft Purview 治理门户。 在左窗格中,选择“ 数据映射”。
- 选择数据源。 可以在“最近扫描”下查看该数据源上的现有 扫描列表,也可以在“扫描”选项卡上查看所有 扫描 。
- 选择要查看的结果的扫描。 窗格显示之前的所有扫描运行,以及每个扫描运行的状态和指标。
- 选择运行 ID 以检查扫描运行详细信息。
管理扫描
若要编辑、取消或删除扫描,请执行以下操作:
转到 Microsoft Purview 治理门户。 在左窗格中,选择“ 数据映射”。
选择数据源。 可以在“最近扫描”下查看该数据源上的现有 扫描列表,也可以在“扫描”选项卡上查看所有 扫描 。
选择要管理的扫描。 然后,可以:
- 通过选择“编辑扫描 ”来编辑扫描。
- 选择“取消扫描运行”, 取消正在进行的扫描。
- 通过选择“删除扫描” 来删除扫描。
注意
- 删除扫描不会删除从以前的扫描创建的目录资产。
- 如果源表已更改,并且你在 Microsoft Purview 的“ 架构 ”选项卡上编辑说明后重新扫描源表,则资产将不再使用架构更改进行更新。
血统
扫描 Teradata 源后,可以 浏览数据目录 或 搜索数据目录 以查看资产详细信息。
转到“资产 -> 世系”选项卡,可以看到资产关系(如果适用)。 有关支持的 Teradata 世系方案,请参阅支持 的功能 部分。 有关世系的一般信息,请参阅 数据世系 和 世系用户指南。
后续步骤
注册源后,请按照以下指南详细了解 Microsoft Purview 和数据。