Microsoft Purview 数据治理以Microsoft Purview 统一目录和Microsoft Purview 数据映射为特色,可提供全面的可见性、数据信心和负责任的创新,帮助组织在 AI 时代实现更大的业务价值。 使用管理运行状况数据的示例,按照本文中的步骤作,以帮助你了解如何设置统一目录并使用其功能为组织构建健全的数据治理实践。
步骤 1:在 统一目录 中设置治理域
治理域是建立数据责任制的关键,并且有助于在整个公司内联合治理这些数据。 创建治理域时,请从适当的所有者开始,确保可以有效地识别数据资产中所有数据的专家并与之协作。 治理域可以是许多不同的类型,以便与管理该数据的团队的数据边界类型保持一致。 例如:功能域 (财务、人力资源、销售) 或 (产品、客户、健康) 的数据域。
先决条件
授予权限并生成第一个治理域
使用具有 角色管理 角色 (管理员帐户的凭据登录到 Microsoft Purview 门户,例如 Purview 管理员) 。 转到 “设置 > 角色和范围” 以查看和管理。
选择 “角色组”。
在 “Microsoft Purview 解决方案的角色组 ”页上,选择“ 数据治理 ”角色组。
在 “编辑角色组成员 ”页上,选择“ 选择用户 ”或“ 选择组”。
选择要添加到角色组的所有用户或组的检查框。
选择 “选择”。
在“统一目录”中,依次选择“目录管理”、“治理域”。
在 “治理域 ”页上,可以设置目录的其余部分,使其他人能够联合数据所有权,使团队能够扩展其知识,并建立数据的业务价值。
- 首先选择“ 新建治理域”。
- 可以更新治理域的名称。 在本教程中,将其命名为“) 个人健康教程 (”,并说明“个人健康数据是指在医疗保健领域收集和使用的任何与个人身体或心理健康相关的信息。 此数据可以包括各种类型,例如医疗记录、治疗史、诊断图像和实验室测试结果。 它通常受到各种法律和法规的保护,以确保隐私和机密性。
- 选择类型作为“数据域”。
- 如果父域是目录中的第一个治理域,则 (父域不具有父) 。
- 选择“创建”。
- 现在,请自行再创建两个域。 这些域是组织中协作和治理的联合的关键点。 实施统一目录时,请考虑谁可能是域的所有者。
- 可以遵循以下示例:
- 公司功能域表示整个公司使用的高度受控资产和术语。 - Sales 是大多数组织作为“企业”子域的功能域。
- 首先选择“ 新建治理域”。
选择创建的治理域。
选择治理域的“ 角色 ”选项卡。
默认情况下,创建治理域时,会添加到治理域中的所有角色。 作为治理域所有者,可以在域) 中添加数据专员 (业务专家,而数据产品所有者 (谁知道哪些数据资产最适合他人使用) 。
切换回 “详细信息 ”选项卡。
选择“ 管理策略 ”以应用域级别策略。 此策略适用于域中的所有数据产品。 通过启用策略的自动应用,数据专家也不必是策略专家。
在 “管理访问策略 ”选项卡中,选中 “允许数据复制 ”旁边的复选框。通过选择此策略选项,它会自动应用证明,要求所有请求访问数据产品的用户证明他们了解数据的数据复制策略。
选择“ 保存更改” 以确认策略是由治理域设置的。
在治理域上选择“ 发布 ”,这将发布域中的所有其他概念。
创建术语表术语
向治理域添加术语表术语可帮助其他人了解业务如何使用和解释数据。 术语表术语还确保见解使用常见术语,并且通常使用整个治理领域的知识。
在治理域的页面上,找到术语表术语卡并选择“查看所有”。
在 “术语表术语” 页上,选择“ 新建术语”。
输入详细信息:1.名称:“爆发”。
- 描述:一种影响或有可能影响大部分人口的疾病。
- 现在可以将其余部分留空,但有一些字段要收集:负责为公司定义术语的术语所有者,用于共享术语名称的首字母缩略词,最后,你可以提供指向资源的链接,这些资源将包含有关该术语的详细信息。
选择“创建”。
选择“ 管理策略”。 与域级别策略类似,可以创建术语级别策略,这些策略适用于任何使用该术语的位置。
选中 “需要经理审批”旁边的框。 当请求访问数据产品时,此策略在Microsoft Entra ID 中强制用户经理进行辅助审批。
为创建的“爆发”术语选择“ 发布 ”。 已发布的术语在统一目录中是可筛选的,并确保使用该术语描述其数据产品的其他用户在浏览数据产品时可以在统一目录中看到该说明。
现在再创建两个术语。 这一次,选择“爆发”术语作为创建的术语的父术语。 尝试在任一术语的相关选项卡中构建这些子术语之间的关系,以帮助构建这些术语如何协同工作以解释整个主题的网络。
- 大流行:一种全球疫情,影响多个国家/地区或大洲的许多人。
- 流行:一种全国性或区域性的疾病暴发,具有高度传染性,影响很大一部分人口。
尝试在之前创建的任何其他域中创建几个其他术语。 如果不确定要添加的内容,请选择“ 获取建议术语 ”,让生成 AI 根据已提供域的说明和名称提出一些建议。
添加 OKR
为个人健康域添加 OKR (目标和关键结果) ,以帮助其他人了解数据的业务价值。 此步骤在数据与它提供的业务价值之间建立直接连接。
从“治理域”页中选择 “OKR ”框。
选择“ 新建 OKR”。
首先输入目标的详细信息:
- 目标:通过使患者有效接种疫苗,降低大流行风险。
- 所有者:输入姓名
- 目标日期:“2024-12-31”
选择“创建”。
将关键结果添加到目标,使目标可衡量,并监视实现目标的进度。 选择 “添加密钥结果”。
输入密钥结果详细信息:
- 关键成果:确保最有可能受大流行影响的 80% (>65 岁) 年龄较大的年龄组在 2024 日历年底前接受全面疫苗接种。
- 进度状态:按进度
- 进度金额:70
- 目标金额:80
- 最大金额:100
选择“创建”。
选择“发布”。
创建关键数据元素
(个人健康中的 CDE) 创建关键数据元素,以确保最重要的数据列具有一致的定义和理解。 CDE 始终满足业务对数据形成和存储方式的期望。
- 在选择了“个人运行状况”域的“治理域”页中,选择“ 关键数据元素 ”框。
- 选择“ 新建关键数据元素”。
- 输入基本 CDE 元数据:
- 名称:年龄组
- 说明:用于确保所需分析报告的常见人员年龄分组遵循其他人可以依赖的引用,并删除单个年龄以提高数据的匿名性。 年龄组分为八组: <2岁、2-4岁、5-11岁、12-17岁、18-24岁、25-49岁、50-64岁、65+岁。
- 所有者:输入姓名
- 预期数据类型:文本
- 选择“创建”。
CDE 的真正功能在于,它直接映射到存储此数据的物理数据列。 此连接可确保达成共识,并支持大规模评估数据质量规则和策略。
在刚刚创建的 CDE 中,选择“ 添加列”。
从数据湖的黄金容器中搜索 Covid 19 疫苗和病例趋势 数据资产
选择 “Covid 19 疫苗和案例趋势 ”资产的框(而不是名称)。
提示
如果选择资产的蓝色名称,则会打开一个新窗口,其中显示资产详细信息。
选择 AgeGroupVacc 列旁边的单选按钮。
选择“添加”。
选择刚刚创建的 CDE 顶部的“ 数据质量 ”选项卡,将数据质量规则应用于 CDE。 这类似于为术语表术语和治理域添加策略的方式。
选择“新建规则”
选择 “数据类型匹配项”
输入规则名称:确认年龄组格式
选择“创建”。
在 CDE 上选择“ 发布 ”
此 CDE 现在会自动将数据质量规则应用于使用 Covid 19 疫苗和病例趋势资产的每个数据产品,你将在下一部分看到此规则。
- 尝试在其他域中创建几个其他 CDE。 下面是一些想法:
- 销售:收入和卖家名称
- 公司:产品 ID
步骤 2:在数据映射中设置和注册数据
如果没有可用于扫描的数据源,请按照以下步骤完全部署Azure Data Lake Storage (ADLS Gen2) 示例。
提示
如果与 Microsoft Purview 帐户在同一租户中已有数据源,请继续执行本部分的下一部分以扫描资产。
在房地产数据领域,你会发现许多不同的系统用于不同的数据应用程序。 在 Fabric 和 Snowflake 等报表环境中,团队使用数据副本来生成分析解决方案并为报表和仪表板提供支持。 有一些作数据系统支持应用程序团队或客户用于完成业务流程,这些业务流程基于在此过程中做出的决策收集或添加数据。
若要创建更真实的数据资产,请在目录中显示许多数据源,这些数据源可以涵盖任何公司可能具有的不同数据用途的广度。 支持用例所需的数据类型可能与需要报表和仪表板的业务用户大相径庭,分析师需要符合的维度和事实来生成报表,数据科学家或数据工程师需要直接从收集数据的系统的原始源数据。 所有这些以及更多功能使不同的用户能够看到在同一位置查找、理解和访问数据的重要性。
有关将数据添加到资产的其他一些教程,请按照以下指南作:
- Fabric Lakehouse 教程 - 提供报告环境的基础
- Azure SQL数据库 (示例) - 提供了一个结构良好的作数据存储示例
先决条件
- Azure 中的订阅: 立即创建 Azure 免费帐户
- 租户的Microsoft Entra ID:Microsoft Entra ID 治理
- Microsoft Purview 帐户和 管理员权限 (如果创建了 Microsoft Purview 帐户) ,则这是默认权限。
- 所有资源;Microsoft Purview,数据源和Microsoft Entra ID 必须位于同一云租户中。
设置数据资产
A. 创建和填充存储帐户
- 按照以下指南创建存储帐户:为 Azure Data Lake Storage Gen2 创建存储帐户
- 为新的数据湖创建容器:
- 转到存储帐户的 “概述 ”页。
- 选择“数据存储”部分下的“ 容器 ”选项卡。
- 选择“ 容器”。
- 将容器命名为“bronze”,然后选择“ 创建”。
- 重复这些步骤以创建“黄金”容器。
- 从 data.gov 下载一些示例 CSV 数据:按年龄组划分的 Covid-19 疫苗接种和病例趋势,美国
- 将 CSV 上传到创建的存储帐户中名为“bronze”的容器。
- 选择名为“bronze”的容器,然后选择“ 上传”。
- 浏览保存 CSV 的位置,然后选择 “Covid-19_Vaccination_Case _Trends ”文件。
- 选择“上传”。
B. 创建Azure 数据工厂
此步骤演示了数据如何在奖牌数据湖的层之间移动,并确保数据采用使用者希望使用的标准化格式。 此步骤是运行数据质量的先决条件。
按照本指南创建Azure 数据工厂:创建Azure 数据工厂
使用以下Azure 数据工厂指南:使用映射数据流转换数据,将数据从“bronze”容器中的数据作为 Delta 格式表复制到“gold”容器
在创建的 ADF 资源的“概述”选项卡上选择“启动工作室”,从Azure 门户打开Azure 数据工厂 ( ADF) 体验。
在 ADF 工作室中选择“ 创作 ”选项卡。
选择 + 命令,然后选择“ 数据流”。
将数据流命名为“CSVtoDeltaC19VaxTrends”。
在空框中 选择“添加源 ”。
将“源设置”设置为:
- 输出流名称:“C19csv”
- 说明:留空
- 源类型:内联
- 内联数据集类型:带分隔符的文本
- 链接服务:选择存储 csv 的数据湖
将“源选项”设置为:
- 文件模式:文件
- 文件路径:/bronze/ Covid-19_Vaccination_Case _Trends
- 不允许找到任何文件:保持未选中状态
- 更改数据捕获:保留未选中状态
- 压缩类型:无
- 编码:默认 (UTF-8)
- 列分隔符:逗号 (,)
- 行分隔符:默认 (\r、\n 或\r\n)
- 引号字符:双引号 (“)
- 转义字符:反斜杠 ()
- 第一行作为标题:CHECKED
- 将其余部分保留为默认值
根据创建的源选择 “下一步 ”,然后选择“ 接收器”。
创建接收器,在其中存储数据的格式和位置,以便将数据从“bronze”中的 csv 移动到“gold”中的增量表。
- 设置接收器值 (将所有设置保留为默认值,除非) 指定。
- 接收器类型:内联。
- 内联数据集类型:增量。
- 链接服务:与源中使用的数据湖相同,因为你存储在不同的容器中。
设置设置值 (将所有设置保留为默认值,除非指定)
- 文件夹路径:gold/Covid19 疫苗和病例趋势。
输入值,因为此名称是你想要存储数据的方式,并且不存在要选择的名称。
选择“ 验证”。 此作检查数据流,并提供修复任何错误的说明。
选择“ 全部发布”。
选择 + 命令,然后选择“ 管道”。
将管道命名为“CSV 到 Delta C19 Vax 趋势”。
选择在前面步骤 CSV 到 Delta (C19VaxTrends) 中创建的数据流,并将其拖放到打开的管道选项卡上。
选择“ 验证”。
选择“发布”。
选择“ 调试 ” (使用活动运行时) 来运行管道。
提示
如果遇到空格错误或增量格式不适当的字符,请打开下载的 CSV 并更正。 然后重新上传并覆盖青铜区域中的 CSV。 然后重新运行管道。
导航到数据湖中的黄金容器,现在应会看到在管道期间创建的新 Delta 表。
扫描资产
如果尚未将数据资产扫描到数据映射中,请按照以下步骤填充数据映射。
扫描数据资产中的源会自动收集数据资产的元数据, (这些源中的表、文件、文件夹、报表等) 。 注册数据源并创建扫描时,可以建立对目录中出现的源和资产的技术所有权。 还可以控制谁可以访问 Microsoft Purview 中的哪些元数据。 在域级别注册和存储源和资产时,将其存储在访问层次结构的最高级别。 通常,最好创建一些集合,在其中扫描资产元数据并为该数据建立正确的访问层次结构。
-
为 Microsoft Purview 托管标识 (MSI 提供读取者访问权限,) 数据湖或其他数据存储。
提示
MSI 是 Microsoft Purview 实例的帐户名称。
如果选择使用 Fabric 或 SQL,请使用以下指南提供访问权限:
注册数据湖并扫描资产
在“数据映射”的“域”选项卡下,选择域 的角色分配 , (它是Microsoft Purview 帐户的名称) :
- 将自己添加为数据源管理员和数据策展人到域。
- 选择“数据源管理员”角色旁边的人员图标。1. 在Microsoft Entra ID 中搜索姓名, (可能需要输入完全如Microsoft Entra ID) 中拼写的完整名称。
- 选择“确定”。
- 为数据策展人重复这些步骤。
- 将自己添加为数据源管理员和数据策展人到域。
注册数据湖:
- 选择“数据源”选项卡。
- 选择“注册”。
- 选择Azure Data Lake Storage Gen2存储类型。
提供连接的详细信息:
- 订阅 (可选)
- 数据源名称 (这是 ADLS Gen2 源) 的名称
- 应在其中存储资产元数据的集合 (可选)
- 选择 “注册”
数据源注册完成后,可以配置扫描。 注册表示Microsoft Purview 已连接到数据源,并将其置于正确的集合中以获取所有权。 扫描从源读取元数据,并填充数据映射中的资产。
选择在“数据源”选项卡中注册的源
选择“新扫描”并提供详细信息:
- 对此扫描使用默认集成运行时
- 凭据应Microsoft Purview MSI (系统)
- 扫描级别为自动检测
- 选择集合或使用域 (集合必须是注册数据源的同一集合或子集合)
- 选择“继续”
提示
此时,将测试连接以验证是否可以完成扫描。 如果未授予 Microsoft Purview MSI 读取器对数据源的访问权限,则失败。 如果你不是数据源所有者或没有用户访问权限参与者,扫描会失败,因为它要求你有权创建连接。
现在,仅选择将增量表放置在教程的“生成数据”部分中的容器“gold”。 此选择会阻止扫描数据存储中的任何其他数据资产。
- 黄金旁边应该只有一个蓝色检查,你可以在所有内容旁边保留检查,因为它将扫描完整的源,仍然创建我们将使用的资产等。
- 选择“ 继续”
在“选择扫描规则集”屏幕中,应使用默认扫描规则集。
选择“ 继续”
在设置扫描触发器中,你将设置扫描的频率,以便在继续将数据资产添加到湖的黄金容器时,它会继续填充数据映射。 选择“ 一次”。
选择 继续。
选择“ 保存并运行”。 此作会创建一个扫描,该扫描从数据湖的黄金容器读取元数据,并填充我们将在后续部分中统一目录中使用的表。 如果仅选择“保存”,则不会运行扫描,并且不会看到资产。 扫描运行后,会看到创建的扫描, 上次运行 状态为 “已排队”。 扫描读取完成后,你的资产已准备好用于下一部分。 此过程可能需要几分钟或数小时,具体取决于源中的资产数量。
步骤 3:发布数据产品
创建数据产品对于确保组织能够发现正确的数据至关重要。 数据产品有助于防止过度管理数据资产中价值低或无价值的数据,因为它没有用途或价值有限。 当数据专家发布数据产品时,可以激活最有价值的数据,并根据该价值构建适当的治理级别。 策展技术团队不知道其业务目的的资产,或试图管理复杂且不断增长的数据资产中的所有内容,会导致额外的时间和生产力下降,从而追查可能永远不会使用或可能只是从资产中删除的数据的详细信息。 相反,请关注具有价值且人们需要发现和构建更多价值的数据片段。 随着团队使用更多数据并更好地了解所需内容,你可以创建更有用的数据产品来满足这些需求。 治理可以进行调整,以确保它始终根据数据的价值和敏感度保持正确的大小。
先决条件
- 成为你正在使用 的治理域的数据产品所有者 。
- 在数据映射中具有数据资产。 否则,请参阅 本教程的第 2 部分 添加一些内容。
- 发布治理域以发布数据产品。 如果没有,请参阅 本教程的第 1 部分 来创建一个。
创建和发布数据产品
选择“统一目录”。
依次选择“ 目录管理 ”和“ 治理域”。
在 “治理域 ”页中,选择“个人运行状况”域。
选择“业务概念”下的“转到数据产品”。
在这里,称为数据产品所有者的数据专家将识别组织中其他人打算使用的数据资产,并提供必要的信息来使其可用。
选择“ 新建数据产品”。
提供有关数据产品的详细信息:1.名称:“按年龄分的 Covid-19 疫苗接种和病例趋势”1。描述:“这些数据来自疾病预防控制中心,作为美国卫生部 & 人类服务部的一部分。 这些数据包含美国国家一级按年龄组分列的疫苗接种和病例趋势。 数据按至少一剂进行分层,并完全接种疫苗。 数据还代表所有疫苗合作伙伴,包括司法管辖区合作伙伴诊所、零售药店、长期护理设施、透析中心、联邦紧急事务管理局和卫生资源与服务管理局合作伙伴站点,以及联邦实体设施。
- 类型:数据集
- 选择 下一步。
- 用例:
This data is provided for public use and is intended to help understand the trends of vaccination up take and new cases by different age groups. The ages are banded into two groups ranging from <2 years to 65+ years. Similarly the trends are provided in daily numbers that provide seven day average of new cases by age group. - 标记为 “已选中”,标记为“已认可 ”。
- 选择“保存”。
现在,你已生成了数据产品的基本元数据。接下来,添加一些属性并映射数据映射中的资产。
选择 “添加数据资产”。
可以看到扫描到数据映射中的资产,包括数据源的所有文件夹和层。
搜索添加到数据湖黄金容器的 Covid19 疫苗和病例趋势 资产,然后选择此资源集。
选择“添加”。 可以根据需要为数据产品选择任意数量的资产,但此处只需要一个。
提示
选择“ 获取建议 ”,以便从数据映射中的资产中选择生成 AI 帮助,并从减少的结果列表中选择“Covid19 疫苗和病例趋势”。
现在可以看到添加到数据产品的资产。
选择术语表术语标题旁边的 “添加 术语”。
选择之前创建的“爆发”术语,然后选择“ 添加”。
现在,应会看到映射到数据产品的资产中年龄组的关键数据元素。
选择 OKR 标题旁边的“添加 OKR”。
选择“通过启用有效的患者疫苗使用来降低大流行风险”。 它是在第 一部分中创建的目标。
管理数据产品访问请求策略
在页面顶部,发布数据产品之前的最后一步是选择“ 管理策略”。 在这里,可以通过选择并提供要审批的名称来配置访问策略和请求访问工作流。 还可以使用“ 继承的策略 ”选项卡查看针对之前应用的数据副本证明的治理域策略。 对于来自疫情术语表术语的 经理批准 ,情况相同。
选择“ 管理策略 ”选项卡。
在 “访问时间限制”下,提供访问请求在需要续订之前多长时间的详细信息。 将此值设置为授予长达一年的访问权限。
在框中,输入 1。
在下拉列表中选择年份。
在“审批要求”下,在“审批者”框中提供你的姓名。 (它需要Microsoft Entra ID.) 中注册的名称
注意
无需检查经理批准,因为该策略继承自爆发术语表术语。
选择 “预览请求窗体 ”,查看请求访问时目录使用者查看的内容。 你会看到需要数据副本证明和经理批准,因为它们是由治理域和术语表术语设置的。
选择“保存更改”。
映射数据资产并配置访问策略后,即可将数据产品发布到目录。
在数据产品上选择“ 发布 ”。
尝试在之前创建的其他域中创建利润报表
- 利润报表,类型:仪表板/报表。
- 产品母版,类型:Maser 数据和参考数据。
注意
可以向这些资产添加多个资产,并查看具有许多资产的数据产品的外观。 将数据产品添加到任何域中的术语,以查看如何使用术语表使用一组一致的术语来描述数据。
步骤 4:运行数据质量
现在,目录中提供了数据产品,运行数据质量规则会告知所有人数据状态良好,可供使用。 在了解有关数据的详细信息时,请添加新的数据质量规则,以确保它适用于所有用例。 确保数据产品的质量最高有助于建立对数据的信任,并向其他人展示你正在监视和改进数据。 随着数据价值的增加,你需要更密切地监视和控制该数据的质量。 管理不善的数据质量问题可能会导致重大负面影响。
先决条件
- 数据质量规则只能在 ADLS Gen2 和 Microsoft Fabric 中的增量格式表上运行。
- 必须启用来自 Microsoft Purview 的托管标识才能读取数据源,因为它是目前唯一受支持的数据质量凭据。
- 必须在运行数据质量的治理域中具有数据质量 专员角色 。
- 你必须是所有者或具有对要连接数据质量扫描的数据源的用户访问管理员访问权限,以确保对数据进行适当的安全授权。
- 必须具有 数据配置文件管理员角色 才能对数据运行配置文件。
创建并运行数据质量规则
选择“统一目录”。
选择“ 数据管理 ”下的“ 数据质量”选项卡。
选择在 第 1 节中创建的个人健康域。
选择“管理”,然后选择“Connections”。 建立此连接时,可以对该治理域中的数据源运行数据质量扫描。 此步骤可防止团队在未经适当授权的情况下访问数据知识。
在连接屏幕上选择“ 新建 ”以创建新连接:1。输入显示名称“个人运行状况 ADLSg2 DQ”。
- 选择Azure Data Lake Storage Gen2的源类型。
- 输入第 2 节中创建的数据源的详细信息。
注意
凭据必须Microsoft Purview MSI (系统) 才能进行数据质量连接。
- 选择“ 测试连接”。
- 测试连接后,选择“ 提交”。
- 输入第 2 节中创建的数据源的详细信息。
- 选择Azure Data Lake Storage Gen2的源类型。
建立连接后,即可运行配置文件并开始构建数据质量规则。 此步骤可确保了解业务规则和适当规则的专家在最重要的数据产品上运行。
- 返回到“数据质量”页。
- 选择“个人运行状况治理”域。
- 选择第 3 部分内置的“按年龄排序的 Covid-19 疫苗接种和病例趋势”数据产品。
- 选择添加到数据产品的资产。 (它必须采用 第 2 部分 的增量格式,否则数据质量不会) 运行。
- 将数据质量规则应用于数据列,以衡量它是否符合质量预期:
- 在所选资产上选择“ 规则 ”选项卡。
- 选择“ 新建规则”。
- 选择“空/空白字段规则”。
- 输入详细信息:
- 从列下拉列表中选择 AgeGroupVacc 列
- 规则名称:确认疫苗接种年龄组存在
- 选择“创建”。
- 选择“ 新建规则”。
- 选择“ 数据类型匹配”。
- 输入详细信息。
- 选择“日期”“管理列”。
- 选择“创建”。
- 选择“ 运行数据质量扫描”。
配置文件数据
为数据创建配置文件,以查看每列的高级统计信息,并发现可能需要新规则的任何异常。
- 在“统一目录”中,依次选择“运行状况管理”、“数据质量”。
- 选择“ 配置文件数据”。
- 选中 “列名称” 旁边的顶部框以分析所有列。 系统会建议要分析哪些列,你可以选择你知道值得分析的列,以帮助防止对高度敏感数据或已知数据进行稀疏填充的配置文件。
- 选择 “运行配置文件”。
扫描完成后,可以查看新数据产品的数据质量分数和配置文件。 目录的所有用户都可以看到数据质量分数,因此每个人都知道数据的状态。
为数据质量扫描创建计划,以确保持续监视数据质量问题。 设置警报,确保在使用者受到影响之前解决数据质量问题。
- 在 “运行状况管理”下,选择“ 数据质量”。
- 选择配置数据质量规则的“个人运行状况”域。
- 从 “管理 ”下拉列表中,选择“ 计划的扫描”。
- 在 “计划的扫描 ”页上,选择“ 新建”。
- 添加 概述 详细信息
- 名称:个人健康 DQ 月度评估
- 说明:每月扫描 DQ 规则以持续改进。
- 选择“ 继续”
- 选择扫描范围
- 选中 按年龄排序的 Covid-19 疫苗接种和病例趋势 数据产品旁边的框
- 选择“ 继续”
- 计划扫描,确保扫描在每个月的最后一天运行
- 选择 “定期”
- 重复周期:每一个月
- 月份天数:最后一天
- 计划扫描时间 (UTC) :12:00:00
- 在 UTC) (开始定期:保留为默认值
- 选择“ 继续”
- 查看扫描的详细信息,以查看在保存之前是否要进行任何更改。
- 选择“保存”。 由于之前触发了手动扫描,因此现在无需触发另一次扫描。 如果需要新的扫描,请选择“ 保存并运行”。
配置警报
在计划扫描数据质量后,可以设置警报以通知管理员有关问题,或者当数据质量问题或扫描失败需要注意时。 为失败的扫描和分数降低超过 5% 时配置数据质量警报。
- 返回到 “数据质量 ”页上的“个人运行状况”域。
- 从 “管理 ”下拉列表中,选择“ 警报”。
- 选择 新建。
- 输入警报详细信息
- 显示名称:个人健康 DQ 每月扫描
- 说明:确保最低 DQ 阈值满足使用者预期。
- 目标:分数减少超过
- 阈值:5
- 关闭通知:保持未选中状态
- 打开质量扫描失败通知:保持选中状态
- 收件人:输入姓名
- 选择 继续。
提示
在 统一目录 中实现时,请向管理员发送警报,他们可将问题通知使用者,并与数据的技术所有者协作进行更正。
在本部分结束时,你将有一个运行统一目录作数据质量,用于管理你向组织数据使用者提供的数据。 一切设置都是为了向使用者获取最有价值的数据,并建立他们所使用的数据的信任。 随着数据价值的增长和新的数据策略的出现,下一部分介绍如何管理整个目录,或者使用主数据更深入地进行特定的数据管理。
步骤 5:主数据管理
主数据管理 (MDM) 是遵循最重要的数据实体的做法,这些实体必须准确、独特且一致地应用于业务的所有领域,因为此数据中的错误和问题可能会影响整个业务。 通过我们的 MDM 合作伙伴之一,你可以将所选的 MDM 解决方案与 Microsoft Purview 集成,以实现数据统一、标准化和清理,从而创建黄金记录并将主数据作为数据产品发布。
按照此处的教程获取所选解决方案: Microsoft Purview 中的主数据管理
步骤 6:管理数据运行状况
在统一目录的运行状况管理领域,中央数据办公室和其他数据经理可以根据公司标准评估数据的状态,并有效地管理其战略进度。 为了确保公司中的每个人都知道他们可以做些什么来增加其数据的价值,必须了解标准,并使其可扩展到整个组织,而无需让每个人都成为数据治理专家。 从现用的行业标准控件集开始,每个数据办公室都可以自定义控件以满足其期望,并确保它与其数据目标保持一致。 这些控制措施的有效性的关键不仅在于衡量这些标准,而且还要确保负责数据的人员能够自行采取行动,并负责做出影响数据价值的改进。 在“数据资产运行状况”中,可以设置和管理所有这些关键功能。
先决条件
- 统一目录 中发布的数据产品、术语表术语和其他业务概念。 可以按照前面的部分创建以下概念:
- 自数据产品管理以来至少 24 小时。
- 必须在 统一目录 中具有数据运行状况所有者角色。
使用数据资产运行状况评估数据治理
选择“统一目录”。
在左侧导航的 “数据资产运行状况 ”下,选择“ 运行状况控件”。
选择“值创建”控件组旁边的胡萝卜>。
将鼠标悬停在控件标题上时,选择铅笔图标以编辑控件。 通过编辑控件,可以更改控件的阈值,以设置分数的预期值,并设置颜色评分以演示进度阶段。
通过这些详细信息,你可以提供控件的说明,以及它对组织的意义,并为特定控件设置所有者。
选择控件的“ 规则 ”选项卡以更改阈值。 此设置的目标较高,如果它不正常,则进行跟进至关重要。
- 继承自组:切换以关闭 (应) 灰色。
- 目标分数:90
- 选择“ 新建规则”。
- 将分数旁边的框设置为 GreaterThanOrEqual
- 将百分比设置为 90
- 状态 = 运行状况 (绿色)
- Else Box 状态 = 严重 (紫色)
- 选择“保存”。
在“数据资产运行状况”下,选择“ 元数据质量”。
在这里,可以更改或添加创建控件分数的规则。 在这里,你想要更改 “价值创建 ”作的严重性,以确保所有用户都知道此作的重要性。
- 选择 “配置严重性”
- 选择 “值创建” 控件组
- 选择 业务 OKR 对齐控件 标题
- 将严重性从“中”更改为“高”,然后选择“ 保存”
- 选择“ 运行状况作 ”选项卡
- 筛选器分配给: 到你的姓名
- 选择一个作,你可以看到作的所有者需要执行哪些作以确保满足治理预期,或者他们可以分配一个新的所有者来获得最好的专家来提供他们的输入。 还有一种状态,可让其他人知道哪些工作正在进行中,以及哪些其他作可能需要确定优先级。
步骤 7:数据大众化
数据大众化使用户能够以合规的方式查找和访问所需的数据。 它确保人们可以找到构建业务价值所需的数据。 统一目录提供简单明了的数据发现体验。 它使专员能够大规模更新和管理目录中提供的数据。 在本部分中,你将了解用户如何查找和请求对数据的访问权限,并确保相应的审批者能够跟踪这些访问请求并提供输入。
先决条件
- 至少完成了步骤 1-4:
- 一个治理域中的目录读取者角色
发现数据产品
- 在“统一目录”中,依次选择“发现”、“数据产品”。
- 在 “数据产品 ”页上,使用搜索栏按年龄搜索疫苗接种率。
- 在这里,你将看到你在 第 2 节中发布的数据产品。 此视图显示用户如何仅查看适合他们的数据,并防止用户必须导航高度技术的数据资产。
- 按 年龄选择 Covid-19 疫苗接种和病例趋势 数据产品
- 在这里,使用者可以看到你提供的元数据,以及你在安装过程中配置的任何其他属性。 数据质量分数也在这里,因此消费者甚至在访问数据之前就知道质量。
- 选择资产,使用者可以查看数据资产中可用的所有列。
- 选择“爆发”术语表术语,使用者可以查看有关该术语的说明和其他信息,以便更深入地了解数据。
- 一旦使用者确信想要使用该数据,他们需要获得对数据的批准访问权限。
- 选择 “请求访问权限”
- 填写表单详细信息以提交请求。
- 用户:保留你的姓名
- 经理审批:自动要求并定向到Microsoft Entra ID 管理器。
- 目的:选择目的
- 业务理由:OKR 监视
- 选中证明旁边的框,表示你了解使用此数据的预期。
- 选择“ 发送”。
访问请求现在以MICROSOFT ENTRA ID 发送到列出的管理器。 在这里,经理可以通过打开电子邮件并选择链接或进入 purview Microsoft 来访问请求。 可以直接在 Microsoft Purview 中审批和管理访问权限。
- 在“统一目录”中,依次选择“目录管理”、“请求”。
- 选择“ 个人运行状况 ”域。
- 选择提交的请求。
- 现在,审批者可以通过对请求选择“ 响应 ”来批准或拒绝。