你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
元数据标准
元数据管理在数据体系结构中发挥着至关重要的作用。 元数据是有关其他数据的数据。 它描述数据,提供用于帮助查找、保护和控制数据的参考。 元数据还将数据绑定在一起。 它可用于验证数据的完整性和质量、将数据路由或复制到新位置、转换数据以及了解数据含义。 元数据对于通过自助服务门户实现数据民主化也至关重要。
借助使用了更多元数据的门户,让数据分析师和科学家更容易获得数据见解,已成为业界日益明显的趋势。 这种趋势称为数据可观测性。 数据可观测性使用元数据湖、知识图或元数据图等概念来描述集中元数据的平台。 在使用分布式数据网格时,这是建立统一视图,了解数据在整个组织内的使用情况和来源的好方法。
良好的元数据管理策略能够有机发展。 该策略一开始较为简单且规模较小,首先识别最重要的领域。 服务和清晰的流程也支持良好的元数据管理策略。 首先,最好了解不同的元数据类别:
- 业务元数据描述了用于治理、查找和理解数据的所有方面。 一些众所周知的示例包括业务术语和定义以及有关数据所有权、使用和来源的信息。
- 技术元数据描述数据在设计时的结构方面。 一些众所周知的示例包括架构信息、数据格式和协议信息,以及加密和解密密钥。
- 操作元数据描述数据在运行时的处理方面。 一些众所周知的示例包括进程信息、执行时间、进程失败信息和作业 ID。
- 社交元数据描述来自使用者的数据的用户视角。 一些众所周知的示例包括使用情况和用户跟踪信息、搜索结果数据、筛选和单击次数、查看时间、个人资料单击次数和评论。
在分散式数据体系结构中,元数据管理是一项组织挑战,需要在集中管理的元数据和联合管理的元数据之间找到平衡。 在规划元数据管理时,了解 Azure 中云规模分析的团队和职能非常重要。 使用协作数据管理实践可以改善团队之间的沟通、集成以及数据流自动化。 可以通过在中心治理和域所有权之间取得适当的平衡,以解决元数据管理的一些复杂性。
在决定集中管理哪些元数据或将哪些元数据联合到数据域并开始实施时,请问一问自己:
- 哪些业务元数据至关重要?
- 互操作性需要哪些技术元数据?
- 哪些流程和流捕获数据?
- 在何处创建和维护模型或架构?
- 哪些信息团队需要集中交付,使数据治理部门能够正常开展工作?
使用这些问题的回答,为每个元数据流绘制内容生命周期并确定所有依赖项。 然后,你将得到一个可以连接业务域、流程、技术和数据的元数据模型。
知道需要哪些元数据后,必须选择一个位置来存储和处理这些元数据。 可以使用 Microsoft Purview 执行此操作。
使用 Microsoft Purview 管理大型数据资产
Microsoft Purview 是一种统一数据治理解决方案,可以帮助管理和治理本地、多云和软件即服务 (SaaS) 数据。 它可以大规模执行元数据管理,因为它是一项完全自动化的服务,可以智能地执行数据发现、数据扫描、数据质量和访问管理。 它还提供有关数据网格体系结构的许多见解的整体图。
Microsoft Purview 是一套全面的解决方案,可帮助组织治理、保护和管理数据(无论数据位于何处)。 Microsoft Purview 解决方案提供集成的覆盖范围,并有助于解决跨组织的数据碎片、阻碍数据保护和管理的可见性缺乏以及传统 IT 管理角色模糊的问题。
Microsoft Purview 将数据治理和合规性解决方案和服务合并为统一的平台,帮助组织:
- 了解整个组织中的数据
- 在生命周期内保护和管理敏感数据(无论数据位于何处)
- 以全新、全面的方式无缝治理数据
- 管理关键数据风险和法规要求
实施 Microsoft Purview 时,不要快速引入太多的变化和复杂性。 技术元数据是 Microsoft Purview 的基础。 需要先收集并组织元数据,然后才能让它发挥作用。
获取元数据后,请从基本知识开始:
- 业务术语
- 权威数据源列表
- 数据库列表
- 治理领域
- 架构信息
- 数据所有权
- 数据管理
- 安全性
- 数据质量
然后通过慢慢地让更多域所有者和数据专员参与进来,并添加更多分类和敏感度标签来进行扩展。 这些补充内容改善了搜索体验和数据访问管理。
Microsoft Purview 提供了一项称为“治理域”的功能,它为面向域的体系结构中的数据产品和业务概念的统一治理、所有权和发现建立了界限。 有关详细信息,请参阅 Microsoft Purview 中的治理域。
使用 Azure Cosmos DB 创建知识图
数据见解解决方案必须描述数据的使用方式以及源数据和数据产品等实体之间的关系,以及来自一个域的数据产品与来自另一个域的依赖产品之间的关系。 可以使用图形数据库或自定义用户界面对这些关系进行建模。
若要使用自定义用户体验构建组织数据的统一视图,请查看 Azure Cosmos DB。 Azure Cosmos DB 是具有 NoSQL 终结点的全球分布式多模型数据库服务。 它通过 Azure Cosmos DB for Apache Gremlin 提供图形数据库服务,可用于存储具有数十亿个顶点和边缘的大量图形。
Azure Cosmos DB 体系结构的最终结果是一个组织范围的图形,它使用端到端上下文提供组织中所有数据的统一视图。 元数据湖不只是用于存储信息。 它还通过将元数据与其他服务和工具相连接,将元数据主动地组织为图形。 这种组织有序的图形允许交叉关联许多主题领域,包括:
- 域
- 数据质量
- 数据使用量
- 业务能力
- 应用程序功能
- 技术架构信息
- 操作事件
- 组织元数据
- 应用程序所有权元数据
- 位置信息
- 应用程序生命周期管理信息