你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

元数据标准

元数据管理在数据体系结构中发挥着至关重要的作用。 元数据是有关其他数据的数据。 它描述数据,提供用于帮助查找、保护和控制数据的参考。 元数据还将数据绑定在一起。 它可用于验证数据的完整性和质量、将数据路由或复制到新位置、转换数据以及了解数据含义。 元数据对于通过自助服务门户实现数据民主化也至关重要。

良好的元数据管理策略能够有机发展。 该策略一开始较为简单且规模较小,首先识别最重要的领域。 服务和清晰的流程也支持良好的元数据管理策略。 首先,最好了解不同的元数据类别:

  • 业务元数据 描述用于治理、查找和理解数据的所有方面。 一些众所周知的示例包括业务术语和定义以及有关数据所有权、使用和来源的信息。
  • 技术元数据描述数据在设计时的结构方面。 一些众所周知的示例包括架构信息、数据格式和协议信息,以及加密和解密密钥。
  • 操作元数据描述数据在运行时的处理方面。 一些众所周知的示例包括进程信息、执行时间、进程失败信息和作业 ID。
  • 社交元数据描述来自使用者的数据的用户视角。 一些众所周知的示例包括使用情况和用户跟踪信息、搜索结果数据、筛选和单击次数、查看时间、个人资料点击次数和评论。

在分散式数据体系结构中,元数据管理是一项组织挑战,需要在集中管理的元数据和联合管理的元数据之间找到平衡。 在规划元数据管理时,了解 Azure 中云规模分析的团队和职能非常重要。 使用协作数据管理实践可以改善团队之间的沟通、集成以及数据流自动化。 可以通过在中心治理和域所有权之间取得适当的平衡,以解决元数据管理的一些复杂性。

确定要集中管理哪些元数据或者将哪些元数据联合到数据域并开始实现时,请问自己:

  • 哪些业务元数据至关重要?
  • 互操作性需要哪些技术元数据?
  • 哪些流程和流捕获数据?
  • 在何处创建和维护模型或架构?
  • 哪些信息团队需要集中交付,使数据治理部门能够正常开展工作?

使用这些问题的回答,为每个元数据流绘制内容生命周期并确定所有依赖项。 然后,你将得到一个可以连接业务域、流程、技术和数据的元数据模型。

知道需要哪些元数据后,必须选择一个位置来存储和处理这些元数据。 可以使用 Azure Purview 执行此操作。

使用 Azure Purview 大规模管理数据资产

Azure Purview 是一种统一数据治理解决方案,可以帮助你管理和治理本地、多云和软件即服务 (SaaS) 数据。 它可以实现大规模元数据管理,因为它是一种全自动化服务,可以智能地执行数据发现、数据扫描和访问管理。 它还提供有关数据网格体系结构的许多见解的整体图。

实现 Azure Purview 时,不会快速引入过多的更改和复杂性。 技术元数据是 Azure Purview 的基础。 需要先收集并组织元数据,然后才能让它发挥作用。

获取元数据后,请从基本知识开始:

  • 业务术语
  • 权威数据源列表
  • 数据库列表
  • 架构信息
  • 数据所有权
  • 数据管理
  • 安全性

然后通过慢慢地让更多域所有者和数据专员参与进来,并添加更多分类和敏感度标签来进行扩展。 这些补充内容改善了搜索体验和数据访问管理。

对于自定义元数据属性,例如域和应用程序元数据的列表,请考虑在 Azure Purview 中创建额外的类型定义

对于面向域的体系结构,请使 Azure Purview 集合和术语表与数据域保持一致。 Azure Purview 集合用于组织资产和源。 可将集合用作资产和源的边界,并使其与特定的域保持一致。 可对术语表执行相同的操作。 在术语表中创建层次结构并使其与域保持一致。 要求域取得在术语表术语与集合属性之间创建关系的所有权。 这会建立数据所有权透明度并改善数据语义。

使用 Azure Cosmos DB 创建组织的知识图

行业中一种越发明显的趋势是通过密集使用更多元数据的门户,让数据分析师和科学家更接近数据见解。 这种趋势称为数据可观测性。 数据可观测性使用元数据湖、知识图或元数据图等概念来描述集中元数据的平台。 在使用分布式数据网格时,可以通过这种方式方便地构建统一的视图,以了解如何在整个组织中使用数据以及为数据溯源。

数据见解解决方案必须描述数据的使用方式以及源数据和数据产品等实体之间的关系,以及来自一个域的数据产品与来自另一个域的依赖产品之间的关系。 可以使用图形数据库或自定义用户界面对这些关系进行建模。

若要使用自定义用户体验构建组织数据的统一视图,请查看 Azure Cosmos DB。 Azure Cosmos DB 是具有 NoSQL 终结点的全球分布式多模型数据库服务。 它通过 Azure Cosmos DB for Apache Gremlin 提供图形数据库服务,用于存储具有数十亿个顶点和边缘的大型图形。

Azure Cosmos DB 体系结构的最终结果是一个组织范围的图形,它使用端到端上下文提供组织中所有数据的统一视图。 元数据湖不只是用于存储信息。 它还通过将元数据与其他服务和工具相连接,将元数据主动地组织为图形。 这种组织有序的图形允许交叉关联许多主题领域,包括:

  • 数据质量
  • 数据使用量
  • 业务功能
  • 应用程序功能
  • 技术体系结构信息
  • 操作事件
  • 组织元数据
  • 应用程序所有权元数据
  • 位置信息
  • 应用程序生命周期管理信息

后续步骤