你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

云规模分析数据管理登陆区域概述

数据管理登陆区域是一种管理功能,是云规模分析的核心。 它负责管理你的分析平台。

Diagram of data management landing zone overview.

你的数据管理登陆区域是一个单独的订阅,具有相同的标准 Azure 登陆区域服务。 它允许通过爬网程序对数据进行数据治理(爬网程序连接到数据登陆区域中的数据湖和多语言存储)。 虚拟网络对等互连将你的数据管理登陆区域连接到你的数据登陆区域和连接订阅。

使用此体系结构作为起点。 下载 Visio 文件,并在计划数据管理登陆区域实现时根据特定的业务和技术要求对其进行修改。

注意

Polyglot 持久性是一个存储术语,用于描述不同数据存储/数据存储技术之间的选择,以支持各种数据类型及其存储需求。 本质上,polyglot 持久性是应用程序可以使用多个核心数据库或存储技术的概念。

重要

数据管理登陆区域必须部署为具有适当治理的管理组下的单独订阅。 然后,你可以控制整个组织的治理。 Azure 登陆区域加速器说明了应该如何处理 Azure 登陆区域。

数据目录

资源组:governance-rg

该数据目录在一个集中位置注册和维护数据信息,并使其可供组织使用。 它可确保企业避免由不同项目团队引入冗余数据而导致的重复数据产品。

建议你预配一个数据目录服务,以定义存储在整个数据登录区域中的数据产品的元数据。

云规模分析依赖于 Microsoft Purview 充当:

  • 注册系统
  • 企业数据源发现
  • 数据分类引擎
  • 策略存储
  • 用于注册和读取数据信息的 API
  • 合规性仪表板中心

由于数据目录是数据管理登陆区域的一部分,因此它可以通过其虚拟网络 (VNet) 对等互连和自承载集成运行时与每个数据登陆区域进行通信。 本地存储区和其他公有云中的数据产品是通过部署更多自承载集成运行时发现的。

注意

虽然本文档主要侧重于使用 Microsoft Purview 实现数据目录功能和数据分类,但企业可能投资了 Alation、Okera 或 Collibra 等其他产品。 如果是这种情况,请与供应商合作,尽快应用针对数据管理登陆区域描述的原则。 请注意,可能需要进行一些自定义集成。

有关详细信息,请参阅云规模分析的数据目录和 Microsoft Purview 部署最佳做法。

数据质量管理

资源组:governance-rg2

继续处理当前的解决方案。

应该尽可能在靠近数据源的地方管理数据质量,以避免在分析和 AI 资产中重复出现质量问题。 将质量指标和验证转移到数据集成,使质量流程与最接近数据的团队保持一致。 这些团队对数据资产有最深入的了解。

数据世系还提供数据质量置信度,并应提供给所有数据集和产品。

有关数据质量管理的更多信息,请参阅数据质量

数据建模存储库

资源组:governance-rg2

你应该在数据管理登陆区域的中心位置捕获和存储实体关系模型。 这为数据消费者提供了一个查找概念图的地方。

许多客户在引入之前使用 ER StudioiServer 对其数据产品进行建模。

主数据管理

资源组:governance-rg2

主数据管理控制驻留在数据管理登陆区域内。 数据网格中的主数据管理包含你应该为数据网格调用的特定注意事项。

许多主数据管理解决方案与 Microsoft Entra ID 完全集成。 可以通过集成保护数据,并为不同的用户组提供不同的视图。

有关详细信息,请参阅主数据管理系统

API 目录

资源组:governance-rg2

你的数据应用程序团队可能会为其数据应用程序创建各种 API。 在整个组织中很难发现这些 API。 将 API 目录放在数据管理登陆区域中可解决此问题。

API 目录可帮助标准化文档,并为 API 的内部协作提供场所。 它还可以推动整个组织的使用、发布和治理控制。

数据共享和协定

资源组:governance-rg2

云规模分析使用 Microsoft Entra 权利管理Microsoft Purview 策略 来控制对数据共享的访问。 即便如此,你可能仍需要共享和合同存储库。 此存储库是一种组织功能,应位于你的数据管理登陆区域。

这些协定应提供有关数据验证、模型和安全策略的信息。

有关详细信息,请参阅数据协定

Azure 容器注册表

资源组:containers-rg

你的数据管理登陆区域托管 Azure 容器注册表。 Azure 容器注册表允许你的数据平台操作部署标准容器,以便在你的数据应用程序团队使用的数据科学项目中使用。

资源组:synapse-link-rg

Azure Synapse Analytics 专用链接中心是连接安全网络和 Azure Synapse Studio Web 体验的 Azure 资源。 云规模分析使用来自这些中心的专用链接将你的 Azure 虚拟网络安全地连接到 Azure Synapse Studio。

可以使用专用链接通过两个步骤连接到 Azure Synapse Studio。

  1. 创建专用链接中心资源。
  2. 创建从 Azure 虚拟网络到此专用链接中心的专用终结点。

然后,可以使用专用终结点与 Azure Synapse Studio 进行安全通信。 将这些专用终结点与 DNS 解决方案(本地解决方案或 Azure 专用 DNS)集成。

有关详细信息,请参阅使用专用链接连接到 Azure Synapse Studio

自动化接口(可选)

你的组织可能决定创建许多自动化服务来增强云规模的分析能力。 这些自动化服务为你的分析状态推动一致性和载入解决方案。

如果你决定构建这些自动化服务,你应该拥有一个用户界面,既可充当数据市场又可充当操作控制台。 此接口应依赖于基础元数据存储,就像之前在元数据标准讨论过一样。

你的数据市场或操作控制台调用中间层的微服务来促进入职、元数据注册、安全配置、数据生命周期和可观察性。

你可以预配 automationdb-rg 资源组来托管你的元数据存储。

重要

这些自动化服务都不是产品,也没有说明任何路线图项目。 列出它们是为了帮助你考虑可能要自动化的项目。

服务

服务 服务范围
数据登陆区域预配 该服务创建一个新的数据登陆区域。 它的使用率可能不是很高,但包含在端到端的载入解决方案完整性中。 有关更多信息,请参阅预配云规模分析
数据产品培训 此服务创建和修改与已注册租户相关的资源组。 此服务还包含升级和降级 SKU 以及为任何已加入的租户或服务激活和停用资源组的功能。 此服务将创建一个新的数据登陆区域 DevOps。 有关更多信息,请参阅预配云规模分析
访问预配 此服务使用 SPN/UPN 创建访问包、访问策略和资产访问审批过程(手动或自动)。 此服务还会公开一个 API 以提供用户在过去 90 天内提交的订阅请求(资产)的列表。 有关详细信息,请参阅 数据访问管理
与数据无关的引入 此微服务创建新的数据源,以将其引入你的数据登陆区域。 为此,此微服务与每个数据登陆区域中的 Azure 数据工厂 SQL 数据库元存储进行通信。 有关详细信息,请参阅自动化引入框架如何支持 Azure 中的云规模分析
元数据 此服务公开并为平台创建元数据。 有关详细信息,请参阅 元数据标准
数据生命周期 此服务负责根据元数据维护你的数据生命周期。 这种维护可以包括将数据移动到冷存储和删除不再需要保留的记录。 有关详细信息,请参阅数据生命周期管理
数据域加入 仅适用于数据网格。 此服务捕获与新域相关的元数据并根据需要载入新域。 此服务还可以创建、更新、激活和停用你可能构建到微服务中的任何域或服务线。 有关更多信息,请参阅预配云规模分析

数据标准化

尽管数据标准化不是数据管理登陆区域的特定功能或产品,但你应该在所有服务中调用数据标准化。 数据标准化定义了你的数据应该登陆和存储的格式。

提示

尽可能使用 delta-lake 格式作为所有服务和存储的事实上的标准。

有关详细信息,请参阅数据标准化

后续步骤