你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
数据管理登陆区域对于云规模分析至关重要。 它监督整个分析平台的治理。
数据管理着陆区是一个单独的订阅,具有相同标准的 Azure 着陆区服务。 它通过可以连接到数据登陆区域中数据湖和多语言存储的爬网程序来提供数据治理。 虚拟网络对等互连将数据管理登陆区域连接到数据登陆区域和连接订阅。
此体系结构是一个起点。 在规划数据管理登陆区域实现时,可以对其进行修改以满足特定的业务和技术要求。
注意
Polyglot 持久性 是指使用多个数据存储或数据存储技术来支持数据类型及其存储需求的做法。 Polyglot 持久性意味着应用程序可以使用多个核心数据库或存储技术。
重要
必须在一个具有适当治理的管理组下,将您的数据管理着陆区部署为单独的订阅。 然后,可以控制整个组织的治理。 Azure 登陆区域加速器介绍了应如何接近 Azure 登陆区域。
数据管理
Azure 云规模分析框架建议使用 Microsoft Purview。 或者,可以部署非Microsoft解决方案来管理特定的数据管理功能。
请考虑体系结构中的以下关键功能:
- 全局数据目录
- 主要数据管理
- 数据共享和协定
- API 目录
- 数据质量管理
- 数据建模存储库
如果有需要在订阅中部署的合作伙伴数据管理产品,请将其部署到数据管理登陆区域中的数据治理资源组。
数据目录
数据目录在集中位置注册和维护数据信息,以便它可供组织使用。 它可以最大程度地减少不同项目团队引入冗余数据的可能性,从而阻止重复数据产品。 建议创建数据目录服务,以定义跨数据登陆区域存储的数据产品的元数据。
云规模分析依赖于 Microsoft Purview 来注册企业数据源,对其进行分类,确保数据质量,并提供高度安全的自助访问。
Microsoft Purview 是基于租户的服务,可以与每个数据登陆区域通信。 它创建托管虚拟网络并将其部署到数据登陆区域。 可以在任何可用的 Microsoft Purview 区域内的这些托管虚拟网络中部署 Azure 虚拟网络集成运行时 (IR)。 然后,托管虚拟网络 IR 可以使用专用终结点安全地连接到受支持的数据源并扫描这些数据源。 此方法有助于隔离和保护数据集成过程。 有关详细信息,请参阅 将托管虚拟网络与 Microsoft Purview 帐户配合使用。
如果使用 Azure Databricks,除了 Microsoft Purview 之外,我们建议使用 Azure Databricks Unity 目录 。 Unity 目录跨 Databricks 工作区提供集中式访问控制、审核、世系和数据发现功能。 有关详细信息,请参阅 Unity Catalog 最佳做法。
注意
本文重点介绍如何使用 Microsoft Purview 进行治理,但企业可能对 Alation、Okera 或 Collibra 等其他产品进行了投资。 这些解决方案基于订阅。 建议将其部署到数据管理登陆区域。 它们可能需要自定义集成。
主要数据管理
主要数据管理控制位于数据管理登陆区域中。 有关特定数据网格注意事项,请参阅 数据网格中的主要数据管理。
许多主要数据管理解决方案与 Microsoft Entra ID 完全集成,这有助于保护数据并为不同的用户组提供不同的视图。 有关详细信息,请参阅 主要数据管理系统。
数据共享和协定
云规模分析使用 Microsoft Entra 权利管理或 Microsoft Purview 策略来控制对数据共享的访问。 除了这些功能,你可能还需要共享和合同存储库。 此存储库是一种组织功能,应位于你的数据管理登陆区域。 合同应提供有关数据验证、模型和安全策略的信息。
API 目录
数据应用程序团队为其数据应用程序创建各种 API,在组织中很难找到这些 API。 若要解决此问题,请将 API 目录置于数据管理登陆区域中。
API 目录标准化文档,促进内部协作,并在整个组织中增强消耗、发布和治理控制。
数据质量管理
使用现有的数据质量管理做法。 若要防止问题分布在分析和 AI 系统中,请在数据源中管理数据质量。
将质量指标和验证集成到数据流程中,由最熟悉数据的团队来负责质量管理。 此方法有助于确保团队更深入地了解和更好地处理数据资产。 为所有数据产品提供数据世系以提高数据质量置信度。
有关详细信息,请参阅 数据质量。
数据建模存储库
将实体关系模型集中存储在数据管理登陆区域中,以便数据使用者可以轻松找到概念图。 若要在引入之前对数据产品建模,请使用 ER/Studio 和 OrbusInfinity 等工具。
服务层
组织可能会创建多个自动化服务来增强云规模分析功能。 这些自动化服务为你的分析状态推动一致性和载入解决方案。
如果生成这些自动化服务,用户界面应同时充当数据市场和作控制台。 此接口应依赖于基础元数据存储,例如 元数据标准。
你的数据市场或操作控制台调用中间层的微服务来促进入职、元数据注册、安全配置、数据生命周期和可观察性。 可以预配服务层资源组来托管元数据存储。
重要
以下自动化服务不是可以购买的实际产品。 它们不表示将来的版本或更新。 使用以下列表帮助你考虑要自动执行哪些项。
服务类型 | 服务范围 |
---|---|
数据登陆区域预配 | 该服务创建一个新的数据登陆区域。 此服务不常使用,但可确保端到端载入解决方案完整性。 有关详细信息,请参阅 提供云规模分析。 |
数据产品培训 | 此服务创建和修改与已注册租户相关的资源组。 它还包含升级和降级 SKU 以及激活和停用已加入租户或服务的资源组的功能。 此服务还会为 DevOps 创建一个新的数据登陆区域。 有关详细信息,请参阅 提供云规模分析。 |
与数据无关的引入 | 此微服务创建新的数据源用于导入至您的数据着落区。 为了管理此过程,它与位于每个数据登陆区域中的 Azure 数据工厂和 Azure SQL 数据库元存储进行通信。 有关详细信息,请参阅 自动化引入框架如何支持 Azure 中的云规模分析。 |
元数据 | 此服务公开并创建平台的元数据。 有关详细信息,请参阅 元数据标准。 |
访问预配 | 此服务使用服务主体名称或用户主体名称来创建访问包、访问策略以及手动或自动资产访问审批过程。 它还可以公开 API,以提供用户在过去 90 天内提交的订阅请求(或资产)列表。 有关详细信息,请参阅 数据访问管理。 |
数据生命周期 | 此服务有助于基于元数据维护数据生命周期。 此维护可能包括将数据移到冷存储并删除过时的记录。 有关详细信息,请参阅 数据生命周期管理。 |
数据域加入 | 此服务仅适用于数据网格。 此服务捕获新的域元数据,并根据需要载入新域。 它还可以创建、更新、激活和停用构建到微服务中的域或服务线。 有关详细信息,请参阅 提供云规模分析。 |
Azure 容器注册表
数据管理登陆区域托管 Azure 容器注册表实例。 数据平台运作可以使用容器注册表部署标准容器,以供数据应用程序团队使用的数据科学项目使用。