你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

基于清单的引入概念

基于清单的文件引入为最终用户和系统提供了一种可靠的机制来在 Azure Data Manager for Energy 实例中加载有关数据集的元数据。 此元数据由系统编制索引,并支持最终用户搜索数据集。

基于清单的文件引入是一种不透明的引入,不会分析或理解文件内容。 它基于清单创建元数据记录,并使记录可搜索。

什么是清单?

清单是一个 JSON 文档,它采用预确定的结构来捕获定义为“kind”的实体,这样定义是指使用架构服务定义为架构 - 已知架构 (WKS) 定义

可在此处找到示例清单 json 文档。

清单架构包含以下 OSDU® 组类型的容器:

  • ReferenceData(零个或多个)- 允许其他数据(主数据或事务数据)字段使用的一组值。 示例包括“度量单位(英尺)”、“货币”等
  • MasterData(零个或多个)- 跨多个系统、应用程序和/或流程使用的基本业务数据的单一源。 示例包括“钻井”和“井身”
  • WorkProduct (WP)(一个 - 如果加载 WorkProductComponents,则必须存在)- 会话边界或集合(项目、研究)包含需要一同处理的一组实体。 例如,可以引入一个或多个日志集合。
  • WorkProductComponent (WPC)(零个或多个 - 如果加载数据集,则必须存在)- 作为工作产品(一起引入的内容的集合)的一部分传输的类型化、最小且可独立使用的业务数据内容单位。 每个工作产品组件 (WPC) 通常使用引用数据,属于某些主数据,并保留对数据集的引用。 示例:钻井剖面、断层、文档
  • 数据集(零个或多个 - 如果加载 WorkProduct 和 WorkProductComponent 记录,则必须存在)- 每个工作产品组件 (WPC) 包含一个或多个称为数据集的数据容器

清单数据按特定顺序加载:

  1. “ReferenceData”数组(如果已填充)。
  2. “MasterData”数组(如果已填充)。
  3. 最后处理“Data”结构(如果已填充)。 在“Data”属性中,按以下顺序完成处理:
    1. “Datasets”数组
    2. “WorkProductComponents”数组
    3. “WorkProduct”。

任何数组都已排序。 如果存在相互依赖性,则依赖项必须放在其关系目标的后面,例如,主数据井记录必须在“MasterData”数组中放在其井身前面。

基于清单的文件引入工作流

Azure Data Manager for Energy 实例支持基于清单的文件引入工作流。 Osdu_ingest 在实例中预配置 Airflow DAG。

基于清单的文件引入工作流组件

基于清单的文件引入工作流包含以下组件:

  • 工作流服务 - 在 Airflow 工作流引擎顶部运行的包装器服务。
  • Airflow 引擎 - 一种工作流业务流程引擎,用于执行注册为 DAG(有向无环图)的工作流。 Airflow 是 OSDU® 社区选择的工作流引擎,用于协调和运行引入工作流。 不会直接公开 Airflow,需要通过工作流服务来访问其功能。
  • 存储服务 - 此服务用于将清单元数据记录保存到数据平台中。
  • 架构服务 - 此服务用于管理数据平台中 OSDU® 定义的架构。 在进行基于清单的文件引入期间会引用架构。
  • 权利服务 - 此服务用于管理访问组。 在引入期间会使用此服务来验证引入权限。 在检索元数据记录期间还会使用此服务来验证“读取”写入。
  • 法律服务 - 此服务通过法律标记来验证合规性。
  • 搜索服务用于在清单引入过程中执行引用完整性检查

先决条件

在运行基于清单的文件引入工作流之前,客户必须确保运行该工作流的用户帐户有权访问核心服务(搜索、存储、架构、权利和法律)和工作流服务(有关详细信息,请参阅权利角色)。 作为 Azure Data Manager for Energy 实例预配的一部分,会预加载 OSDU® 标准架构和相关参考数据。 客户必须确保用于引入清单的用户帐户包含在适当的所有者和查看者 ACL 中。 客户必须确保清单配置了正确的法律标记、所有者和查看者 ACL、参考数据等。

工作流序列

下图提供基于清单的文件引入工作流:清单引入顺序的屏幕截图。

用户使用清单引入工作流名称(“Osdu_ingest”)将清单提交到 Workflow Service。 如果请求正确且用户有权运行工作流,则工作流服务将加载清单并启动清单引入工作流。

工作流服务根据定义的架构执行一系列清单 syntax validation(例如清单结构和属性验证),并检查必需的架构属性。 然后,系统在工作产品组件和数据集之间执行 referential integrity validation。 例如,是否存在引用的父数据。

验证成功后,系统会使用存储服务 API 将每个有效实体写入数据平台,从而将内容处理到存储中。

OSDU® 是 Open Group 的商标。

后续步骤