注意
Apache Airflow 作业由 Apache Airflow 提供支持。
数据工作流是 Microsoft Fabric 中的一项变革性功能,它重新定义了构建和管理数据管道的方法。 数据工作流由 Apache Airflow 运行时提供支持,它提供了一个基于云的集成平台,用于开发、计划和监视基于 Python 的数据工作流,以有向无环图 (Dag) 的形式表示。 它使用 Apache Airflow 为数据管道开发和管理提供软件即服务 (SaaS) 体验,使运行时易于访问,并支持数据工作流的创建和操作。
对于数据工作流,有两个存储工作流文件的选项:Fabric 管理的存储和 GitHub 管理的存储。 本文介绍如何从现有 GitHub 仓库同步代码。
创建 Apache Airflow 作业
可使用现有工作区或创建新工作区。
展开
+ New
下拉列表 -> 单击“更多选项” -Data Factory
部分下 > -> 选择 Apache Airflow 作业(预览版)为项目命名一个合适的名称,然后单击“创建”按钮。
同步 GitHub 存储库
指定要与 Apache Airflow 作业同步的 git 存储库。
填写以下字段:
Git 服务类型:支持的服务类型:
- GitHub
- ADO:Azure DevOps
- GitLab
- BitBucket
Git 凭证类型:支持的凭证类型:
- None:如果仓库是公共的,请选择此凭证类型。
- 个人访问令牌:来自 Git 服务的个人访问令牌,用于向仓库进行身份验证。
- 填写字段:
- 用户名:GitHub 的用户名。
- 个人访问令牌
- 填写字段:
- 服务主体:选择 Git 服务作为 Azure Devops 时选择此凭证:
- 填写字段:
- 服务主体应用 ID:有权访问 Azure Devops 仓库的服务主体的客户端 ID。
- 服务主体机密:有权访问 Azure DevOps 仓库的客户端机密。
- 服务主体租户 ID:服务主体的租户 ID。
- 填写字段:
- 仓库:要同步的仓库的克隆 URL。
- 分支:要同步的仓库分支的名称。
单击“应用”。
监视 DAG
若要验证存储库是否已同步,请单击“在 Apache Airflow 中监视”导航到 Apache Airflow 的 UI。 在 UI 中,您将看到存储库中直接加载的所有 DAG。
使用 git-sync 存储时不支持代码编辑器。 您需要在本地编辑代码,并将更改推送到远程 Git 存储库。 最新提交将自动与数据工作流同步,您可以在 Apache Airflow 的 UI 中看到更新的代码。
支持的 Git 存储库结构
|── dags/
| |-- *.py
|-- plugins
| |-- executors/
| | ├-- __init__.py
| | └-- *.py
| |-- hooks/
| | ├-- __init__.py
| | └-- *.py
| |-- operators/
| | ├-- __init__.py
| | └-- *.py
| |-- transfers/
| | ├-- __init__.py
| | └-- *.py
| |-- triggers/
| | ├-- __init__.py
| | └-- *.py
注意
我们仅同步存储库中的 dags
和 plugins
文件夹。 确保任何文件或子文件夹都在这些文件夹内。