从现有的 GitHub 仓库中同步代码

注意

Apache Airflow 作业由 Apache Airflow 提供支持。

数据工作流是 Microsoft Fabric 中的一项变革性功能,它重新定义了构建和管理数据管道的方法。 数据工作流由 Apache Airflow 运行时提供支持,它提供了一个基于云的集成平台,用于开发、计划和监视基于 Python 的数据工作流,以有向无环图 (Dag) 的形式表示。 它使用 Apache Airflow 为数据管道开发和管理提供软件即服务 (SaaS) 体验,使运行时易于访问,并支持数据工作流的创建和操作。
对于数据工作流,有两个存储工作流文件的选项:Fabric 管理的存储和 GitHub 管理的存储。 本文介绍如何从现有 GitHub 仓库同步代码。

创建 Apache Airflow 作业

  1. 可使用现有工作区或创建新工作区

  2. 展开 + New 下拉列表 -> 单击“更多选项” - Data Factory 部分下 > -> 选择 Apache Airflow 作业(预览版)

    屏幕截图显示点击更多选项。

    选择 Apache Airflow 作业的屏幕截图。

  3. 为项目命名一个合适的名称,然后单击“创建”按钮。

同步 GitHub 存储库

指定要与 Apache Airflow 作业同步的 git 存储库。

  1. 转到“设置”按钮,然后单击“文件存储”选项卡。选择“Git-sync”作为存储类型。 同步 GitHub 仓库的屏幕截图。

  2. 填写以下字段:

    • Git 服务类型:支持的服务类型:

      • GitHub
      • ADO:Azure DevOps
      • GitLab
      • BitBucket
    • Git 凭证类型:支持的凭证类型:

      • None:如果仓库是公共的,请选择此凭证类型。
      • 个人访问令牌:来自 Git 服务的个人访问令牌,用于向仓库进行身份验证。
        • 填写字段:
          • 用户名:GitHub 的用户名。
          • 个人访问令牌
      • 服务主体:选择 Git 服务作为 Azure Devops 时选择此凭证:
        • 填写字段:
          • 服务主体应用 ID:有权访问 Azure Devops 仓库的服务主体的客户端 ID。
          • 服务主体机密:有权访问 Azure DevOps 仓库的客户端机密。
          • 服务主体租户 ID:服务主体的租户 ID。
      • 仓库:要同步的仓库的克隆 URL
      • 分支:要同步的仓库分支的名称。
  3. 单击“应用”。

监视 DAG

  • 若要验证存储库是否已同步,请单击“在 Apache Airflow 中监视”导航到 Apache Airflow 的 UI。 在 UI 中,您将看到存储库中直接加载的所有 DAG。 在 apache airflow 中监视 DAG 的屏幕截图。

  • 使用 git-sync 存储时不支持代码编辑器。 您需要在本地编辑代码,并将更改推送到远程 Git 存储库。 最新提交将自动与数据工作流同步,您可以在 Apache Airflow 的 UI 中看到更新的代码。

支持的 Git 存储库结构

|── dags/
|   |-- *.py
|-- plugins
|    |-- executors/
|    |   ├-- __init__.py
|    |   └-- *.py
|    |-- hooks/
|    |   ├-- __init__.py
|    |   └-- *.py
|    |-- operators/
|    |   ├-- __init__.py
|    |   └-- *.py
|    |-- transfers/
|    |   ├-- __init__.py
|    |   └-- *.py
|    |-- triggers/
|    |    ├-- __init__.py
|    |    └-- *.py

注意

我们仅同步存储库中的 dagsplugins 文件夹。 确保任何文件或子文件夹都在这些文件夹内。