教程:使用 Apache Airflow 作业协调 Azure Databricks ETL 作业

注意

Apache Airflow 作业由 Apache Airflow 提供支持。

本教程概述了 Azure Databricks 和 Apache Airflow 作业(由 Apache Airflow 提供支持)的集成,用于协调数据管道。 作业协调对于管理复杂的工作流程、确保数据准确性和优化处理效率至关重要。 Azure Databricks 是构建在 Apache Spark 之上的强大分析平台,而 Apache Airflow 则提供强大的工作流管理功能。 结合这些工具,可以无缝协调从数据引入到转换和分析的任务。 可通过 Apache Airflow Azure Databricks 连接将 Azure Databricks 提供的已优化的 Spark 引擎与 Apache Airflow 的计划功能配合使用。

在本教程中,你将生成一个 Apache Airflow DAG,以使用 Apache Airflow 作业触发 Azure Databricks 作业。

先决条件

若要开始,必须满足以下先决条件:

添加 Apache Airflow 要求

  1. 导航到“设置”,然后选择“环境配置”。

  2. 在“Apache Airflow 要求”下,包括“apache-airflow-providers-databricks”。

  3. 选择“应用”保存更改。

    添加 Airflow 要求的屏幕截图。

创建适用于 Apache Airflow 的 Azure Databricks 个人访问令牌

  1. 在 Azure Databricks 工作区中,在顶部栏中选择 Azure Databricks 用户名,然后从下拉列表中选择“设置”。
  2. 选择开发者。
  3. 然后选择“访问令牌”,选择“管理”。
  4. 选择“生成新令牌”。
  5. (可选)输入有助于将来识别此令牌的注释,并将令牌的默认生存期更改为 90 天。 若要创建没有生存期的令牌(不建议),请将“生存期(天)”框留空(保留空白)。
  6. 选择生成。
  7. 将显示的令牌复制到安全位置,然后选择“完成”。

创建 Apache Airflow 连接以连接到 Azure Databricks 工作区

在 Apache Airflow 作业环境中安装“apache-airflow-providers-databricks”作为要求时,Azure Databricks 的默认连接会默认在 Apache Airflow 连接列表中配置。 更新连接以使用之前创建的个人访问令牌连接到工作区:

  1. 选择“查看 Airflow 连接”以查看配置的所有连接的列表。

    查看 Apache Airflow 连接的屏幕截图。

  2. 在“Conn ID”下,找到“databricks_default”,然后选择“编辑记录”按钮。

  3. 将“主机”字段中的值替换为 Azure Databricks 部署的工作区实例名称,例如 https://adb-123456789.cloud.databricks.com

  4. 在“密码”字段中,输入你的 Azure Databricks 个人访问令牌。

  5. 选择“保存”。

创建 Apache Airflow DAG

  1. 首先选择“新建 DAG 文件”卡。 然后,为文件分配名称并选择“创建”。

  2. 创建后,会显示样本 DAG 代码。 编辑文件以包含提供的内容。 使用 job_id Azure Databricks 作业 ID 更新参数。

from airflow import DAG
from airflow.providers.databricks.operators.databricks import DatabricksRunNowOperator
from airflow.utils.dates import days_ago

default_args = {
  'owner': 'airflow'
}

with DAG('databricks_dag',
  start_date = days_ago(2),
  schedule_interval = "@hourly",
  default_args = default_args
) as dag:

 transform_data = DatabricksRunNowOperator(
    task_id = 'transform_data',
    databricks_conn_id = 'databricks_default',
    job_id ="<JOB_ID>>"
  )
  1. 选择“保存”以保存文件。

    显示如何在 Microsoft Fabric 中保存 DAG 文件的屏幕截图。

监视 Apache Airflow DAG 并从 Apache Airflow UI 运行它

保存后,DAG 文件会自动加载到 Apache Airflow UI 中。 若要监视它们,请选择“在 Apache Airflow 中监视”按钮。

监视 Airflow DAG 的屏幕截图。

快速入门:创建 Apache Airflow 作业