什么是 Azure Databricks 工作流?

Azure Databricks 工作流协调 Azure Databricks Lakehouse 平台中的数据处理、机器学习和分析管道。 工作流具有与 Azure Databricks 平台集成的完全托管的业务流程服务,包括用于在 Azure Databricks 工作区中运行非交互式代码的 Azure Databricks 作业,以及用于生成可靠且可维护的 ETL 管道的增量实时表。 下图演示了由 Azure Databricks 作业协调的、可执行以下操作的工作流:

 1. 运行增量实时表管道,以便从云存储中引入原始点击流数据,清理和准备数据,会话化数据,并将最终的会话化数据集持久保存到 Delta Lake。
 2. 运行增量实时表管道,以便从云存储中引入订单数据,清理和转换数据以进行处理,并将最终数据集持久保存到 Delta Lake。
 3. 联接订单和会话化点击流数据以创建新的数据集进行分析。
 4. 从准备好的数据中提取特征。
 5. 并行执行任务,以持久保存特征并训练机器学习模型。

演示示例工作流的示意图

什么是 Azure Databricks 作业?

Azure Databricks 作业是用于在 Azure Databricks 工作区中运行数据处理和分析应用程序的一种方式。 作业可以只包含一个任务,或者也可以是一个具有复杂依赖项的大型多任务工作流。 Azure Databricks 可管理所有作业的任务业务流程、群集管理、监视和错误报告。 你可以立即运行作业,通过易于使用的调度系统定期运行,只要新文件到达外部位置就可以这样做;也可以连续运行以确保作业实例始终处于运行状态。 你还可以在笔记本 UI 中以交互方式运行作业。

可以使用作业 UI、Databricks CLI 或通过调用作业 API 来创建和运行作业。 可以使用 UI 或 API 修复并重新运行失败或取消的作业。 可以使用 UI、CLI、API 和通知(例如电子邮件、Webhook 目标或 Slack 通知)监视作业运行结果。

若要了解如何使用 Databricks CLI,请参阅作业 CLI。 若要了解如何使用作业 API,请参阅作业 API 2.1

以下部分介绍 Azure Databricks 作业的重要功能。

重要

 • 只能在“数据科学和工程”或“机器学习”工作区中创建作业。&
 • 工作区仅限 1000 个并发任务运行。 在请求不能立即启动的运行时,将返回 429 Too Many Requests 响应。
 • 工作区在一小时内可以创建的作业数限制为 10000(包括“运行提交”)。 此限制还会影响 REST API 和笔记本工作流创建的作业。

使用作业任务实现数据处理和分析

可以使用任务来实现数据处理和分析工作流。 一个作业由一个或多个任务组成。 可以创建运行笔记本、JARS、增量实时表管道或者 Python、Scala、Spark 提交和 Java 应用程序的作业任务。 作业任务还可以协调 Databricks SQL 查询、警报和仪表板以创建分析和可视化效果,或者,你可以使用 dbt 任务在工作流中运行 dbt 转换。 还支持旧式 Spark Submit 应用程序。

可以通过指定任务之间的依赖关系来控制任务的执行顺序。 可将任务配置为按顺序或并行运行。

以交互方式、连续方式或使用作业触发器运行作业

可以通过作业 UI、API 或 CLI 以交互方式运行作业,或者运行连续作业。 可以创建计划以定期运行作业,或者在新文件进入外部位置(例如 Amazon S3 或 Azure 存储)时运行作业。

使用通知监视作业进度

当作业或任务开始、完成或失败时,你可以接收通知。 可以向一个或多个电子邮件地址或系统目标(例如,webhook 目标或 Slack)发送通知。 请参阅针对作业事件添加电子邮件和系统通知

使用 Azure Databricks 计算资源运行作业

Databricks 群集和 SQL 仓库为作业提供计算资源。 可以使用作业群集、通用群集或 SQL 仓库运行作业:

 • 作业群集是作业或各个作业任务的专用群集。 作业可以使用由所有任务共享的作业群集,或者你可以在创建或编辑任务时为各个任务配置一个群集。 作业群集在作业或任务开始时创建,在作业或任务结束时终止。
 • 通用群集是手动启动和终止的共享群集,可由多个用户和作业共享。

为了优化资源使用,Databricks 建议为作业使用作业群集。 若要减少等待群集启动的时间,请考虑使用通用群集。 请参阅将 Azure Databricks 计算用于作业

使用 SQL 仓库运行查询、仪表板或警报等 Databricks SQL 任务。 还可以使用 SQL 仓库通过 dbt 任务运行 dbt 转换。

后续步骤

若要开始使用 Azure Databricks 作业,请执行以下操作:

详细了解如何使用 Azure Databricks 作业生成和管理工作流及排查其问题:

什么是增量实时表?

注意

增量实时表需要高级计划。 有关详细信息,请联系 Databricks 帐户代表。

增量实时表是一个简化 ETL 和数据流式处理的框架。 增量实时表内置了对自动加载程序的支持,提供支持以声明方式实现数据转换的 SQL 和 Python 接口,并支持将转换的数据写入 Delta Lake,可让用户高效引入数据。 你定义要对数据执行的转换,而增量实时表管理任务业务流程、群集管理、监视、数据质量和错误处理。

若要开始使用,请参阅什么是增量实时表?

Azure Databricks 作业和增量实时表

Azure Databricks 作业和增量实时表为生成和部署端到端数据处理与分析工作流提供一个综合性框架。

增量实时表可用于所有数据引入和转换操作。 使用 Azure Databricks 作业可以在 Lakehouse 平台中协调由单个任务或多个数据处理和分析任务组成的工作负载,包括增量实时表引入和转换。

作为一个工作流业务流程系统,Azure Databricks 作业还支持:

 • 触发式运行作业,例如,按计划运行工作流。
 • 通过 SQL 查询、机器学习、笔记本、脚本或外部库等进行数据分析。
 • 运行由单个任务组成的作业,例如运行 JAR 中打包的 Apache Spark 作业。

使用 Apache AirFlow 协调工作流

尽管 Databricks 建议使用 Azure Databricks 作业来协调数据工作流,但你也可以使用 Apache Airflow 来管理和计划数据工作流。 使用 Airflow 可以在 Python 文件中定义工作流,Airflow 将管理工作流的计划和运行。 请参阅使用 Apache Airflow 协调 Azure Databricks 作业

使用 Azure 数据工厂协调工作流

Azure 数据工厂是一项云数据集成服务,可用于将数据存储、移动和处理服务组合到自动化数据管道中。 可以在 Azure 数据工厂数据管道中使 Databricks 笔记本可操作。 请参阅在 Azure 数据工厂中使用 Databricks 笔记本活动运行 Databricks 笔记本,了解如何创建在 Azure Databricks 群集中运行 Databricks 笔记本的 Azure 数据工厂管道,然后通过运行 Databricks 笔记本来转换数据