使用 Databricks 进行数据工程
Databricks 提供了一组丰富的数据工程功能,其中包括数据科学家、工程师和分析师之间协作的强大环境。 它的中心是引入和转换数据的管道。 为了轻松设计最有效的管道,Databricks 提供了结构化流式处理和增量实时表。 请参阅 Azure Databricks 上的流式处理以及 什么是增量实时表?。
有关结构化流和增量实时表提供的数据增量流处理为何是数据管道的最佳选项的概述,请参阅 为什么进行增量流处理?。
其他数据工程资源
Databricks 为许多其他方案提供数据工程任务的功能:
- Databricks 笔记本 是一种常用的协作工具。
- 使用 Databricks 作业计划和协调工作流。
- 如果要构建机器学习解决方案,请参阅 Databricks 马赛克 AI 。
注意
如果主要使用 SQL 查询和 BI 工具,请参阅 Databricks SQL。
有关入门教程和介绍性 informaton,请参阅 Azure Databricks 入门和 什么是 Azure Databricks?。
名称 | 在想要执行以下操作时使用此工具... |
---|---|
增量实时表 | 了解如何使用 Databricks Delta Live Tables 生成数据引入和转换管道。 |
结构化流 | 了解由 Databricks 上的结构化流式处理提供支持的流式处理、增量和实时工作负荷。 |