Azure Databricks 上的流式处理
可以使用 Azure Databricks 准实时引入数据和处理数据,并使用机器学习和 AI 流式处理数据。
Azure Databricks 为流式处理和增量处理提供了大量优化,包括下列优化:
- Delta Live Tables 提供了用于增量处理的声明性语法。 请参阅什么是增量实时表?。
- 自动加载程序简化了云对象存储中的增量引入。 请参阅什么是自动加载程序?。
- Unity Catalog 增加了流式处理工作负载的数据管理功能。 请参阅将 Unity Catalog 与结构化流式处理结合使用。
Delta Lake 为这些集成提供了存储层。 请参阅增量表流式读取和写入。
有关实时模型服务的信息,请参阅使用 Azure Databricks 提供模型服务。
-
了解有关在 Azure Databricks 上使用结构化流式处理进行准实时和增量处理的基础知识。
-
了解使用结构化流式处理配置增量和准实时工作负载的核心概念。
-
管理有状态结构化流式处理查询的中间状态信息有助于防止意外的延迟和生产问题。
-
本文包含的建议可用于通过 Azure Databricks 上的结构化流式处理来配置生产增量处理工作负荷,以满足实时或批处理应用程序的延迟和成本要求。
-
了解如何在 Azure Databricks 上监视结构化流式处理应用程序。
-
了解如何将 Unity Catalog 与 Azure Databricks 上的结构化流式处理结合使用。
-
了解如何将 Delta Lake 表用作流式处理源和接收器。
-
请参阅在 Azure Databricks 中通过 Cassandra、Azure Synapse Analytics、Python 笔记本和 Scala 笔记本使用 Spark 结构化流的示例。
Azure Databricks 具有处理 Avro、协议缓冲区和 JSON 数据有效负载中包含的半结构化数据字段的特定功能。 若要了解更多信息,请参阅以下文章:
其他资源
Apache Spark 提供了结构化流式处理编程指南,其中包含有关结构化流式处理的详细信息。
有关结构化流式处理的参考信息,Databricks 建议阅读以下 Apache Spark API 参考文章: