Azure Databricks 上的流式处理

可以使用 Azure Databricks 准实时引入数据和处理数据,并使用机器学习和 AI 流式处理数据。

Azure Databricks 为流式处理和增量处理提供了大量优化,包括下列优化:

Delta Lake 为这些集成提供了存储层。 请参阅增量表流式读取和写入

有关实时模型服务的信息,请参阅使用 Azure Databricks 提供模型服务

  • 教程

    了解有关在 Azure Databricks 上使用结构化流式处理进行准实时和增量处理的基础知识。

  • 概念

    了解使用结构化流式处理配置增量和准实时工作负载的核心概念。

  • 有状态流式处理

    管理有状态结构化流式处理查询的中间状态信息有助于防止意外的延迟和生产问题。

  • 生产注意事项

    本文包含的建议可用于通过 Azure Databricks 上的结构化流式处理来配置生产增量处理工作负荷,以满足实时或批处理应用程序的延迟和成本要求。

  • 监视流

    了解如何在 Azure Databricks 上监视结构化流式处理应用程序。

  • Unity Catalog 集成

    了解如何将 Unity Catalog 与 Azure Databricks 上的结构化流式处理结合使用。

  • 使用 Delta 进行流式处理

    了解如何将 Delta Lake 表用作流式处理源和接收器。

  • 示例

    请参阅在 Azure Databricks 中通过 Cassandra、Azure Synapse Analytics、Python 笔记本和 Scala 笔记本使用 Spark 结构化流的示例。

Azure Databricks 具有处理 Avro、协议缓冲区和 JSON 数据有效负载中包含的半结构化数据字段的特定功能。 若要了解更多信息,请参阅以下文章:

其他资源

Apache Spark 提供了结构化流式处理编程指南,其中包含有关结构化流式处理的详细信息。

有关结构化流式处理的参考信息,Databricks 建议阅读以下 Apache Spark API 参考文章: