介绍

已完成

将 Azure HDInsight 与 Apache Kafka 及 Apache Spark 结合使用,就可以在云上创建实时流数据分析管道和应用程序。

Apache Kafka 是一个分布式消息传递系统,接收来自多个系统的传入流数据并实时提供给其他应用程序。 Apache Kafka 的工作原理是:创建一个已排序数据队列,然后在多个计算机中复制数据(目的是没有单一故障点),并将数据提供给所谓的发布者或使用者。 发布者是创建消息并将其添加到 Kafka 队列的客户端,使用者基于订阅接收消息。

Apache Spark 是一个并行处理系统,使你能够从 Apache Kafka 等系统中获取数据,并对数据执行转换和做出响应。 你可以通过 Apache Kafka 利用和保存数据,通过 Apache Spark 修改和处理数据。 结合使用时,Spark 可以从 Kafka 引入小批数据或连续的数据流,并使用所谓的结构化流对其进行实时处理。 公司在实现结构化流时,可以使用一个体系结构来处理批数据、实时流数据或两者的组合,这使公司能够在从批处理移动到包括实时处理时升级应用程序,而无需学习或实现不同的框架。

通过在 Azure HDInsight 上使用 Apache Kafka 和 Apache Spark,你可以在几分钟内创建此体系结构,并能够受益于联机云提供商的可伸缩性和高可用性。 这也使已创建本地 Kafka 和 Spark 应用程序的公司能够更轻松地将这些工作负载迁移到云中。

作为银行业的数据工程师,你需要能够以非常低的延迟开始处理传入的流数据和批数据,你相信 Apache Spark 和 Apache Kafka 可能非常适合你的工作。

学习目标

学完本模块后,你将能:

  • 使用 HDInsight
  • 用 Apache Kafka 流式处理数据
  • 解释 Spark 结构化流
  • 创建 Kafka Spark 体系结构
  • 预配 HDInsight 以执行数据转换
  • 创建 Kafka 制作者
  • 将 Kafka 数据流式传输到 Jupyter Notebook
  • 将数据复制到辅助群集