Durchführen erweiterter Transformationen für Streamingdaten mit Apache Spark und Kafka in Azure HDInsight

Fortgeschrittene Anfänger
Datentechniker
Data Scientist
Azure HDInsight

In diesem Modul erfahren Sie, wie Sie mit Azure HDInsight, Apache Kafka und Apache Spark Pipelines und Anwendungen für Streamingdatenanalysen in Echtzeit in der Cloud erstellen.

Lernziele

Am Ende dieses Moduls verstehen Sie:

  • Anwendungsfälle von Apache Spark und Kafka mit HDInsight
  • Spark Structured Streaming
  • Architektur einer Kafka- und Spark-Lösung
  • Bereitstellen von HDInsight, Erstellen eines Kafka-Producers und Streamen von Kafka-Daten an eine Jupyter Notebook-Instanz
  • Replizieren von Daten in einem sekundären Cluster

Voraussetzungen

Die folgenden Voraussetzungen müssen erfüllt sein:

  • Erfolgreiche Anmeldung im Azure-Portal
  • Kenntnisse über Azure-Speicheroptionen
  • Kenntnisse über Azure-Computeoptionen
  • Erstellen und Konfigurieren eines HDInsight-Clusters im Azure-Portal