Durchführen erweiterter Transformationen für Streamingdaten mit Apache Spark und Kafka in Azure HDInsight

Modul
11 Einheiten

Fortgeschrittene Anfänger

Datentechniker

Data Scientist

Azure HDInsight

In diesem Modul erfahren Sie, wie Sie mit Azure HDInsight, Apache Kafka und Apache Spark Pipelines und Anwendungen für Streamingdatenanalysen in Echtzeit in der Cloud erstellen.

Lernziele

Am Ende dieses Moduls verstehen Sie:

Anwendungsfälle von Apache Spark und Kafka mit HDInsight
Spark Structured Streaming
Architektur einer Kafka- und Spark-Lösung
Bereitstellen von HDInsight, Erstellen eines Kafka-Producers und Streamen von Kafka-Daten an eine Jupyter Notebook-Instanz
Replizieren von Daten in einem sekundären Cluster

Voraussetzungen

Die folgenden Voraussetzungen müssen erfüllt sein:

Erfolgreiche Anmeldung im Azure-Portal
Kenntnisse über Azure-Speicheroptionen
Kenntnisse über Azure-Computeoptionen
Erstellen und Konfigurieren eines HDInsight-Clusters im Azure-Portal

Einführung min
Verwenden von HDInsight, Spark und Kafka min
Streamen von Daten mit Apache Kafka min
Spark Structured Streaming min
Erstellen einer Kafka- und Spark-Architektur min
Übung: Bereitstellen von HDInsight für erweiterte Streamingdatentransformationen min
Übung: Erstellen des Kafka-Producers min
Übung: Streamen von Kafka-Daten an eine Jupyter Notebook-Instanz und Datenwindowing min
Replizieren von Daten in einem sekundären Cluster min
Wissensbeurteilung min
Zusammenfassung min