Effectuer des transformations de données de streaming avancées avec Apache Spark et Kafka dans Azure HDInsight

Module
11 Unités

Intermédiaire

Ingénieur Data

Data Scientist

Azure HDInsight

Dans ce module, vous apprenez à créer des pipelines et des applications d’analytique données de streaming en temps réel dans le cloud en utilisant Azure HDInsight avec Apache Kafka et Apache Spark.

Objectifs d’apprentissage

À la fin de ce module, vous comprendrez :

Quand utiliser Apache Spark et Kafka avec HDInsight.
Spark Structured Streaming.
L’architecture d’une solution Kafka et Spark.
Comment approvisionner HDInsight, créer un Kafka Producer et envoyer en streaming des données Kafka à un notebook Jupyter.
Comment répliquer des données sur un cluster secondaire.

Prérequis

Les prérequis suivants doivent être satisfaits :

Se connecter au portail Azure.
Comprendre les options de stockage Azure.
Comprendre les options de calcul Azure.
Créer et configurer un cluster HDInsight dans le portail Azure.