Effectuer des transformations de données de streaming avancées avec Apache Spark et Kafka dans Azure HDInsight
Dans ce module, vous apprenez à créer des pipelines et des applications d’analytique données de streaming en temps réel dans le cloud en utilisant Azure HDInsight avec Apache Kafka et Apache Spark.
Objectifs d’apprentissage
À la fin de ce module, vous comprendrez :
- Quand utiliser Apache Spark et Kafka avec HDInsight.
- Spark Structured Streaming.
- L’architecture d’une solution Kafka et Spark.
- Comment approvisionner HDInsight, créer un Kafka Producer et envoyer en streaming des données Kafka à un notebook Jupyter.
- Comment répliquer des données sur un cluster secondaire.
Prérequis
Les prérequis suivants doivent être satisfaits :
- Se connecter au portail Azure.
- Comprendre les options de stockage Azure.
- Comprendre les options de calcul Azure.
- Créer et configurer un cluster HDInsight dans le portail Azure.