Effectuer des transformations de données de streaming avancées avec Apache Spark et Kafka dans Azure HDInsight

Intermédiaire
Ingénieur Data
Data Scientist
Azure HDInsight

Dans ce module, vous apprenez à créer des pipelines et des applications d’analytique données de streaming en temps réel dans le cloud en utilisant Azure HDInsight avec Apache Kafka et Apache Spark.

Objectifs d’apprentissage

À la fin de ce module, vous comprendrez :

  • Quand utiliser Apache Spark et Kafka avec HDInsight.
  • Spark Structured Streaming.
  • L’architecture d’une solution Kafka et Spark.
  • Comment approvisionner HDInsight, créer un Kafka Producer et envoyer en streaming des données Kafka à un notebook Jupyter.
  • Comment répliquer des données sur un cluster secondaire.

Prérequis

Les prérequis suivants doivent être satisfaits :

  • Se connecter au portail Azure.
  • Comprendre les options de stockage Azure.
  • Comprendre les options de calcul Azure.
  • Créer et configurer un cluster HDInsight dans le portail Azure.