Eseguire trasformazioni di dati di streaming avanzate con Apache Spark e Kafka in Azure HDInsight

Intermedio
Data engineer
Data scientist
Azure HDInsight

In questo modulo si apprende come creare applicazioni e pipeline di analisi dei dati di streaming in tempo reale nel cloud, usando Azure HDInsight insieme ad Apache Kafka e Apache Spark.

Obiettivi di apprendimento

Al termine del modulo, si sarà appreso quanto segue:

  • Casi di utilizzo di Apache Spark e Kafka con HDInsight.
  • Spark Structured Streaming.
  • L'architettura di una soluzione Kafka e Spark.
  • Esecuzione del provisioning di HDInsight, creazione di un producer Kafka e trasmissione dei dati Kafka a un notebook di Jupyter.
  • La modalità di replica dei dati in un cluster secondario.

Prerequisiti

Devono essere soddisfatti i prerequisiti seguenti:

  • Accesso al portale di Azure.
  • Conoscenza delle opzioni di archiviazione di Azure.
  • Conoscenza delle opzioni di calcolo di Azure.
  • Creazione e configurazione di un cluster HDInsight nel portale di Azure.