1200 XP

Eseguire trasformazioni di dati di streaming avanzate con Apache Spark e Kafka in Azure HDInsight

46 min
Modulo
11 Unità

Intermedio

Data engineer

Data scientist

Azure HDInsight

In questo modulo si apprende come creare applicazioni e pipeline di analisi dei dati di streaming in tempo reale nel cloud, usando Azure HDInsight insieme ad Apache Kafka e Apache Spark.

Obiettivi di apprendimento

Al termine del modulo, si sarà appreso quanto segue:

Casi di utilizzo di Apache Spark e Kafka con HDInsight.
Spark Structured Streaming.
L'architettura di una soluzione Kafka e Spark.
Esecuzione del provisioning di HDInsight, creazione di un producer Kafka e trasmissione dei dati Kafka a un notebook di Jupyter.
La modalità di replica dei dati in un cluster secondario.

Avvio

Prerequisiti

Devono essere soddisfatti i prerequisiti seguenti:

Accesso al portale di Azure.
Conoscenza delle opzioni di archiviazione di Azure.
Conoscenza delle opzioni di calcolo di Azure.
Creazione e configurazione di un cluster HDInsight nel portale di Azure.

Questo modulo fa parte dei percorsi di apprendimento seguenti

Creazione di soluzioni di analisi basate su software open source con Azure HDInsight

Valutazione del modulo

Valutare la comprensione del modulo. Accedere e rispondere correttamente a tutte le domande per ottenere un'indicazione di "pass" sul profilo.

Eseguire la valutazione del modulo