Geavanceerde streaminggegevenstransformaties uitvoeren met Apache Spark en Kafka in Azure HDInsight

Module
11 Eenheden

Gevorderd

Data Engineer

Data Scientist

Azure HDInsight

In deze module leert u hoe u realtime pijplijnen en toepassingen voor streaminggegevensanalyse in de cloud maakt met behulp van Azure HDInsight met Apache Kafka en Apache Spark.

Leerdoelen

Aan het einde van deze module begrijpt u het volgende:

Wanneer gebruikt u Apache Spark en Kafka met HDInsight.
Spark Structured Streaming.
De architectuur van een Kafka- en Spark-oplossing.
HdInsight inrichten, een Kafka-producent maken en Kafka-gegevens streamen naar een Jupyter-notebook.
Gegevens repliceren naar een secundair cluster.

Vereisten

De volgende vereiste moet worden voltooid:

Meld u aan bij Azure Portal.
Inzicht in de Opties voor Azure Storage.
Inzicht in de Azure-rekenopties.
Maak en configureer een HDInsight-cluster in Azure Portal.

Inleiding min
HDInsight Spark en Kafka gebruiken min
Gegevens streamen met Apache Kafka min
Gestructureerd streamen van Spark beschrijven min
Een Kafka- en Spark-architectuur maken min
Oefening: HDInsight inrichten om geavanceerde streaminggegevenstransformaties uit te voeren min
Oefening: de Kafka-producent maken min
Oefening: Kafka-gegevens streamen naar een Jupyter-notebook en de gegevens vensteren min
Gegevens repliceren naar een secundair cluster min
Kenniscontrole min
Samenvatting min