Provádění pokročilých transformací streamovaných dat pomocí Apache Sparku a Kafka ve službě Azure HDInsight

Středně pokročilý
Data Engineer
Data Scientist
Azure HDInsight

V tomto modulu se naučíte vytvářet kanály a aplikace analýzy dat v reálném čase v cloudu pomocí Azure HDInsight s Apache Kafka a Apache Sparkem.

Cíle výuky

Na konci tohoto modulu rozumíte:

  • Kdy používat Apache Spark a Kafka se službou HDInsight
  • Strukturované streamování Sparku
  • Architektura řešení Kafka a Spark.
  • Jak zřídit HDInsight, vytvořit producenta Kafka a streamovat data Kafka do poznámkového bloku Jupyter.
  • Postup replikace dat do sekundárního clusteru

Požadavky

Měly by být splněny následující požadavky:

  • Úspěšně se přihlaste k webu Azure Portal.
  • Seznamte se s možnostmi úložiště Azure.
  • Seznamte se s možnostmi výpočetních prostředků Azure.
  • Vytvořte a nakonfigurujte cluster HDInsight na webu Azure Portal.