Fejlett streamelési adatátalakítások végrehajtása az Apache Spark és a Kafka használatával az Azure HDInsightban

Haladó
Data Engineer
Data Scientist
Azure HDInsight

Ebben a modulban megtudhatja, hogyan hozhat létre valós idejű streamelési adatelemzési folyamatokat és alkalmazásokat a felhőben az Azure HDInsight és az Apache Kafka és az Apache Spark használatával.

Tanulási célkitűzések

A modul végén a következőt fogja megérteni:

  • Mikor érdemes használni az Apache Sparkot és a Kafkát a HDInsighttal?
  • Spark strukturált streamelés.
  • Egy Kafka- és Spark-megoldás architektúrája.
  • A HDInsight kiépítése, a Kafka-gyártó létrehozása és a Kafka-adatok streamelése Jupyter-jegyzetfüzetbe.
  • Adatok replikálása másodlagos fürtre.

Előfeltételek

A következő előfeltételeket kell teljesíteni:

  • Sikeresen bejelentkezett az Azure Portalra.
  • Az Azure Storage beállításainak ismertetése.
  • Az Azure számítási lehetőségeinek ismertetése.
  • HDInsight-fürt létrehozása és konfigurálása az Azure Portalon.