Fejlett streamelési adatátalakítások végrehajtása az Apache Spark és a Kafka használatával az Azure HDInsightban

Modul
11 Egység

Haladó

Data Engineer

Data Scientist

Azure HDInsight

Ebben a modulban megtudhatja, hogyan hozhat létre valós idejű streamelési adatelemzési folyamatokat és alkalmazásokat a felhőben az Azure HDInsight és az Apache Kafka és az Apache Spark használatával.

Tanulási célkitűzések

A modul végén a következőt fogja megérteni:

Mikor érdemes használni az Apache Sparkot és a Kafkát a HDInsighttal?
Spark strukturált streamelés.
Egy Kafka- és Spark-megoldás architektúrája.
A HDInsight kiépítése, a Kafka-gyártó létrehozása és a Kafka-adatok streamelése Jupyter-jegyzetfüzetbe.
Adatok replikálása másodlagos fürtre.

Előfeltételek

A következő előfeltételeket kell teljesíteni:

Sikeresen bejelentkezett az Azure Portalra.
Az Azure Storage beállításainak ismertetése.
Az Azure számítási lehetőségeinek ismertetése.
HDInsight-fürt létrehozása és konfigurálása az Azure Portalon.