Apache Spark-streamelési (DStream) példa az Apache Kafkával a HDInsighton

Cikk
03/20/2024

Megtudhatja, hogyan streamelhet adatokat az Apache Spark használatával a HDInsighton futó Apache Kafkába vagy onnan ki a D adatfolyamok használatával. Ez a példa egy Spark-fürtön futó Jupyter-jegyzetfüzetet használ.

Feljegyzés

A dokumentum lépései olyan Azure-erőforráscsoportot hoznak létre, amely Spark on HDInsight- és Kafka on HDInsight-fürtöt is tartalmaz. Mindkét fürt Azure virtuális hálózatban található, így a Spark-fürt közvetlenül kommunikálhat a Kafka-fürttel.

Amikor végzett a dokumentum lépéseivel, ne felejtse el törölni a fürtöket a további díjak elkerülése érdekében.

Fontos

Ez a példa a D adatfolyamok, amely egy régebbi Spark streamelési technológia. Az újabb Spark-streamelési funkciókat használó példáért tekintse meg a Spark strukturált streamelést az Apache Kafka-dokumentummal .

A fürtök létrehozása

A HDInsighton futó Apache Kafka nem biztosít hozzáférést a Kafka-közvetítőkhöz a nyilvános interneten keresztül. A Kafkával folytatott beszélgetéseknek ugyanabban az Azure-beli virtuális hálózatban kell lenniük, mint a Kafka-fürt csomópontjai. Ebben a példában a Kafka és a Spark-fürtök egy Azure-beli virtuális hálózaton találhatók. Az alábbi ábra bemutatja, hogyan zajlik a kommunikáció a fürtök között:

Diagram of Spark and Kafka clusters in an Azure virtual network.

Feljegyzés

Bár maga a Kafka a virtuális hálózaton belüli kommunikációra korlátozódik, a fürt más szolgáltatásai, például az SSH és az Ambari is elérhetők az interneten keresztül. További információ a HDInsighttal elérhető nyilvános portokról: A HDInsight által használt portok és URI-k.

Bár manuálisan is létrehozhat Azure-beli virtuális hálózatot, Kafkát és Spark-fürtöt, egyszerűbben használhat Azure Resource Manager-sablont. Az alábbi lépésekkel üzembe helyezhet egy Azure-beli virtuális hálózatot, Kafkát és Spark-fürtöt az Azure-előfizetésében.

Az alábbi gombbal jelentkezzen be az Azure szolgáltatásba, és nyissa meg a sablont az Azure Portalon.

Figyelmeztetés

A Kafka HDInsighton való rendelkezésre állásának biztosításához a fürtnek legalább négy feldolgozó csomópontot kell tartalmaznia. Ez a sablon létrehoz egy Kafka-fürtöt, amely négy feldolgozó csomópontot tartalmaz.

Ez a sablon létrehoz egy HDInsight 4.0-fürtöt a Kafka és a Spark számára is.

Az egyéni üzembe helyezés szakasz bejegyzéseinek feltöltéséhez használja az alábbi információkat:

Tulajdonság	Érték
Erőforráscsoport	Hozzon létre egy csoportot, vagy válasszon ki egy meglévőt.
Hely	Válasszon egy Földrajzilag Önhöz közeli helyet.
Alapfürt neve	Ez az érték a Spark- és Kafka-fürtök alapneve. A hdistreaming beírása például létrehoz egy Spark-hdistreaming nevű Spark-fürtöt és egy kafka-hdistreaming nevű Kafka-fürtöt.
Fürt bejelentkezési felhasználóneve	A Spark- és Kafka-fürtök rendszergazdai felhasználóneve.
Fürt bejelentkezési jelszava	A Spark- és Kafka-fürtök rendszergazdai felhasználói jelszava.
SSH-felhasználónév	A Spark- és Kafka-fürtökhöz létrehozandó SSH-felhasználó.
SSH-jelszó	A Spark- és Kafka-fürtök SSH-felhasználójának jelszava.

HDInsight custom deployment parameters.

Olvassa át a használati feltételeket, majd válassza az Elfogadom a fenti feltételeket és kikötéseket lehetőséget.
Végül válassza a Vásárlás lehetőséget. A fürtök létrehozása körülbelül 20 percet vesz igénybe.

Az erőforrások létrehozása után megjelenik egy összefoglaló oldal.

Resource group summary for the vnet and clusters.

Fontos

Figyelje meg, hogy a HDInsight-fürtök neve spark-BA Standard kiadás NAME és kafka-BA Standard kiadás NAME, ahol a BA Standard kiadás NAME a sablonnak megadott név. Ezeket a neveket a későbbi lépésekben használhatja a fürtökhöz való csatlakozáskor.

A jegyzetfüzetek használata

A dokumentumban leírt példa kódja a következő helyen található: https://github.com/Azure-Samples/hdinsight-spark-scala-kafka.

A fürt törlése

Figyelmeztetés

A HDInsight-fürtök számlázása percenként történik, akár használja őket, akár nem. A használat befejezése után mindenképpen törölje a fürtöt. Megtudhatja , hogyan törölhet HDInsight-fürtöt.

Mivel a dokumentum lépései mindkét fürtöt ugyanabban az Azure-erőforráscsoportban hozzák létre, törölheti az erőforráscsoportot az Azure Portalon. A csoport törlése eltávolítja a dokumentum, az Azure Virtual Network és a fürtök által használt tárfiók követésével létrehozott összes erőforrást.

Következő lépések

Ebben a példában megtanulta, hogyan használhatja a Sparkot a Kafkába való olvasásra és írásra. A Kafka használatának egyéb módjait az alábbi hivatkozások segítségével ismerheti meg:

Megosztás a következőn keresztül:

Apache Spark-streamelési (DStream) példa az Apache Kafkával a HDInsighton

A fürtök létrehozása

A jegyzetfüzetek használata

A fürt törlése

Következő lépések

Visszajelzés

További források