Vytvoření architektury Kafka a Sparku

3 min

Pokud chcete používat Kafka a Spark společně ve službě Azure HDInsight, musíte je umístit do stejné virtuální sítě nebo vytvořit partnerský vztah virtuálních sítí, aby clustery fungovaly s překladem názvů DNS.

What is a Kafka and Spark architecture

Postup vytvoření clusterů ve stejné virtuální síti:

Vytvoření skupiny zdrojů
Přidání virtuální sítě do skupiny prostředků
Přidejte cluster Kafka a cluster Sparku do stejné virtuální sítě nebo případně vytvořte partnerský vztah mezi virtuálními sítěmi, ve kterých tyto služby pracují s překladem názvů DNS.

Doporučený způsob, jak připojit cluster HDInsight Kafka a Spark, je nativní konektor Spark-Kafka, který umožňuje clusteru Spark přistupovat k jednotlivým oddílům dat v clusteru Kafka, což zvyšuje paralelismus, který máte ve své úloze zpracování v reálném čase a poskytuje velmi vysokou propustnost.

Pokud jsou oba clustery ve stejné virtuální síti, můžete v kódu streamování Sparku také použít plně kvalifikované názvy domén služby Kafka Broker a v podnikové síti můžete vytvořit pravidla NSG.

Architektura řešení

Vzory analýzy streamování v reálném čase v Azure obvykle používají následující architekturu řešení.

Ingestace: Nestrukturovaná nebo strukturovaná data se ingestují do clusteru Kafka ve službě Azure HDInsight.
Příprava a trénování: Data se předem natrénují a natrénují pomocí Sparku ve službě HDInsight.
Model a obsluha: Data se přeloží do datového skladu, jako je Azure Synapse nebo HDInsight Interactive Query.
Inteligentní funkce: Data se obsluhuje na analytickém řídicím panelu, jako je Power BI nebo Tableau.
Úložiště: Data se zakládají do řešení studeného úložiště, jako je Azure Storage, a obsluhuje se později.

A Kafka and Spark solution architecture

Architektura ukázkového scénáře

V další lekci začnete sestavovat architekturu řešení pro ukázkovou aplikaci. Tato ukázka používá soubor šablony Azure Resource Manageru k vytvoření skupiny prostředků, virtuální sítě, clusteru Spark a clusteru Kafka.

Po nasazení clusterů přejdete přes ssh do jednoho zprostředkovatele Kafka a zkopírujete soubor producenta Pythonu do hlavního uzlu. Tento soubor producenta poskytuje umělé ceny akcií každých 10 sekund, zapíše také číslo oddílu a posun zprávy do konzoly.

Po spuštění producenta můžete nahrát poznámkový blok Jupyter do clusteru Spark. V poznámkovém bloku připojíte clustery Spark a Kafka a spustíte na datech několik ukázkových dotazů, včetně vyhledání vysokých a nízkých hodnot akcií v okně události.

A Kafka and Spark example solution architecture

Pokračovat

Vytvoření architektury Kafka a Sparku

Architektura řešení

Architektura ukázkového scénáře

Váš názor