Použití HDInsight Sparku a Kafka

3 min

Jako datový inženýr musíte určit nejvhodnější typ clusteru HDInsight, který se má vytvořit, aby bylo možné sestavit řešení. Clustery Spark a Kafka při společném použití poskytují skvělý způsob, jak ingestovat a zpracovávat streamy dat v reálném čase nebo téměř v reálném čase.

Použití Kafka k ingestování dat v reálném čase

Apache Kafka je možné použít jako systém zasílání zpráv, systém publikování odběru nebo jako platformu pro zpracování streamování. Ukládá data do protokolu, který může číst v reálném čase, po zpracování a může je číst více příjemců najednou.

Zpracování událostí v reálném čase pomocí strukturovaného streamování Sparku

Apache Spark je opensourcový distribuovaný modul pro zpracování dat, který lze v mnoha případech použít k rychlému zpracování, dotazování, analýze a transformaci dat ve velkém měřítku. Spark se běžně používá k provádění úloh ETL a SQL pro velké objemy dat, zpracování streamovaných dat a provádění strojového učení.

Strukturované streamování Sparku má funkce, které nejsou k dispozici na jiných platformách, jako jsou záruky odolnosti proti chybám, schopnost spojit dávková a streamovaná data, schopnost zpracovávat pozdní příchozí data a mnoho dalších informací o dalších informacích později v tomto modulu. Pomocí Služby Azure HDInsight můžete také vytvořit virtuální síť, ve které se nachází cluster Spark i Kafka. S oběma clustery v jedné virtuální síti může cluster Spark přistupovat k jednotlivým oddílům dat v rámci clusteru Kafka místo toho, aby mluvil mezi clustery nebo koncovými body. Poskytnutím přístupu k jednotlivým oddílům dat zvýšíte paralelismus, který máte v úloze zpracování v reálném čase, což vám dává lepší propustnost.

Scénáře použití Kafka se Sparkem

Existuje mnoho scénářů analýzy v reálném čase, které by mohly těžit ze streamování v reálném čase, které umožňuje Apache Kafka a Spark. Všechny tyto scénáře mají komponentu streamování dat pro příjem dat, což je komponenta Kafka, a analytický proces spuštěný na datech, což je komponenta Spark.

Scenarios for using Kafka with Spark

Zjišťování podvodů v reálném čase za účelem ingestování dat finančních transakcí a jejich porovnání s historickými vzory podvodného chování.
Scénáře správy vozového parku a připojeného auta, ve kterých ingestujete data zařízení IoT a reagují, když určitá data ze snímačů, jako jsou kilometry, rychlost, poloha nebo teplotní data, dosáhnou prahové hodnoty.
Clickstream analysis on ecommerce solutions, to analyze how the page placement of products can influence impuls nákupy and click throughs.
Monitorování pacientů v reálném čase, aby sledovalo informace o krevním tlaku a srdeční frekvenci a upozorňovat lékaře, když je pacient v kritickém stavu.
Inteligentní mřížka řešení, která sledují použití elektrické energie a reagují na změny požadavků.
Chování zákazníků v obchodech, abyste zjistili, jaké nákupy se v určitých denních časech provádějí, aby bylo možné naplánovat skladové zásoby a upravit personál pokladny.
It Infrastructure and network monitoring to watch for server availability and bandwidth and reroute traffic when needed.
Poptávka v reálném čase a správa zásob, které sledují nízké úrovně skladových zásob a vyžadují opětovné objednání nebo opětovné naskladnění těchto položek.

Snadná migrace z dávky na streamování

V mnoha případech se tyto scénáře spouštějí místně nebo s dávkovém zpracováním dat, ale s vývojem a vývojem řešení, která se potřebují vyvíjet, se dávkové zpracování přesune do streamování a místní aplikace se přesunou do cloudu. Jak už bylo zmíněno výše, strukturované streamování Sparku je jedinečné ve své schopnosti zpracovávat dávkové i streamované úlohy, které usnadňují přechod všech dávkových zpracování, které provádíte v reálném čase, jak můžete přecházet z jednoho na druhý, nebo je používat současně pomocí stejných aplikací a architektur.

Pokračovat

Použití HDInsight Sparku a Kafka

Použití Kafka k ingestování dat v reálném čase

Zpracování událostí v reálném čase pomocí strukturovaného streamování Sparku

Scénáře použití Kafka se Sparkem

Snadná migrace z dávky na streamování

Váš názor