Použití HDInsight Sparku a Kafka

Dokončeno

Jako datový inženýr musíte určit nejvhodnější typ clusteru HDInsight, který se má vytvořit, aby bylo možné sestavit řešení. Clustery Spark a Kafka při společném použití poskytují skvělý způsob, jak ingestovat a zpracovávat streamy dat v reálném čase nebo téměř v reálném čase.

Použití Kafka k ingestování dat v reálném čase

Apache Kafka je možné použít jako systém zasílání zpráv, systém publikování odběru nebo jako platformu pro zpracování streamování. Ukládá data do protokolu, který může číst v reálném čase, po zpracování a může je číst více příjemců najednou.

Zpracování událostí v reálném čase pomocí strukturovaného streamování Sparku

Apache Spark je opensourcový distribuovaný modul pro zpracování dat, který lze v mnoha případech použít k rychlému zpracování, dotazování, analýze a transformaci dat ve velkém měřítku. Spark se běžně používá k provádění úloh ETL a SQL pro velké objemy dat, zpracování streamovaných dat a provádění strojového učení.

Strukturované streamování Sparku má funkce, které nejsou k dispozici na jiných platformách, jako jsou záruky odolnosti proti chybám, schopnost spojit dávková a streamovaná data, schopnost zpracovávat pozdní příchozí data a mnoho dalších informací o dalších informacích později v tomto modulu. Pomocí Služby Azure HDInsight můžete také vytvořit virtuální síť, ve které se nachází cluster Spark i Kafka. S oběma clustery v jedné virtuální síti může cluster Spark přistupovat k jednotlivým oddílům dat v rámci clusteru Kafka místo toho, aby mluvil mezi clustery nebo koncovými body. Poskytnutím přístupu k jednotlivým oddílům dat zvýšíte paralelismus, který máte v úloze zpracování v reálném čase, což vám dává lepší propustnost.

Scénáře použití Kafka se Sparkem

Existuje mnoho scénářů analýzy v reálném čase, které by mohly těžit ze streamování v reálném čase, které umožňuje Apache Kafka a Spark. Všechny tyto scénáře mají komponentu streamování dat pro příjem dat, což je komponenta Kafka, a analytický proces spuštěný na datech, což je komponenta Spark.

Scenarios for using Kafka with Spark

  • Zjišťování podvodů v reálném čase za účelem ingestování dat finančních transakcí a jejich porovnání s historickými vzory podvodného chování.
  • Scénáře správy vozového parku a připojeného auta, ve kterých ingestujete data zařízení IoT a reagují, když určitá data ze snímačů, jako jsou kilometry, rychlost, poloha nebo teplotní data, dosáhnou prahové hodnoty.
  • Clickstream analysis on ecommerce solutions, to analyze how the page placement of products can influence impuls nákupy and click throughs.
  • Monitorování pacientů v reálném čase, aby sledovalo informace o krevním tlaku a srdeční frekvenci a upozorňovat lékaře, když je pacient v kritickém stavu.
  • Inteligentní mřížka řešení, která sledují použití elektrické energie a reagují na změny požadavků.
  • Chování zákazníků v obchodech, abyste zjistili, jaké nákupy se v určitých denních časech provádějí, aby bylo možné naplánovat skladové zásoby a upravit personál pokladny.
  • It Infrastructure and network monitoring to watch for server availability and bandwidth and reroute traffic when needed.
  • Poptávka v reálném čase a správa zásob, které sledují nízké úrovně skladových zásob a vyžadují opětovné objednání nebo opětovné naskladnění těchto položek.

Snadná migrace z dávky na streamování

V mnoha případech se tyto scénáře spouštějí místně nebo s dávkovém zpracováním dat, ale s vývojem a vývojem řešení, která se potřebují vyvíjet, se dávkové zpracování přesune do streamování a místní aplikace se přesunou do cloudu. Jak už bylo zmíněno výše, strukturované streamování Sparku je jedinečné ve své schopnosti zpracovávat dávkové i streamované úlohy, které usnadňují přechod všech dávkových zpracování, které provádíte v reálném čase, jak můžete přecházet z jednoho na druhý, nebo je používat současně pomocí stejných aplikací a architektur.