Úvod

2 min

Pomocí Azure HDInsight s Apache Kafka a Apache Sparkem můžete vytvářet kanály a aplikace analýzy dat v reálném čase v cloudu.

Apache Kafka je systém distribuovaného zasílání zpráv, který přijímá příchozí streamovaná data z více systémů a zpřístupňuje je jiným aplikacím v reálném čase. Apache Kafka funguje tak, že vytvoří frontu uspořádaných dat a pak replikuje data napříč několika počítači, aby nedošlo k žádnému selhání a aby byla dostupná pro to, co se označuje jako vydavatelé nebo příjemci. Vydavatelé jsou klienti, kteří vytvářejí zprávy a přidávají je do fronty Kafka a příjemci dostanou zprávy na základě jejich odběrů.

Apache Spark je systém paralelního zpracování, který umožňuje přijímat data ze systémů, jako je Apache Kafka, a transformovat je a reagovat na ně. Apache Kafka umožňuje využívat a ukládat data a Apache Spark umožňuje upravovat a zpracovávat data. Při společném použití může Spark ingestovat malé dávky nebo průběžné datové proudy ze systému Kafka a zpracovávat je v reálném čase pomocí strukturovaného streamování. Když společnosti implementují strukturované streamování, můžou použít jednu architekturu ke zpracování dávkových dat, streamovaných dat v reálném čase nebo kombinaci těchto dvou, což umožňuje společnostem při přechodu z dávkového zpracování na vyšší úroveň, aby zahrnovaly zpracování v reálném čase, aniž by se musely učit nebo implementovat různé architektury.

Pomocí Apache Kafka a Apache Sparku ve službě Azure HDInsight můžete tuto architekturu vytvořit během několika minut a využít výhod škálovatelnosti a vysoké dostupnosti poskytovatele online cloudu. To také umožňuje společnostem, které vytvořily místní aplikace Kafka a Spark, migrovat tyto úlohy do cloudu snadněji.

S vaší úlohou jako Datoví technici v bankovním odvětví musíte být schopni zahájit zpracování příchozích streamovaných a dávkových dat s velmi nízkou latencí a domníváte se, že Apache Spark a Apache Kafka mohou být pro tuto úlohu správnými nástroji.

Cíle výuky

Na konci tohoto modulu:

Použití SLUŽBY HDInsight
Streamování dat pomocí Apache Kafka
Popis strukturovaného streamování Sparku
Vytvoření architektury Kafka Sparku
Zřízení SLUŽBY HDInsight pro provádění transformací dat
Vytvoření producenta Kafka
Streamování dat Kafka do poznámkového bloku Jupyter
Replikace dat do sekundárního clusteru

Pokračovat

Úvod

Cíle výuky

Váš názor