Úvod

Dokončeno

Pomocí Azure HDInsight s Apache Kafka a Apache Sparkem můžete vytvářet kanály a aplikace analýzy dat v reálném čase v cloudu.

Apache Kafka je systém distribuovaného zasílání zpráv, který přijímá příchozí streamovaná data z více systémů a zpřístupňuje je jiným aplikacím v reálném čase. Apache Kafka funguje tak, že vytvoří frontu uspořádaných dat a pak replikuje data napříč několika počítači, aby nedošlo k žádnému selhání a aby byla dostupná pro to, co se označuje jako vydavatelé nebo příjemci. Vydavatelé jsou klienti, kteří vytvářejí zprávy a přidávají je do fronty Kafka a příjemci dostanou zprávy na základě jejich odběrů.

Apache Spark je systém paralelního zpracování, který umožňuje přijímat data ze systémů, jako je Apache Kafka, a transformovat je a reagovat na ně. Apache Kafka umožňuje využívat a ukládat data a Apache Spark umožňuje upravovat a zpracovávat data. Při společném použití může Spark ingestovat malé dávky nebo průběžné datové proudy ze systému Kafka a zpracovávat je v reálném čase pomocí strukturovaného streamování. Když společnosti implementují strukturované streamování, můžou použít jednu architekturu ke zpracování dávkových dat, streamovaných dat v reálném čase nebo kombinaci těchto dvou, což umožňuje společnostem při přechodu z dávkového zpracování na vyšší úroveň, aby zahrnovaly zpracování v reálném čase, aniž by se musely učit nebo implementovat různé architektury.

Pomocí Apache Kafka a Apache Sparku ve službě Azure HDInsight můžete tuto architekturu vytvořit během několika minut a využít výhod škálovatelnosti a vysoké dostupnosti poskytovatele online cloudu. To také umožňuje společnostem, které vytvořily místní aplikace Kafka a Spark, migrovat tyto úlohy do cloudu snadněji.

S vaší úlohou jako Datoví technici v bankovním odvětví musíte být schopni zahájit zpracování příchozích streamovaných a dávkových dat s velmi nízkou latencí a domníváte se, že Apache Spark a Apache Kafka mohou být pro tuto úlohu správnými nástroji.

Cíle výuky

Na konci tohoto modulu:

  • Použití SLUŽBY HDInsight
  • Streamování dat pomocí Apache Kafka
  • Popis strukturovaného streamování Sparku
  • Vytvoření architektury Kafka Sparku
  • Zřízení SLUŽBY HDInsight pro provádění transformací dat
  • Vytvoření producenta Kafka
  • Streamování dat Kafka do poznámkového bloku Jupyter
  • Replikace dat do sekundárního clusteru