Wprowadzenie

Ukończone

Korzystając z usługi Azure HDInsight z platformami Apache Kafka i Apache Spark, można tworzyć potoki i aplikacje analizy danych przesyłanych strumieniowo w czasie rzeczywistym w chmurze.

Apache Kafka to rozproszony system obsługi komunikatów, który pobiera przychodzące dane przesyłane strumieniowo z wielu systemów i udostępnia je innym aplikacjom w czasie rzeczywistym. Platforma Apache Kafka działa przez utworzenie kolejki uporządkowanych danych, a następnie replikowanie danych między wieloma maszynami w taki sposób, aby nie wystąpił pojedynczy punkt awarii i udostępnienie ich tym, co jest nazywane wydawcami lub konsumentami. Wydawcy to klienci, którzy tworzą komunikaty i dodają je do kolejki platformy Kafka, a konsumenci otrzymują komunikaty na podstawie ich subskrypcji.

Apache Spark to system przetwarzania równoległego, który umożliwia zbieranie danych z systemów, takich jak Apache Kafka, przekształcanie i reagowanie na dane. Platforma Apache Kafka umożliwia wykorzystanie i zapisanie danych, a platforma Apache Spark umożliwia modyfikowanie i przetwarzanie danych. W przypadku jednoczesnego użycia platforma Spark może pozyskiwać małe partie lub ciągłe strumienie danych z platformy Kafka i przetwarzać je w czasie rzeczywistym przy użyciu przesyłania strumieniowego ze strukturą. Gdy firmy implementują przesyłanie strumieniowe ze strukturą, mogą używać jednej architektury do przetwarzania danych wsadowych, danych przesyłanych strumieniowo w czasie rzeczywistym lub kombinacji tych dwóch, co umożliwia firmom na wyższy poziom aplikacji podczas przechodzenia z przetwarzania wsadowego w celu uwzględnienia przetwarzania w czasie rzeczywistym, bez konieczności uczenia się lub implementowania różnych struktur.

Korzystając z platform Apache Kafka i Apache Spark w usłudze Azure HDInsight, możesz utworzyć tę architekturę w ciągu kilku minut i korzystać ze skalowalności i wysokiej dostępności dostawcy usług w chmurze online. Dzięki temu firmy, które utworzyły lokalne aplikacje platformy Kafka i Platformy Spark, mogą łatwiej migrować te obciążenia do chmury.

Dzięki swojej pracy jako inżynierowie danych w branży bankowej musisz mieć możliwość rozpoczęcia przetwarzania przychodzących danych przesyłanych strumieniowo i wsadowych z bardzo małym opóźnieniem, a uważasz, że platformy Apache Spark i Apache Kafka mogą być odpowiednimi narzędziami do wykonania zadania.

Cele szkolenia

Na końcu tego modułu wykonasz następujące czynności:

  • Korzystanie z usługi HDInsight
  • Przesyłanie strumieniowe danych przy użyciu platformy Apache Kafka
  • Opis przesyłania strumieniowego ze strukturą platformy Spark
  • Tworzenie architektury platformy Kafka Spark
  • Aprowizuj usługę HDInsight w celu przeprowadzania przekształceń danych
  • Tworzenie producenta platformy Kafka
  • Przesyłanie strumieniowe danych platformy Kafka do notesu Jupyter Notebook
  • Replikowanie danych do klastra pomocniczego