Executar transformações avançadas de dados de streaming com o Apache Spark e o Kafka no Azure HDInsight

Módulo
11 Unidades

Intermediário

Engenheiro de dados

Cientista de Dados

Azure HDInsight

Neste módulo, você aprenderá a criar pipelines e aplicativos de análise de dados de streaming em tempo real na nuvem usando o Azure HDInsight com Apache Kafka e Apache Spark.

Objetivos de aprendizagem

Ao final desse módulo, você entenderá:

Quando usar o Apache Spark e o Kafka com o HDInsight.
Streaming estruturado do Spark.
A arquitetura de uma solução Kafka e Spark.
Como provisionar o HDInsight, criar um produtor do Kafka e transmitir dados do Kafka para um Jupyter Notebook.
Como replicar dados para um cluster secundário.

Pré-requisitos

O seguinte pré-requisito deve ser concluído:

Efetuar, com sucesso, logon no portal do Azure.
Compreender as opções de Armazenamento do Azure.
Compreender as opções de computação do Azure.
Criar e configurar um cluster do HDInsight no portal do Azure.

Introdução min
Usar o HDInsight Spark e o Kafka min
Transmitir dados com o Apache Kafka min
Descrever o streaming estruturado do Spark min
Criar uma arquitetura do Kafka e do Spark min
Exercício – Provisionar o HDInsight para executar transformações de dados de streaming avançadas min
Exercício – Criar o produtor do Kafka min
Exercício – Transmitir dados do Kafka para um Jupyter Notebook e definir a janela dos dados min
Replicar dados para um cluster secundário min
Verificação de conhecimento min
Resumo min