Executar transformações avançadas de dados de streaming com o Apache Spark e o Kafka no Azure HDInsight

Intermediário
Engenheiro de dados
Cientista de Dados
Azure HDInsight

Neste módulo, você aprenderá a criar pipelines e aplicativos de análise de dados de streaming em tempo real na nuvem usando o Azure HDInsight com Apache Kafka e Apache Spark.

Objetivos de aprendizagem

Ao final desse módulo, você entenderá:

  • Quando usar o Apache Spark e o Kafka com o HDInsight.
  • Streaming estruturado do Spark.
  • A arquitetura de uma solução Kafka e Spark.
  • Como provisionar o HDInsight, criar um produtor do Kafka e transmitir dados do Kafka para um Jupyter Notebook.
  • Como replicar dados para um cluster secundário.

Pré-requisitos

O seguinte pré-requisito deve ser concluído:

  • Efetuar, com sucesso, logon no portal do Azure.
  • Compreender as opções de Armazenamento do Azure.
  • Compreender as opções de computação do Azure.
  • Criar e configurar um cluster do HDInsight no portal do Azure.