Introdução

Concluído

Usando o Azure HDInsight com Apache Kafka e Apache Spark, você pode criar pipelines de análise de dados de streaming em tempo real e aplicativos na nuvem.

O Apache Kafka é um sistema de mensagens distribuído que usa dados de streaming de entrada de vários sistemas e os disponibiliza para outros aplicativos em tempo real. O Apache Kafka funciona criando uma fila de dados ordenados, replicando os dados em vários computadores para que não haja nenhum ponto único de falha e disponibilizando-os para os chamados publicadores ou consumidores. Os editores são os clientes que criam as mensagens e as adicionam à fila do Kafka, e os consumidores recebem as mensagens com base em suas assinaturas.

O Apache Spark é um sistema de processamento paralelo que permite que você tire dados de sistemas como o Apache Kafka e transforme e reaja aos dados. O Apache Kafka permite que você aproveite e salve os dados, e o Apache Spark permite que você modifique e processe os dados. Quando usados juntos, o Spark pode ingerir pequenos lotes ou fluxos contínuos de dados do Kafka e processá-los em tempo real usando o que é chamado de streaming estruturado. Quando as empresas implementam o streaming estruturado, elas podem usar uma arquitetura para processar dados em lotes, dados de streaming em tempo real ou uma combinação dos dois, o que lhes permite elevar o nível de seus aplicativos à medida que migram do processamento em lotes para incluir processamento em tempo real sem necessidade de aprender nem implementar estruturas diferentes.

Ao usar o Apache Kafka e o Apache Spark no Azure HDInsight, você pode criar essa arquitetura em questão de minutos e beneficiar-se da escalabilidade e da alta disponibilidade de um provedor de nuvem online. Isso também permite que as empresas que criaram aplicativos Kafka e Spark locais migrem essas cargas de trabalho para a nuvem com mais facilidade.

Com seu trabalho como Engenheiro de Dados no setor bancário, você precisa ser capaz de iniciar o processo de streaming de entrada e dados de lote com latência muito baixa e acredita que o Apache Spark e o Apache Kafka podem ser as ferramentas certas para o trabalho.

Objetivos de aprendizagem

Ao final deste módulo, você vai:

  • Usar o HDInsight
  • Transmitir dados com o Apache Kafka
  • Descrever o streaming estruturado do Spark
  • Criar uma arquitetura do Spark Kafka
  • Provisionar o HDInsight para executar transformações de dados
  • Criar um produtor do Kafka
  • Transmitir dados Kafka para um Jupyter Notebook
  • Replicar dados para um cluster secundário