Noções básicas sobre os estágios do processamento de Big Data

Concluído

Os data lakes desempenham um papel fundamental em uma grande variedade de arquiteturas de Big Data. Essas arquiteturas podem envolver a criação de:

  • Um data warehouse corporativo.
  • Análise avançada de Big Data.
  • Uma solução de análise em tempo real.

Há quatro estágios para o processamento de soluções de Big Data que são comuns a todas as arquiteturas:

  • Ingerir – a fase de ingestão identifica a tecnologia e os processos usados para adquirir os dados de origem. Esses dados podem ser obtidos de arquivos, logs e outros tipos de dados não estruturados que precisam ser inseridos no data lake. A tecnologia usada poderá variar, dependendo da frequência com que os dados são transferidos. Por exemplo, para a movimentação de dados em lote, os pipelines no Azure Synapse Analytics ou no Azure Data Factory podem ser a tecnologia mais adequada a usar. Para a ingestão de dados em tempo real, o Apache Kafka para HDInsight ou o Stream Analytics pode ser uma opção adequada.
  • Armazenar – a fase de armazenamento identifica o local em que os dados ingeridos devem ser colocados. O Azure Data Lake Storage Gen2 fornece uma solução de armazenamento segura e escalonável compatível com tecnologias de processamento de Big Data comumente usadas.
  • Preparar e treinar – a fase de preparação e treinamento identifica as tecnologias que são usadas para executar a preparação de dados e o treinamento de modelo, assim como a pontuação para soluções de aprendizado de máquina. As tecnologias comuns usadas nesta fase são Azure Synapse Analytics, Azure Databricks, Azure HDInsight e Azure Machine Learning.
  • Modelar e fornecer – por fim, a fase de modelagem e fornecimento envolve as tecnologias que apresentarão os dados aos usuários. Essas tecnologias podem incluir ferramentas de visualização, como o Microsoft Power BI, ou repositórios de dados analíticos, como o Azure Synapse Analytics. Muitas vezes, uma combinação de várias tecnologias será usada, dependendo dos requisitos de negócios.