Implementar uma solução de análise data lakehouse com o Azure Databricks
Saiba como tirar partido do Apache Spark e dos clusters avançados na plataforma Azure Databricks para executar grandes cargas de trabalho de engenharia de dados na cloud.
Pré-requisitos
Nenhuma
Código de Feito
Pretende pedir um código de feito?
Módulos neste percurso de aprendizagem
O Azure Databricks é um serviço de nuvem que fornece uma plataforma escalável para análise de dados usando o Apache Spark.
Saiba como executar a análise de dados usando o Azure Databricks. Explore vários métodos de ingestão de dados e como integrar dados de fontes como o Azure Data Lake e o Banco de Dados SQL do Azure. Este módulo orienta você pelo uso de blocos de anotações colaborativos para executar a análise exploratória de dados (EDA), para que você possa visualizar, manipular e examinar dados para descobrir padrões, anomalias e correlações.
O Azure Databricks é baseado no Apache Spark e permite que engenheiros e analistas de dados executem trabalhos do Spark para transformar, analisar e visualizar dados em escala.
O Delta Lake é uma solução de gerenciamento de dados no Azure Databricks que fornece recursos que incluem transações ACID, imposição de esquema e viagem no tempo, garantindo consistência, integridade e recursos de controle de versão dos dados.
A criação de pipelines de dados com o Delta Live Tables permite o processamento de dados em tempo real, escalável e confiável usando os recursos avançados do Delta Lake no Azure Databricks
A implantação de cargas de trabalho com os Fluxos de Trabalho do Azure Databricks envolve orquestrar e automatizar pipelines complexos de processamento de dados, fluxos de trabalho de aprendizado de máquina e tarefas de análise. Neste módulo, você aprenderá a implantar cargas de trabalho com fluxos de trabalho Databricks.