Implementare una soluzione di analisi dei dati con Azure Databricks

Intermedio
Data engineer
Azure Databricks

Informazioni su come sfruttare il pieno potenziale di Apache Spark e di potenti cluster in esecuzione nella piattaforma Azure Databricks per eseguire carichi di lavoro di ingegneria dei dati di grandi dimensioni nel cloud.

Prerequisiti

None

Moduli in questo percorso di apprendimento

Azure Databricks è un servizio cloud che offre una piattaforma scalabile per l'analisi dei dati tramite Apache Spark.

Azure Databricks è basato su Apache Spark e consente agli ingegneri dei dati e agli analisti di eseguire processi Spark per trasformare, analizzare e visualizzare i dati su larga scala.

Delta Lake è un'area di archiviazione relazionale open source per Spark che è possibile usare per implementare un'architettura data lakehouse in Azure Databricks.

Azure Databricks include istanze di SQL Warehouse, che consentono agli analisti dei dati di interagire con i dati usando le consuete query SQL relazionali.

L'uso di pipeline in Azure Data Factory per l'esecuzione di notebook in Azure Databricks consente di automatizzare i processi di ingegneria dei dati su scala cloud.