Ingegneria dei dati con Azure Databricks

Intermedio
Data engineer
Databricks

Informazioni su come sfruttare il pieno potenziale di Apache Spark e di potenti cluster in esecuzione nella piattaforma Azure Databricks per eseguire carichi di lavoro di ingegneria dei dati di grandi dimensioni nel cloud.

Prerequisiti

Nessuno

Moduli in questo percorso di apprendimento

Azure Databricks è un servizio cloud che offre una piattaforma scalabile per l'analisi dei dati tramite Apache Spark.

Azure Databricks è basato su Apache Spark e consente agli ingegneri dei dati e agli analisti di eseguire processi Spark per trasformare, analizzare e visualizzare i dati su larga scala.

Delta Lake è un'area di archiviazione relazionale open source per Spark che è possibile usare per implementare un'architettura data lakehouse in Azure Databricks.

Azure Databricks offre SQL Warehouse che consentono agli analisti dei dati di lavorare sui dati usando query SQL relazionali familiari.

L'uso di pipeline in Azure Data Factory per l'esecuzione di notebook in Azure Databricks consente di automatizzare i processi di ingegneria dei dati su scala cloud.