Implementare una soluzione di analisi dei dati con Azure Databricks

Percorso di apprendimento
6 Moduli

Riepilogo

Level

Intermedio
Competenza

 
Prodotto

Azure Databricks
Ruolo

Analista dati
Oggetto

Analisi dei dati

Al termine di questo percorso di apprendimento, si avranno competenze intermedie solide e avanzate sia in Databricks che in Spark in Azure. È possibile inserire, trasformare e analizzare set di dati su larga scala usando i dataframe Spark, Spark SQL e PySpark, consentendo di lavorare con l'elaborazione dei dati distribuita. In Databricks si sa come esplorare l'area di lavoro, gestire i cluster e compilare e gestire tabelle Delta.

Sarà anche possibile progettare ed eseguire pipeline ETL, ottimizzare le tabelle Delta, gestire le modifiche dello schema e applicare regole di qualità dei dati. Si apprenderà anche come orchestrare i carichi di lavoro con processi e pipeline Lakeflow, consentendo di passare dall'esplorazione ai flussi di lavoro automatizzati. Infine, si acquisisce familiarità con le funzionalità di governance e sicurezza, tra cui Il catalogo unity, l'integrazione di Purview e la gestione degli accessi, preparando l'utente a operare in modo efficace in ambienti di dati pronti per la produzione.

Prerequisiti

Prima di iniziare questo percorso di apprendimento, è necessario avere già familiarità con i concetti fondamentali di Python e SQL. Ciò include la possibilità di scrivere script Python semplici e lavorare con strutture di dati comuni, oltre a scrivere query SQL per filtrare, unire e aggregare i dati. Una conoscenza di base dei formati di file comuni, ad esempio CSV, JSON o Parquet, consente anche di usare set di dati.

Inoltre, la familiarità con il portale di Azure e i servizi di base come Archiviazione di Azure è importante, oltre a una conoscenza generale dei concetti relativi ai dati, ad esempio l'elaborazione batch e l'elaborazione in streaming e i dati strutturati e non strutturati. Anche se non obbligatorio, una precedente esposizione ai framework Big Data come Spark e l'esperienza nell'uso dei notebook Jupyter, può rendere più fluida la transizione a Databricks.

Moduli in questo percorso di apprendimento

Esplorare Azure Databricks

Azure Databricks è un servizio cloud che offre una piattaforma scalabile per l'analisi dei dati tramite Apache Spark.

Eseguire l'analisi dei dati con Azure Databricks

Informazioni su come eseguire l'analisi dei dati con Azure Databricks. Esplorare vari metodi di inserimento dati e come integrare i dati da origini come Azure Data Lake e database SQL di Azure. Questo modulo guida l'utente nell'ambito dell'utilizzo di notebook collaborativi per eseguire l'analisi esplorativa dei dati per poter visualizzare, manipolare ed esaminare i dati per rilevare criteri, anomalie e correlazioni.

Usare Apache Spark in Azure Databricks

Azure Databricks è basato su Apache Spark e consente agli ingegneri dei dati e agli analisti di eseguire processi Spark per trasformare, analizzare e visualizzare i dati su larga scala.

Gestire i dati con Delta Lake

Delta Lake è una soluzione di gestione dei dati in Azure Databricks che offre funzionalità che includono transazioni ACID, applicazione dello schema e spostamento cronologico, garantendo la coerenza, l'integrità e le funzionalità di controllo delle versioni dei dati.

Creare pipeline dichiarative di Lakeflow

La compilazione di pipeline dichiarative di Lakeflow consente l'elaborazione dei dati in tempo reale, scalabile e affidabile usando le funzionalità avanzate di Delta Lake in Azure Databricks

Distribuire carichi di lavoro con processi Lakeflow

La distribuzione di carichi di lavoro con Processi Lakeflow comporta l'orchestrazione e l'automazione di pipeline di elaborazione dati complesse, flussi di lavoro di Machine Learning e attività di analisi. In questo modulo si apprenderà come distribuire i carichi di lavoro con Processi Databricks Lakeflow.

Avvio