Implementare una soluzione di analisi dei dati con Azure Databricks
Riepilogo
-
Level
-
Competenza
-
Prodotto
-
Ruolo
-
Oggetto
Al termine di questo percorso di apprendimento, si avranno competenze intermedie solide e avanzate sia in Databricks che in Spark in Azure. È possibile inserire, trasformare e analizzare set di dati su larga scala usando i dataframe Spark, Spark SQL e PySpark, consentendo di lavorare con l'elaborazione dei dati distribuita. In Databricks si sa come esplorare l'area di lavoro, gestire i cluster e compilare e gestire tabelle Delta.
Sarà anche possibile progettare ed eseguire pipeline ETL, ottimizzare le tabelle Delta, gestire le modifiche dello schema e applicare regole di qualità dei dati. Si apprenderà anche come orchestrare i carichi di lavoro con processi e pipeline Lakeflow, consentendo di passare dall'esplorazione ai flussi di lavoro automatizzati. Infine, si acquisisce familiarità con le funzionalità di governance e sicurezza, tra cui Il catalogo unity, l'integrazione di Purview e la gestione degli accessi, preparando l'utente a operare in modo efficace in ambienti di dati pronti per la produzione.
Prerequisiti
Prima di iniziare questo percorso di apprendimento, è necessario avere già familiarità con i concetti fondamentali di Python e SQL. Ciò include la possibilità di scrivere script Python semplici e lavorare con strutture di dati comuni, oltre a scrivere query SQL per filtrare, unire e aggregare i dati. Una conoscenza di base dei formati di file comuni, ad esempio CSV, JSON o Parquet, consente anche di usare set di dati.
Inoltre, la familiarità con il portale di Azure e i servizi di base come Archiviazione di Azure è importante, oltre a una conoscenza generale dei concetti relativi ai dati, ad esempio l'elaborazione batch e l'elaborazione in streaming e i dati strutturati e non strutturati. Anche se non obbligatorio, una precedente esposizione ai framework Big Data come Spark e l'esperienza nell'uso dei notebook Jupyter, può rendere più fluida la transizione a Databricks.
Codice obiettivo
Si vuole richiedere un codice obiettivo?
Moduli in questo percorso di apprendimento
Azure Databricks è un servizio cloud che offre una piattaforma scalabile per l'analisi dei dati tramite Apache Spark.
Informazioni su come eseguire l'analisi dei dati con Azure Databricks. Esplorare vari metodi di inserimento dati e come integrare i dati da origini come Azure Data Lake e database SQL di Azure. Questo modulo guida l'utente nell'ambito dell'utilizzo di notebook collaborativi per eseguire l'analisi esplorativa dei dati per poter visualizzare, manipolare ed esaminare i dati per rilevare criteri, anomalie e correlazioni.
Azure Databricks è basato su Apache Spark e consente agli ingegneri dei dati e agli analisti di eseguire processi Spark per trasformare, analizzare e visualizzare i dati su larga scala.
Delta Lake è una soluzione di gestione dei dati in Azure Databricks che offre funzionalità che includono transazioni ACID, applicazione dello schema e spostamento cronologico, garantendo la coerenza, l'integrità e le funzionalità di controllo delle versioni dei dati.
La compilazione di pipeline dichiarative di Lakeflow consente l'elaborazione dei dati in tempo reale, scalabile e affidabile usando le funzionalità avanzate di Delta Lake in Azure Databricks
La distribuzione di carichi di lavoro con Processi Lakeflow comporta l'orchestrazione e l'automazione di pipeline di elaborazione dati complesse, flussi di lavoro di Machine Learning e attività di analisi. In questo modulo si apprenderà come distribuire i carichi di lavoro con Processi Databricks Lakeflow.