Implementare flussi di lavoro di elaborazione e analisi dei dati con Processi

Articolo
10/07/2024

È possibile usare un processo di Azure Databricks per orchestrare l'elaborazione dei dati, l'apprendimento automatico o le pipeline di analisi dei dati nella piattaforma Databricks. I Processi di Azure Databricks supportano diversi tipi di carico di lavoro, tra cui notebook, script, pipeline di tabelle Delta Live, query SQL di Databricks e progetti dbt. I seguenti articoli illustrano come usare le funzionalità e le opzioni dei Processi di Azure Databricks per implementare le pipeline di dati.

Suggerimento

È possibile usare i bundle di asset di Databricks per definire e gestire i processi a livello di codice. Vedere Che cosa sono i bundle di asset di Databricks? e Sviluppare un processo in Azure Databricks usando i bundle di asset di Databricks.

Trasformare, analizzare e visualizzare i dati con un processo di Azure Databricks

È possibile usare un processo per creare una pipeline di dati che inserisce, trasforma, analizza e visualizza i dati. L'esempio in Usare Databricks SQL in un processo di Azure Databricks compila una pipeline che:

Usa uno script Python per recuperare i dati usando un'API REST.
Usa tabelle Delta Live per inserire e trasformare i dati recuperati e poi salvarli in Delta Lake.
Usa l'integrazione dei Processi con Databricks SQL per analizzare i dati trasformati e creare grafici per visualizzare i risultati.

Usare le trasformazioni dbt in un processo

Usare il tipo di attività dbt se si esegue la trasformazione dei dati con un progetto core dbt e si vuole integrare tale progetto in un processo di Azure Databricks, oppure si vogliono creare nuove trasformazioni dbt ed eseguire tali trasformazioni in un processo. Vedere Usare le trasformazioni dbt in un processo di Azure Databricks.

Usare un pacchetto Python in un processo

I file wheel Python sono un modo standard per creare un pacchetto e distribuire i file necessari per eseguire un'applicazione Python. È possibile creare facilmente un processo che usa il codice Python in pacchetto come il file wheel Python con il tipo di attività Python wheel. Vedere Usare un file wheel Python in un processo di Azure Databricks.

Usare il codice incluso in un file JAR

Le librerie e le applicazioni implementate in un linguaggio JVM, ad esempio Java e Scala, sono comunemente incluse in un file di archivio Java (JAR). I Processi di Azure Databricks supportano il codice incluso in un file JAR con il tipo di attività JAR. Vedere Usare un file JAR in un processo di Azure Databricks.

Usare notebook o codice Python gestiti in un repository centrale

Un modo comune per gestire il controllo della versione e la collaborazione per gli artefatti di produzione consiste nell'usare un repository centrale, ad esempio GitHub. Processi di Azure Databricks supporta la creazione e l'esecuzione di processi usando notebook o il codice Python importato da un repository, incluse le cartelle Git di GitHub o Databricks. Vedere Usare un codice sorgente con controllo della versione in un processo di Azure Databricks.

Orchestrare i processi con Apache Airflow

Databricks consiglia di usare Processi di Azure Databricks per orchestrare i flussi di lavoro. Tuttavia, Apache Airflow viene comunemente usato come sistema di orchestrazione del flusso di lavoro e fornisce supporto nativo per i processi di Azure Databricks. Mentre Processi di Azure Databricks offre un'interfaccia utente visiva per creare i flussi di lavoro, Airflow usa i file Python per definire e distribuire le pipeline di dati. Per un esempio di creazione ed esecuzione di un processo con Airflow, vedere Orchestrare i processi di Azure Databricks con Apache Airflow.

Eseguire un processo con un'entità servizio

È possibile eseguire i processi come account di servizio usando un'applicazione e un'entità servizio Microsoft Entra ID. L'esecuzione di un processo come account del servizio anziché di un singolo utente consente di controllare l'accesso al processo, assicurarsi che il processo disponga delle autorizzazioni necessarie e impedire problemi se un proprietario del processo viene rimosso da un'area di lavoro. Per un'esercitazione sulla creazione e l'uso di un'entità servizio per eseguire un processo di Azure Databricks, vedere Eseguire un processo con un'entità servizio di Microsoft Entra ID.

Condividi tramite