Implementare flussi di lavoro di elaborazione dei dati e analisi con processi

Articolo
12/17/2024

È possibile usare un processo di Azure Databricks per gestire l'elaborazione dei dati, l'apprendimento automatico o le pipeline di analisi dei dati nella piattaforma Databricks. I lavori di Azure Databricks supportano diverse tipologie di carico di lavoro, tra cui notebook, script, pipeline Delta Live Tables, query SQL di Databricks e progetti Dbt. Gli articoli seguenti illustrano come usare le funzionalità e le opzioni dei processi di Azure Databricks per implementare le pipeline di dati.

Suggerimento

È possibile usare i bundle di risorse di Databricks per definire e gestire i processi in modo programmatico. Vedere Che cosa sono i bundle di risorse di Databricks? e Sviluppare un processo in Azure Databricks usando i bundle di asset di Databricks.

Usare le trasformazioni dbt in un processo

Usare il tipo di attività dbt se si esegue la trasformazione dei dati con un progetto dbt core e si vuole integrare tale progetto in un processo di Azure Databricks oppure si vogliono creare nuove trasformazioni dbt ed eseguire tali trasformazioni in un processo. Vedere Usare le trasformazioni dbt in un processo di Azure Databricks.

Usare un pacchetto Python in un processo

I file wheel python sono un modo standard per creare un pacchetto e distribuire i file necessari per eseguire un'applicazione Python. È possibile creare facilmente un processo che usa il codice Python in un pacchetto come file wheel python con il tipo di attività Python wheel. Vedere Usare un file wheel python in un processo di Azure Databricks.

Usare il codice incluso in un pacchetto in un file JAR

Le librerie e le applicazioni implementate in un linguaggio JVM, ad esempio Java e Scala, sono comunemente incluse in un pacchetto in un file di archivio Java (JAR). I processi di Azure Databricks supportano il codice incluso in un pacchetto in un file JAR con il tipo di attività JAR. Vedere Usare un file JAR in un processo di Azure Databricks.

Gestire i processi con Apache Airflow

Databricks consiglia di usare Processi di Azure Databricks per gestire e controllare i flussi di lavoro. Tuttavia, Apache Airflow viene comunemente usato come sistema di gestione e controllo del flusso di lavoro e fornisce supporto nativo per i processi di Azure Databricks. Mentre i processi di Azure Databricks offrono un'interfaccia utente visiva per creare i flussi di lavoro, Airflow usa i file Python per definire e distribuire le pipeline di dati. Per un esempio di creazione ed esecuzione di un processo con Airflow, vedere Gestire e controllare i processi di Azure Databricks con Apache Airflow.

Eseguire processi con un'entità servizio

È possibile eseguire i processi come account di servizio usando un'applicazione e un'entità servizio Microsoft Entra ID. L'esecuzione di un processo come account del servizio anziché di un singolo utente consente di controllare l'accesso al processo, assicurarsi che il processo disponga delle autorizzazioni necessarie e impedire problemi se un proprietario del processo viene rimosso da un'area di lavoro. Per un'esercitazione sulla creazione e l'uso di un'entità servizio per eseguire un processo di Azure Databricks, vedere Eseguire un processo con un'entità servizio di Microsoft Entra ID.

Condividi tramite