Implementare flussi di lavoro di elaborazione dei dati e analisi con processi
È possibile usare un processo di Azure Databricks per gestire l'elaborazione dei dati, l'apprendimento automatico o le pipeline di analisi dei dati nella piattaforma Databricks. I processi di Azure Databricks supportano diversi tipi di carico di lavoro, tra cui notebook, script, pipeline di tabelle live Delta, query SQL di Databricks e progetti dbt. Gli articoli seguenti illustrano come usare le funzionalità e le opzioni dei processi di Azure Databricks per implementare le pipeline di dati.
Suggerimento
È possibile usare i bundle di risorse di Databricks per definire e gestire i processi in modo programmatico. Vedere Che cosa sono i bundle di risorse di Databricks? e Sviluppare un processo in Azure Databricks usando i bundle di asset di Databricks.
Trasformare, analizzare e visualizzare i dati con un processo di Azure Databricks
È possibile usare un processo per creare una pipeline di dati che inserisce, trasforma, analizza e visualizza i dati. L'esempio in Usare Databricks SQL in un processo di Azure Databricks compila una pipeline che:
- Usa uno script Python per recuperare i dati usando un'API REST.
- Usa tabelle live Delta per inserire e trasformare i dati recuperati e salvare i dati trasformati in Delta Lake.
- Usa l'integrazione dei processi con Databricks SQL per analizzare i dati trasformati e creare grafici per visualizzare i risultati.
Usare le trasformazioni dbt in un processo
Usare il tipo di attività dbt
se si esegue la trasformazione dei dati con un progetto dbt core e si vuole integrare tale progetto in un processo di Azure Databricks oppure si vogliono creare nuove trasformazioni dbt ed eseguire tali trasformazioni in un processo. Vedere Usare le trasformazioni dbt in un processo di Azure Databricks.
Usare un pacchetto Python in un processo
I file wheel python sono un modo standard per creare un pacchetto e distribuire i file necessari per eseguire un'applicazione Python. È possibile creare facilmente un processo che usa il codice Python in un pacchetto come file wheel python con il tipo di attività Python wheel
. Vedere Usare un file wheel python in un processo di Azure Databricks.
Usare il codice incluso in un pacchetto in un file JAR
Le librerie e le applicazioni implementate in un linguaggio JVM, ad esempio Java e Scala, sono comunemente incluse in un pacchetto in un file di archivio Java (JAR). I processi di Azure Databricks supportano il codice incluso in un pacchetto in un file JAR con il tipo di attività JAR
. Vedere Usare un file JAR in un processo di Azure Databricks.
Gestire i processi con Apache Airflow
Databricks consiglia di usare Processi di Azure Databricks per gestire e controllare i flussi di lavoro. Tuttavia, Apache Airflow viene comunemente usato come sistema di gestione e controllo del flusso di lavoro e fornisce supporto nativo per i processi di Azure Databricks. Mentre i processi di Azure Databricks offrono un'interfaccia utente visiva per creare i flussi di lavoro, Airflow usa i file Python per definire e distribuire le pipeline di dati. Per un esempio di creazione ed esecuzione di un processo con Airflow, vedere Gestire e controllare i processi di Azure Databricks con Apache Airflow.
Eseguire processi con un'entità servizio
È possibile eseguire i processi come account di servizio usando un'applicazione e un'entità servizio Microsoft Entra ID. L'esecuzione di un processo come account del servizio anziché di un singolo utente consente di controllare l'accesso al processo, assicurarsi che il processo disponga delle autorizzazioni necessarie e impedire problemi se un proprietario del processo viene rimosso da un'area di lavoro. Per un'esercitazione sulla creazione e l'uso di un'entità servizio per eseguire un processo di Azure Databricks, vedere Eseguire un processo con un'entità servizio di Microsoft Entra ID.