Eseguire la migrazione di applicazioni dati ad Azure Databricks

Questo articolo offre un'introduzione alla migrazione di applicazioni dati esistenti ad Azure Databricks. Azure Databricks offre un approccio unificato che consente di usare i dati di molti sistemi di origine in una singola piattaforma.

Per una panoramica delle funzionalità della piattaforma, vedere Che cos'è Azure Databricks?.

Per informazioni sulla migrazione tra versioni di Databricks Runtime, vedere la guida alla migrazione di Databricks Runtime.

Eseguire la migrazione di processi ETL ad Azure Databricks

È possibile eseguire la migrazione di processi Apache Spark usati per estrarre, trasformare e caricare dati da implementazioni locali o native del cloud ad Azure Databricks con pochi passaggi. Vedere Adattare il codice Apache Spark predefinito per Azure Databricks.

Azure Databricks estende le funzionalità di Spark SQL con integrazioni open source preconfigurato, integrazioni partner e offerte di prodotti aziendali. Se i carichi di lavoro ETL vengono scritti in SQL o Hive, è possibile eseguire la migrazione ad Azure Databricks con un refactoring minimo. Altre informazioni sulle offerte SQL di Azure Databricks:

Per istruzioni specifiche sulla migrazione da vari sistemi di origine ad Azure Databricks, vedere Eseguire la migrazione di pipeline ETL ad Azure Databricks.

Sostituire il data warehouse aziendale con un lakehouse

Azure Databricks offre un valore ottimale e prestazioni quando i carichi di lavoro si allineano ai dati archiviati nella lakehouse. Molti stack di dati aziendali includono un data lake e un data warehouse aziendale e le organizzazioni creano flussi di lavoro ETL complessi per cercare di mantenere sincronizzati questi sistemi e dati. Il lakehouse consente di usare gli stessi dati, archiviati nel data lake, tra query e sistemi che in genere si basano su un data warehouse separato. Per altre informazioni sul lakehouse, vedere Che cos'è un data lakehouse?. Per altre informazioni sul data warehousing in Databricks, vedere Che cos'è il data warehousing in Azure Databricks?.

La migrazione da un data warehouse aziendale a lakehouse comporta in genere la riduzione della complessità dell'architettura dei dati e dei flussi di lavoro, ma esistono alcune avvertenze e procedure consigliate da tenere presenti durante il completamento di questo lavoro. Vedere Eseguire la migrazione del data warehouse al lakehouse di Databricks.

Unificare i carichi di lavoro ml, data science e analisi

Poiché il lakehouse offre un accesso ottimizzato ai file di dati basati sul cloud tramite query di tabella o percorsi di file, è possibile eseguire ML, data science e analisi su una singola copia dei dati. Azure Databricks semplifica lo spostamento dei carichi di lavoro da strumenti open source e proprietari e gestisce versioni aggiornate di molte librerie open source usate dagli analisti e dai data scientist.

I carichi di lavoro Pandas nei notebook di Jupyter possono essere sincronizzati ed eseguiti usando le cartelle Git di Databricks. Azure Databricks offre supporto nativo per pandas in tutte le versioni di Databricks Runtime e configura molte librerie di Machine Learning e deep learning più diffuse in Databricks Runtime per Machine Learning. Se si sincronizzano i carichi di lavoro locali usando i file Git e dell'area di lavoro nelle cartelle Git, è possibile usare gli stessi percorsi relativi per i dati e le librerie personalizzate presenti nell'ambiente locale.

Nota

Per impostazione predefinita, Azure Databricks gestisce .ipynb le estensioni per i notebook jupyter sincronizzati con le cartelle Git di Databricks, ma converte automaticamente i notebook jupyter in notebook di Databricks quando vengono importati con l'interfaccia utente. I notebook di Databricks vengono salvati con un'estensione .py e possono quindi essere affiancati ai notebook di Jupyter in un repository Git.