Preparare i dati e l'ambiente per ML e DL

Questa sezione descrive come preparare i dati e l'ambiente Azure Databricks per Machine Learning e Deep Learning.

Preparazione dei dati

Gli articoli di questa sezione illustrano gli aspetti relativi al caricamento e alla pre-elaborazione dei dati specifici per le applicazioni ML e DL.

Preparare l'ambiente

Databricks Runtime per Machine Learning (Databricks Runtime ML) è un ambiente pronto per l'uso ottimizzato per l'apprendimento automatico e l'analisi scientifica dei dati. Databricks Runtime ML include molte librerie esterne, tra cui TensorFlow, PyTorch, Horovod, scikit-learn e XGBoost, e offre estensioni per migliorare le prestazioni, ad esempio accelerazione della GPU in XGBoost, Deep Learning distribuito con HorovodRunner e impostazione del checkpoint dei modelli con montaggio Databricks File System (DBFS) FUSE.

Per usare Databricks Runtime ML, selezionare la versione ml del runtime quando si crea il cluster.

Nota

Per accedere ai dati in Unity Catalog per i flussi di lavoro di Machine Learning, la modalità di accesso per il cluster deve essere un singolo utente (assegnato). I cluster condivisi non sono compatibili con Databricks Runtime per Machine Learning.

Installare le librerie

È possibile installare librerie aggiuntive per creare un ambiente personalizzato per il notebook o il cluster.

  • Per rendere disponibile una libreria per tutti i notebook in esecuzione in un cluster, creare una libreria cluster. È anche possibile usare uno script init per installare librerie nei cluster al momento della creazione.
  • Per installare una libreria disponibile solo per una sessione di notebook specifica, usare librerie Python con ambito notebook.

Usare cluster GPU

È possibile creare cluster GPU per accelerare le attività di Deep Learning. Per informazioni sulla creazione di cluster GPU di Azure Databricks, vedere Calcolo abilitato per GPU. Databricks Runtime ML include driver per hardware GPU e librerie NVIDIA, ad esempio CUDA.