Förbereda data och miljö för ML och DL

I det här avsnittet beskrivs hur du förbereder dina data och din Azure Databricks-miljö för maskininlärning och djupinlärning.

Förbereda data

Artiklarna i det här avsnittet beskriver aspekter av inläsning och förbearbetning av data som är specifika för ML- och DL-program.

Förbereda miljön

Databricks Runtime for Machine Learning (Databricks Runtime ML) är en färdig miljö som är optimerad för maskininlärning och datavetenskap. Databricks Runtime ML innehåller många externa bibliotek, däribland TensorFlow, PyTorch, Horovod, scikit-learn och XGBoost. Det tillhandahåller även tillägg för att förbättra prestanda, däribland GPU-acceleration i XGBoost, distribuerad djupinlärning med HorovodRunner och modellkontrollpunkter med ett Databricks-filsystem (DBFS) FUSE-montering.

Om du vill använda Databricks Runtime ML väljer du ML-versionen av körningen när du skapar klustret.

Kommentar

För att få åtkomst till data i Unity Catalog för arbetsflöden för maskininlärning måste åtkomstläget för klustret vara en enda användare (tilldelad). Delade kluster är inte kompatibla med Databricks Runtime för Machine Learning.

Installera bibliotek

Du kan installera ytterligare bibliotek för att skapa en anpassad miljö för notebook-filen eller klustret.

Använda GPU-kluster

Du kan skapa GPU-kluster för att påskynda djupinlärningsuppgifter. Information om hur du skapar Azure Databricks GPU-kluster finns i GPU-aktiverad beräkning. Databricks Runtime ML har drivrutiner för GPU-maskinvara och NVIDIA-bibliotek som CUDA.