Förbereda data och miljö för ML och DL
I det här avsnittet beskrivs hur du förbereder dina data och din Azure Databricks-miljö för maskininlärning och djupinlärning.
Förbereda data
Artiklarna i det här avsnittet beskriver aspekter av inläsning och förbearbetning av data som är specifika för ML- och DL-program.
- Läsa in data för maskininlärning och djupinlärning
- Förbearbeta data för maskininlärning och djupinlärning
Förbereda miljön
Databricks Runtime for Machine Learning (Databricks Runtime ML) är en färdig miljö som är optimerad för maskininlärning och datavetenskap. Databricks Runtime ML innehåller många externa bibliotek, däribland TensorFlow, PyTorch, Horovod, scikit-learn och XGBoost. Det tillhandahåller även tillägg för att förbättra prestanda, däribland GPU-acceleration i XGBoost, distribuerad djupinlärning med HorovodRunner och modellkontrollpunkter med ett Databricks-filsystem (DBFS) FUSE-montering.
Om du vill använda Databricks Runtime ML väljer du ML-versionen av körningen när du skapar klustret.
Kommentar
För att få åtkomst till data i Unity Catalog för arbetsflöden för maskininlärning måste åtkomstläget för klustret vara en enda användare (tilldelad). Delade kluster är inte kompatibla med Databricks Runtime för Machine Learning.
Installera bibliotek
Du kan installera ytterligare bibliotek för att skapa en anpassad miljö för notebook-filen eller klustret.
- Skapa ett klusterbibliotek för att göra ett bibliotek tillgängligt för alla notebook-filer som körs i ett kluster. Du kan också använda ett init-skript för att installera bibliotek i kluster när de skapas.
- Om du vill installera ett bibliotek som endast är tillgängligt för en specifik notebook-session använder du Python-bibliotek med notebook-omfattning.
Använda GPU-kluster
Du kan skapa GPU-kluster för att påskynda djupinlärningsuppgifter. Information om hur du skapar Azure Databricks GPU-kluster finns i GPU-aktiverad beräkning. Databricks Runtime ML har drivrutiner för GPU-maskinvara och NVIDIA-bibliotek som CUDA.