Préparer les données et l’environnement pour ML et DL
Cette section explique comment préparer vos données et votre environnement Azure Databricks pour le Machine Learning et le Deep Learning.
Préparer les données
Les articles de cette section couvrent les aspects du chargement et du prétraitement des données spécifiques aux applications ML et DL.
- Charger des données pour le Machine Learning et le Deep Learning
- Pré-traiter des données pour le Machine Learning et le Deep Learning
Préparer l’environnement
Databricks Runtime pour le Machine Learning (Databricks Runtime ML) est un environnement prêt à l’emploi optimisé pour le machine learning et la science des données. Databricks Runtime ML présente de nombreuses bibliothèques externes, notamment TensorFlow, PyTorch, Horovod, scikit-Learn et XGBoost, et fournit des extensions pour améliorer les performances, notamment l’accélération de GPU dans XGBoost, le Deep Learning distribué utilisant HorovodRunner et le point de contrôle de modèle utilisant un montage DBFS (Databricks File System)/FUSE.
Pour utiliser Databricks Runtime ML, sélectionnez la version ML du runtime quand vous créez votre cluster.
Remarque
Pour accéder aux données dans Unity Catalog pour les flux de travail Machine Learning, le mode d’accès du cluster doit être un utilisateur unique (affecté). Les clusters partagés ne sont pas compatibles avec Databricks Runtime pour le Machine Learning.
Installation des bibliothèques
Vous pouvez installer des bibliothèques supplémentaires afin de créer un environnement personnalisé pour votre notebook ou cluster.
- Pour mettre une bibliothèque à la disposition de tous les notebooks s’exécutant sur un cluster, créez une bibliothèque de clusters. Vous pouvez également utiliser un script init pour installer des bibliothèques sur des clusters lors de leur création.
- Pour installer une bibliothèque disponible uniquement pour une session de notebook spécifique, utilisez des bibliothèques Python avec étendue de notebook.
Utiliser des clusters GPU
Vous pouvez créer des clusters GPU pour accélérer les tâches de Deep Learning. Pour plus d’informations sur la création de clusters GPU Azure Databricks, consultez Calcul avec GPU. Databricks Runtime ML intègre des pilotes matériels GPU et des bibliothèques NVIDIA comme CUDA.