Préparer les données et l’environnement pour ML et DL

Cette section explique comment préparer vos données et votre environnement Azure Databricks pour le Machine Learning et le Deep Learning.

Préparer les données

Les articles de cette section couvrent les aspects du chargement et du prétraitement des données spécifiques aux applications ML et DL.

Préparer l’environnement

Databricks Runtime pour le Machine Learning (Databricks Runtime ML) est un environnement prêt à l’emploi optimisé pour le machine learning et la science des données. Databricks Runtime ML présente de nombreuses bibliothèques externes, notamment TensorFlow, PyTorch, Horovod, scikit-Learn et XGBoost, et fournit des extensions pour améliorer les performances, notamment l’accélération de GPU dans XGBoost, le Deep Learning distribué utilisant HorovodRunner et le point de contrôle de modèle utilisant un montage DBFS (Databricks File System)/FUSE.

Pour utiliser Databricks Runtime ML, sélectionnez la version ML du runtime quand vous créez votre cluster.

Remarque

Pour accéder aux données dans Unity Catalog pour les flux de travail Machine Learning, le mode d’accès du cluster doit être un utilisateur unique (affecté). Les clusters partagés ne sont pas compatibles avec Databricks Runtime pour le Machine Learning.

Installation des bibliothèques

Vous pouvez installer des bibliothèques supplémentaires afin de créer un environnement personnalisé pour votre notebook ou cluster.

Utiliser des clusters GPU

Vous pouvez créer des clusters GPU pour accélérer les tâches de Deep Learning. Pour plus d’informations sur la création de clusters GPU Azure Databricks, consultez Calcul avec GPU. Databricks Runtime ML intègre des pilotes matériels GPU et des bibliothèques NVIDIA comme CUDA.