Databricks Runtime pour le Machine Learning

Databricks Runtime pour Machine Learning (Databricks Runtime ML) automatise la création d’un cluster optimisé pour le Machine Learning. Les clusters Databricks Runtime ML incluent les bibliothèques de Machine Learning les plus populaires, comme TensorFlow, PyTorch, Keras et XGBoost, ainsi que les bibliothèques nécessaire pour l’entraînement distribué comme Horovod. L’utilisation de Databricks Runtime ML accélère la création des clusters et garantit la compatibilité des versions de bibliothèques installées.

pour obtenir des informations complètes sur l’utilisation de Azure Databricks pour Machine Learning et l’apprentissage profond, consultez le guide de Machine Learning de Databricks.

Pour plus d’informations sur le contenu de chaque version du runtime, consultez les notes de publication.

Databricks Runtime ML s’appuie sur Databricks Runtime. Par exemple, Databricks Runtime 7.3 LTS pour le Machine Learning repose sur Databricks Runtime 7.3 LTS. Les bibliothèques incluses dans le Databricks Runtime de base sont répertoriées dans les notes de publicationde Databricks Runtime.

Présentation d’Azure Databricks Runtime pour le Machine Learning

Ce didacticiel est destiné aux nouveaux utilisateurs de Databricks Runtime ML. Il faut environ 10 minutes pour fonctionner et illustre un exemple complet de chargement de données tabulaires, d’apprentissage d’un modèle, de paramétrage distribué des hyperparamètres et d’inférence de modèle. Il illustre également l’utilisation de l’API MLflow et du registre de modèle MLflow.

Bloc-notes Databricks Tutorial

Obtenir le notebook

Bibliothèques incluses dans Databricks Runtime ML

Le ML Databricks Runtime comprend une variété de bibliothèques ML populaires. Les bibliothèques sont mises à jour avec chaque version pour inclure de nouvelles fonctionnalités et des correctifs.

Azure Databricks a désigné un sous-ensemble des bibliothèques prises en charge en tant que bibliothèques de niveau supérieur. Pour ces bibliothèques, Azure Databricks offre une cadence de mise à jour plus rapide, en mettant à jour les versions les plus récentes des packages avec chaque version du Runtime (conflits de dépendances). Azure Databricks fournit également une prise en charge avancée, des tests et des optimisations incorporées pour les bibliothèques de niveau supérieur.

Pour obtenir la liste complète des bibliothèques de niveau supérieur et des autres bibliothèques fournies, consultez les articles suivants pour chaque Runtime disponible :

Comment utiliser Databricks Runtime ML

Outre les bibliothèques préinstallées, Databricks Runtime ML diffère des Databricks Runtime dans la configuration du cluster et dans la gestion des packages Python.

Créer un cluster en utilisant Databricks Runtime ML

Lorsque vous créez un cluster, sélectionnez une version de Databricks Runtime ML dans la liste déroulante Databricks Runtime Version. Les runtimes de ML UC et GPU sont disponibles.

Sélectionner Databricks Runtime ML

Si vous sélectionnez un runtime de ML avec GPU, vous êtes invité à sélectionner un type de pilote et un type de travailcompatibles. Les types d’instance incompatibles sont grisés dans les listes déroulantes. Les types d’instances compatibles GPU sont répertoriés sous l’étiquette Accelerated GPU .

Important

  • Les bibliothèques de votre espace de travail qui s' installent automatiquement dans tous les clusters peuvent entrer en conflit avec les bibliothèques incluses dans Databricks Runtime ml. avant de créer un cluster avec Databricks Runtime ML, désactivez la case à cocher installer automatiquement sur tous les clusters pour les bibliothèques conflictuelles. Consultez les notes de publication pour obtenir la liste des bibliothèques incluses dans chaque version de Databricks Runtime ML.
  • Pour accéder aux données de Unity Catalog pour les workflows de Machine Learning, vous devez utiliser un cluster Utilisateur unique. Les clusters d’isolation des utilisateurs ne sont pas compatibles avec Databricks Runtime ML.

Gérer les packages Python

Dans Databricks Runtime 9.0 ML et versions ultérieures, le gestionnaire de package virtualenv est utilisé pour installer les packages Python. Tous les packages Python sont installés dans un environnement unique : /databricks/python3 .

Dans le Runtime Databricks 8.4 ML et inférieur, le gestionnaire de paquets Conda est utilisé pour installer les paquets Python. Tous les packages Python sont installés dans un environnement unique : /databricks/python2 sur des clusters utilisant Python 2 et /databricks/python3 sur des clusters à l’aide de Python 3. Le changement (ou l’activation) des environnements Conda n’est pas pris en charge.

Pour plus d’informations sur la gestion des bibliothèques Python, consultez bibliothèques.

L’interface utilisateur pour le Machine Learning automatisé

Databricks Runtime ML comprend des outils pour automatiser le processus de développement de modèle et vous aider à trouver efficacement le modèle le plus performant.

  • AutoML crée, ajuste et évalue automatiquement un ensemble de modèles et crée un bloc-notes Python avec le code source pour chaque exécution afin que vous puissiez examiner, reproduire et modifier le code.
  • Managed MLFlow gère le cycle de vie du modèle de bout en bout, notamment le suivi des exécutions expérimentales, le déploiement et le partage de modèles et la gestion d’un registre de modèle centralisé.
  • Hyperopt, qui est complété avec la classe SparkTrials, automatise et distribue ML le paramétrage du modèle de modèle.

Limites

Databricks Runtime ML n’est pas pris en charge sur :