Databricks Runtime pour le Machine Learning

Cette page décrit le Runtime Databricks pour Machine Learning et fournit des conseils sur la création d’une ressource de calcul classique qui l’utilise.

Qu’est-ce que Databricks Runtime pour Machine Learning ?

Databricks Runtime pour Machine Learning (Databricks Runtime ML) automatise la création d'une ressource de calcul avec les infrastructures de machine learning et de deep learning prédéfinies, incluant les bibliothèques ML et DL les plus courantes.

Bibliothèques incluses dans Databricks Runtime ML

Databricks Runtime ML comprend une variété de bibliothèques ML populaires. Les bibliothèques sont mises à jour avec chaque version pour inclure de nouvelles fonctionnalités et des correctifs.

Databricks a désigné un sous-ensemble des bibliothèques prises en charge en tant que bibliothèques de niveau supérieur. Pour ces bibliothèques, Databricks offre une cadence de mise à jour plus rapide, en mettant à jour vers les dernières versions des packages avec chaque release du runtime (à l'exception des conflits de dépendances). Databricks fournit également une prise en charge avancée, des tests et des optimisations incorporées pour les bibliothèques de niveau supérieur. Les bibliothèques de niveau supérieur sont ajoutées ou supprimées uniquement avec les versions majeures.

Pour obtenir la liste complète des bibliothèques de niveau supérieur et des autres bibliothèques fournies, consultez les notes de publication de Databricks Runtime ML.
Pour plus d’informations sur la fréquence à laquelle les bibliothèques sont mises à jour et quand les bibliothèques sont déconseillées, consultez la stratégie de maintenance Databricks Runtime ML.

Vous pouvez installer des bibliothèques supplémentaires pour créer un environnement personnalisé pour votre bloc-notes ou votre ressource de calcul.

Pour rendre une bibliothèque disponible pour tous les notebooks s’exécutant sur une ressource de calcul, créez une bibliothèque spécifique au calcul. Vous pouvez également utiliser un script init pour installer des bibliothèques lors de la création du calcul.
Pour installer une bibliothèque disponible uniquement pour une session de notebook spécifique, utilisez des bibliothèques Python avec étendue de notebook.

Créer une ressource de calcul avec Databricks Runtime pour ML

Pour créer une ressource de calcul qui utilise Databricks Runtime pour ML, cochez la case Machine Learning dans l’interface utilisateur de création de calcul. Cela définit automatiquement le mode d’accès dédié avec votre compte en tant qu’utilisateur dédié. Vous pouvez affecter manuellement la ressource de calcul à un autre utilisateur ou groupe dans la section Avancé de l’interface utilisateur de création de calcul.

Pour le calcul basé sur GPU, sélectionnez un type d’instance compatible GPU dans le menu déroulant Type Worker . Pour obtenir la liste complète des types de GPU pris en charge, consultez Types d’instances pris en charge.

Photon et Databricks Runtime ML

Lorsque vous créez une ressource de calcul qui exécute Databricks Runtime 15.2 ML ou version ultérieure, vous pouvez choisir d’activer Photon. Photon améliore les performances des applications à l’aide de Spark SQL, de Spark DataFrames, d’ingénierie de caractéristiques, de GraphFrames et de xgboost4j. Il n'est pas attendu que cela améliore les performances des applications utilisant des RDD Spark, des UDF Pandas, et des langages qui ne fonctionnent pas sur la JVM comme Python. Ainsi, les packages Python tels que XGBoost, PyTorch et TensorFlow ne voient pas d’amélioration avec Photon.

Les API Spark RDD et Spark MLlib ont une compatibilité limitée avec Photon. Lors du traitement de grands jeux de données en utilisant Spark RDD ou Spark MLlib, vous pouvez rencontrer des problèmes de mémoire Spark. Consultez Problèmes de mémoire Spark.

Mode d’accès au calcul pour Databricks Runtime ML

Pour accéder aux données du catalogue Unity sur une ressource de calcul exécutant Databricks Runtime ML, vous devez définir le mode d’accès sur Dedicated. Le mode d’accès est automatiquement défini dans l’interface utilisateur de création de calcul lorsque vous cochez la case Machine Learning .

Lorsqu’une ressource de calcul dispose d’un mode d’accès dédié , la ressource peut être affectée à un seul utilisateur ou à un groupe. Lorsqu’il est affecté à un groupe, les permissions de l’utilisateur sont automatiquement réduites aux permissions du groupe, ce qui permet à l’utilisateur de partager en toute sécurité la ressource avec d’autres membres du groupe.

Lorsque vous utilisez le mode d’accès dédié, les fonctionnalités suivantes sont disponibles uniquement sur Databricks Runtime 15.4 LTS ML et versions ultérieures :

Contrôle d’accès affiné.
Interroger des tables créées avec des pipelines Lakeflow, notamment des tables de streaming et des vues matérialisées.

Entraîner des modèles

Les ressources suivantes vous montrent comment entraîner des modèles Machine Learning et IA.

Databricks Model Training simplifie et unifie le processus d’entraînement et de déploiement de modèles ML traditionnels par le biais de charges de travail d’optimisation des modèles AutoML et Foundation Model.

AutoML

AutoML simplifie le processus d’application du Machine Learning à vos jeux de données en recherchant automatiquement la meilleure configuration d’algorithme et d’hyperparamètre. AutoML offre une interface utilisateur sans code ainsi qu’une API Python.

Réglage précis du modèle de base

Foundation Model Fine-tuning (désormais partie de Databricks Model Training) sur Azure Databricks vous permet de personnaliser des modèles de langage volumineux (LLMs) à l’aide de vos propres données. Ce processus implique le réglage de la formation d’un modèle de base préexistant, réduisant considérablement les données, le temps et les ressources de calcul nécessaires par rapport à la formation d’un modèle à partir de rien. Les principales fonctionnalités sont les suivantes :

Réglage précis des instructions : Adaptez votre modèle à de nouvelles tâches en effectuant une formation sur des données de réponse rapide structurées.
Préformation continue : améliorez votre modèle à l’aide de des données de texte supplémentaires pour ajouter de nouvelles connaissances ou vous concentrer sur un domaine spécifique.
Complétion de conversation : entraînez votre modèle sur les journaux de conversation pour améliorer les capacités conversationnelles.

Exemples de bibliothèques open source

Consultez les exemples d’entraînement d’apprentissage automatique à partir d’un large éventail de bibliothèques d’apprentissage automatique open source, y compris des exemples de réglage d’hyperparamètres à l’aide d’Optuna et d’Hyperopt.

Apprentissage approfondi

Consultez des exemples et des bonnes pratiques pour l’apprentissage profond distribué afin de développer et d’ajuster les modèles deep learning sur Azure Databricks.

Recommandations

Découvrez comment entraîner des modèles de recommandation basés sur le Deep Learning sur Azure Databricks. Par rapport aux modèles de recommandation traditionnels, les modèles de deep learning peuvent obtenir des résultats de qualité plus élevés et s’adapter à des quantités de données plus importantes.

Commentaires

Est-ce que cette page vous a été utile?

Last updated on 2026-07-10