Cette page fournit des exemples d’utilisation du package scikit-learn pour entraîner des modèles Machine Learning dans Azure Databricks. scikit-learn est l’une des bibliothèques Python les plus populaires pour le Machine Learning mononœud. Elle est incluse dans Databricks Runtime et Databricks Runtime ML. Pour la version de la bibliothèque scikit-learn incluse dans le runtime de votre cluster, consultez Notes de publication de Databricks Runtime.
Vous pouvez importer ces notebooks et les exécuter dans votre espace de travail Azure Databricks.
Ce notebook offre une vue d’ensemble rapide de la formation de modèles Machine Learning sur Azure Databricks. Il utilise le package scikit-learn pour entraîner un modèle de classification simple. Il illustre également l’utilisation de MLflow pour suivre le processus de développement de modèles et Optuna pour automatiser le réglage des hyperparamètres.
Si votre espace de travail est activé pour Unity Catalog, utilisez cette version du notebook :
Notebook de classification scikit-learn (Unity Catalog)
Exemple de bout en bout avec scikit-learn sur Azure Databricks
Ce notebook utilise scikit-learn pour illustrer un exemple complet de chargement de données, d’apprentissage d’un modèle, de réglage distribué des hyperparamètres et d’inférence de modèle. Il illustre également la gestion du cycle de vie des modèles en utilisant MLflow Model Registry pour consigner et inscrire votre modèle.
Si votre espace de travail est activé pour Unity Catalog, utilisez cette version du notebook :
Utilisation de scikit-learn avec l’intégration MLflow dans Databricks (Unity Catalog)
Azure Databricks est une plateforme à l’échelle du cloud pour l’analytique données et le Machine Learning. Les scientifiques des données et les ingénieurs en machine learning peuvent utiliser Azure Databricks pour implémenter des solutions de machine learning à grande échelle. (DP-3014)
Gérer l’ingestion et la préparation des données, l’entraînement et le déploiement des modèles, ainsi que la surveillance des solutions d’apprentissage automatique avec Python, Azure Machine Learning et MLflow.