Utiliser Apache Spark MLlib dans Azure Databricks
Cette page fournit des exemples de notebooks pour savoir comment utiliser MLlib sur Azure Databricks.
Apache Spark MLlib est la bibliothèque de machine learning Apache Spark constituée d’utilitaires et d’algorithmes d’entraînement courants, notamment la classification, la régression, le clustering, le filtrage collaboratif, la réduction de la dimensionnalité, et les primitives d’optimisation sous-jacentes. Pour obtenir des informations de référence sur les fonctionnalités MLlib, Azure Databricks recommande de consulter les informations de référence des API Apache Spark suivantes :
- Guide de programmation MLlib
- Informations de référence sur l’API Python
- Informations de référence sur l’API Scala
- API Java
Pour obtenir des informations sur l’utilisation d’Apache Spark MLlib à partir de R, consultez la documentation Machine Learning avec R.
Exemple de notebook de classification binaire
Ce notebook vous montre comment créer une application de classification binaire avec l’API Apache Spark MLlib Pipelines.
Notebook de classification binaire
Exemples de notebooks d’arbres de décision
Ces exemples illustrent différentes applications d’arbres de décision avec l’API Apache Spark MLlib Pipelines.
Arbres de décision
Ces notebooks vous montrent comment effectuer des classifications avec des arbres de décision.
Arbres de décision pour le notebook de reconnaissance des chiffres
Arbres de décision pour le notebook d’enquête SFO
Régression GBT avec des pipelines MLlib
Ce notebook vous montre comment utiliser des pipelines MLlib pour effectuer une régression à l’aide d’arbres avec dégradé avancé et prédire le nombre de locations de vélo (par heure) à partir d’informations telles que le jour de la semaine, la météo, la saison, etc.
Notebook de régression de partage de vélo
Exemple de notebook Apache Spark MLlib avancé
Ce notebook illustre la création d’un transformateur personnalisé.