Qu'est-ce que LightGBM ?

LightGBM est un framework open-source, distribué et hautes performances d'amplification de gradient (GBDT, GBRT, GBM ou MART). Ce cadre est spécialisé dans la création d'algorithmes d'arbre de décision de haute qualité et compatibles GPU pour le classement, la classification et de nombreuses autres tâches d'apprentissage automatique. LightGBM fait partie du projet DMTK de Microsoft.

Avantages de LightGBM

  • Composabilité : les modèles LightGBM peuvent être intégrés aux pipelines SparkML existants et utilisés pour les charges de travail par lots, en streaming et de service.
  • Performances : LightGBM sur Spark est 10 à 30 % plus rapide que SparkML sur le jeu de données Higgs et atteint une augmentation de 15 % de l'AUC. Des expériences parallèles ont vérifié que LightGBM peut atteindre une accélération linéaire en utilisant plusieurs machines pour la formation dans des paramètres spécifiques.
  • Fonctionnalité : LightGBM offre un large éventail de paramètres réglables, que l'on peut utiliser pour personnaliser son système d'arbre de décision. LightGBM sur Spark prend également en charge de nouveaux types de problèmes tels que la régression quantile.
  • Multi-plateforme : LightGBM sur Spark est disponible sur Spark, PySpark et SparklyR.

Utilisation de LightGBM

  • LightGBMClassifier : utilisé pour construire des modèles de classification. Par exemple, pour prédire si une entreprise fait faillite ou non, nous pourrions construire un modèle de classification binaire avec LightGBMClassifier.
  • LightGBMRegressor : utilisé pour construire des modèles de régression. Par exemple, pour prédire le prix du logement, nous pourrions construire un modèle de régression avec LightGBMRegressor.
  • LightGBMRanker: utilisé pour construire des modèles de classement. Par exemple, pour prédire la pertinence des résultats de recherche sur un site Web, nous pourrions créer un modèle de classement avec LightGBMRanker.