Introducción a LightGBM en SynapseML
LightGBM es un framework de potenciación de gradiente (GBDT, GBRT, GBM o MART) de código abierto, distribuido y de alto rendimiento. Este marco se especializa en la creación de algoritmos de árboles de decisión de alta calidad y compatibles con la GPU para clasificación, ordenación y muchas otras tareas de aprendizaje automático. LightGBM forma parte del proyecto DMTK de Microsoft.
Advantages of LightGBM
- Composibilidad: Los modelos LightGBM pueden incorporarse a la canalización SparkML existente y utilizarse para cargas de trabajo batch, streaming y servicio.
- Rendimiento: LightGBM en Spark es entre un 10 y un 30 % más rápido que SparkML en el Conjunto de datos Higgs y consigue un aumento del 15 % en AUC. Experimentos paralelos han verificado que LightGBM puede lograr una aceleración lineal utilizando múltiples máquinas para el entrenamiento en escenarios específicos.
- Funcionalidad: LightGBM ofrece una amplia gama de parámetros sintonizables, que uno puede utilizar para personalizar su sistema de árbol de decisión. LightGBM en Spark también admite nuevos tipos de problemas, como la regresión cuantil.
- Multiplataforma: LightGBM en Spark está disponible en Spark, PySpark y SparklyR.
Uso de LightGBM
- LightGBMClassifier: utilizado para crear modelos de clasificación. Por ejemplo, para predecir si una empresa quiebra o no, podríamos crear un modelo de clasificación binaria con
LightGBMClassifier
. - LightGBMRegressor: utilizado para crear modelos de regresión. Por ejemplo, para predecir el precio de la vivienda, podríamos crear un modelo de regresión con
LightGBMRegressor
. - LightGBMRanker: utilizado para crear modelos de clasificación. Por ejemplo, para predecir la relevancia de los resultados de búsqueda de un sitio web, podríamos crear un modelo de clasificación con
LightGBMRanker
.