Uso de Apache Spark MLlib en Azure Databricks

Apache Spark MLlib es la biblioteca de aprendizaje automático de Apache Spark que consta de algoritmos y utilidades de aprendizaje comunes, como la clasificación, la regresión, la agrupación en clústeres, el filtrado colaborativo, la reducción de dimensionalidad, y las primitivas de optimización subyacentes. Azure Databricks recomienda las siguientes guías de Apache Spark MLlib:

Cuadernos de ejemplo

En los siguientes cuadernos se muestra cómo usar varias características de Apache Spark MLlib con Azure Databricks.

En esta sección:

Ejemplo de clasificación binaria

En este cuaderno se muestra cómo compilar una aplicación de clasificación binaria mediante Pipelines API de Apache Spark MLlib.

Cuaderno de clasificación binaria

Obtener el cuaderno

Ejemplos de árboles de decisión

En estos ejemplos se muestran varias aplicaciones de los árboles de decisión que usan Pipelines API de Apache Spark MLlib.

Árboles de decisión

En estos cuadernos se muestra cómo realizar clasificaciones con árboles de decisión.

Árboles de decisión del cuaderno de reconocimiento de dígitos

Obtener el cuaderno

Árboles de decisión del cuaderno de la encuesta de SFO

Obtener el cuaderno

Regresión de GBT mediante canalizaciones de MLlib

En este cuaderno se muestra cómo usar las canalizaciones de MLlib para realizar una regresión mediante árboles impulsados por gradiente para predecir el número de alquileres de bicicletas (por hora), a partir de información como el día de la semana, el tiempo, la temporada, etc.

Cuaderno de regresión de uso compartido de bicicletas

Obtener el cuaderno

Ejemplo de canalizaciones de Apache Spark MLlib y Structured Streaming

En este se cuaderno muestra cómo entrenar una canalización de Apache Spark MLlib en el historial de datos y cómo aplicarla a los datos de streaming.

Cuaderno de Structured Streaming de canalizaciones de MLlib

Obtener el cuaderno

Ejemplo avanzado de Apache Spark MLlib

En este cuaderno se muestra cómo crear un transformador personalizado.

Cuaderno de transformador personalizado

Obtener el cuaderno

Para obtener información de referencia sobre las características de MLlib, Azure Databricks recomienda la siguiente referencia de la API de Apache Spark:

Para usar Apache Spark MLlib desde R, consulte la documentación sobre el aprendizaje automático en R.

Para obtener compatibilidad de Azure Databricks con la visualización de algoritmos de aprendizaje automático, consulte Visualizaciones de aprendizaje automático.