Uso de Apache Spark MLlib en Azure Databricks

Artículo
03/01/2024

En esta página se proporcionan cuadernos de ejemplo que muestran cómo usar MLlib en Azure Databricks.

Apache Spark MLlib es la biblioteca de aprendizaje automático de Apache Spark que consta de algoritmos y utilidades de aprendizaje comunes, como la clasificación, la regresión, la agrupación en clústeres, el filtrado colaborativo, la reducción de dimensionalidad, y las primitivas de optimización subyacentes. Para obtener información de referencia sobre las características de MLlib, Azure Databricks recomienda las siguientes referencias de la API de Apache Spark:

Para obtener información sobre cómo usar Apache Spark MLlib desde R, consulte la documentación sobre el aprendizaje automático en R.

Cuaderno de ejemplo de clasificación binaria

En este cuaderno se muestra cómo compilar una aplicación de clasificación binaria mediante Pipelines API de Apache Spark MLlib.

Cuaderno de clasificación binaria

Obtener el cuaderno

Cuadernos de ejemplo de árboles de decisión

En estos ejemplos se muestran varias aplicaciones de los árboles de decisión que usan Pipelines API de Apache Spark MLlib.

Árboles de decisión

En estos cuadernos se muestra cómo realizar clasificaciones con árboles de decisión.

Árboles de decisión del cuaderno de reconocimiento de dígitos

Obtener el cuaderno

Árboles de decisión del cuaderno de la encuesta de SFO

Obtener el cuaderno

Regresión de GBT mediante canalizaciones de MLlib

En este cuaderno se muestra cómo usar las canalizaciones de MLlib para realizar una regresión mediante árboles impulsados por gradiente para predecir el número de alquileres de bicicletas (por hora), a partir de información como el día de la semana, el tiempo, la temporada, etc.

Obtener el cuaderno

Ejemplo de canalizaciones de Apache Spark MLlib y Structured Streaming

En este se cuaderno muestra cómo entrenar una canalización de Apache Spark MLlib en el historial de datos y cómo aplicarla a los datos de streaming.

Cuaderno de Structured Streaming de canalizaciones de MLlib

Obtener el cuaderno

Cuaderno de ejemplo de Apache Spark MLlib avanzado

En este cuaderno se muestra cómo crear un transformador personalizado.

Cuaderno de transformador personalizado

Obtener el cuaderno

Uso de Apache Spark MLlib en Azure Databricks

Cuaderno de ejemplo de clasificación binaria

Cuaderno de clasificación binaria

Cuadernos de ejemplo de árboles de decisión

Árboles de decisión

Árboles de decisión del cuaderno de reconocimiento de dígitos

Árboles de decisión del cuaderno de la encuesta de SFO

Regresión de GBT mediante canalizaciones de MLlib

Cuaderno de regresión de uso compartido de bicicletas

Ejemplo de canalizaciones de Apache Spark MLlib y Structured Streaming

Cuaderno de Structured Streaming de canalizaciones de MLlib

Cuaderno de ejemplo de Apache Spark MLlib avanzado

Cuaderno de transformador personalizado

Recursos adicionales