Entrenamiento de modelos de ML con la API de Python de AutoML en Azure Databricks

Artículo
07/08/2024

En este artículo se muestra cómo entrenar un modelo con AutoML de Azure Databricks mediante la API Python de AutoML. Para más información, consulte Referencia de la API Python de AutoML de Azure Databricks.

La API proporciona funciones para iniciar las ejecuciones de AutoML de clasificación, regresión y previsión. Cada llamada de función entrena un conjunto de modelos y genera un cuaderno de prueba para cada modelo.

Consulte los requisitos para los experimentos de AutoML.

Configuración de experimentos mediante la API de AutoML

En los siguientes pasos se describe a grandes rasgos cómo configurar un experimento de AutoML mediante la API:

Cree un cuaderno y adjúntelo a un clúster que ejecute Databricks Runtime ML.
Identifique qué tabla desea usar desde el origen de datos existente o cargue un archivo de datos en DBFS y cree una tabla.
Para iniciar una ejecución de AutoML, use las funciones automl.regress() o automl.classify() y pase la tabla, junto con cualesquiera otros parámetro de entrenamiento. Para ver todas las funciones y parámetros, consulte Referencia de la Python API de AutoML de Azure Databricks.

Por ejemplo:
```
summary = automl.regress(dataset=train_pdf, target_col="col_to_predict")
```
Cuando se inicia la ejecución de AutoML, aparece una URL del experimento de MLflow en la consola. Use esta dirección URL para supervisar el progreso de la ejecución. Actualice el experimento de MLflow para ver las pruebas a medida que se completan.
Una vez completada la ejecución de AutoML:

Use los vínculos del resumen de salida para ir al experimento de MLflow o al cuaderno que generó los mejores resultados.
Use el vínculo al cuaderno de exploración de datos para obtener información sobre los datos pasados a AutoML. También puede adjuntar este cuaderno al mismo clúster y volver a ejecutarlo para reproducir los resultados o realizar análisis de datos adicionales.
Use el objeto de resumen devuelto por la llamada a AutoML para explorar más detalles sobre las pruebas, o para cargar un modelo entrenado por una prueba determinada. Obtenga más información sobre el objeto AutoMLSummary.
Clone los cuadernos generados a partir de las pruebas, y vuelva a ejecutarlo asociándolo al mismo clúster para reproducir los resultados. También puede realizar las modificaciones necesarias y volver a ejecutarlas, para entrenar modelos adicionales y registrarlos en el mismo experimento.

Importación de un cuaderno

Para importar un cuaderno guardado como un artefacto de MLflow, use la Python API databricks.automl.import_notebook. Para más información, consulte Importación de cuadernos.

Registro e implementación de un modelo

El modelo entrenado de AutoML se puede registrar e implementar igual que cualquier otro modelo registrado en el registro de modelos de MLflow. Consulte Registro, carga e implementación de modelos de MLflow.

No hay ningún módulo denominado `pandas.core.indexes.numeric`

Al atender un modelo compilado mediante AutoML con el servicio de modelos, puede obtener este error: No module named 'pandas.core.indexes.numeric.

Esto se debe a una versión de pandas incompatible entre AutoML y el entorno de punto de conexión del servicio de modelos. Para resolver este error, ejecute el script add-pandas-dependency.py. El script edita requirements.txt y conda.yaml para que el modelo registrado incluya la versión de dependencia adecuada pandas: pandas==1.5.3.

Modifique el script para incluir el run_id de la ejecución de MLflow donde se ha registrado el modelo.
Vuelva a registrar el modelo en el registro del modelo de MLflow.
Pruebe a servir la nueva versión del modelo de MLflow.

Ejemplos de cuadernos

Revise estos cuadernos para empezar a trabajar con AutoML.

El siguiente cuaderno muestra cómo hacer la clasificación con AutoML.

Cuaderno de ejemplo de clasificación de AutoML

Obtener el cuaderno

El siguiente cuaderno muestra cómo hacer una regresión con AutoML.

Cuaderno de ejemplo de regresión de AutoML

Obtener el cuaderno

El siguiente cuaderno muestra cómo hacer previsiones con AutoML.

Cuaderno de ejemplo de previsión de AutoML

Obtener el cuaderno

Pasos siguientes

Referencia de la Python API de AutoML de Azure Databricks.

Compartir a través de

Entrenamiento de modelos de ML con la API de Python de AutoML en Azure Databricks

Configuración de experimentos mediante la API de AutoML

Importación de un cuaderno

Registro e implementación de un modelo

No hay ningún módulo denominado `pandas.core.indexes.numeric`

Ejemplos de cuadernos

Cuaderno de ejemplo de clasificación de AutoML

Cuaderno de ejemplo de regresión de AutoML

Cuaderno de ejemplo de previsión de AutoML

Pasos siguientes

Comentarios

Comentarios

Recursos adicionales

Compartir a través de

Entrenamiento de modelos de ML con la API de Python de AutoML en Azure Databricks

Configuración de experimentos mediante la API de AutoML

Importación de un cuaderno

Registro e implementación de un modelo

No hay ningún módulo denominado pandas.core.indexes.numeric

Ejemplos de cuadernos

Cuaderno de ejemplo de clasificación de AutoML

Cuaderno de ejemplo de regresión de AutoML

Cuaderno de ejemplo de previsión de AutoML

Pasos siguientes

Comentarios

Comentarios

Recursos adicionales

No hay ningún módulo denominado `pandas.core.indexes.numeric`