Uso de la interfaz AutoML de código bajo en Fabric

La interfaz autoML de poco código de Fabric facilita la introducción al aprendizaje automático mediante la especificación de la tarea de ML y algunas configuraciones básicas. En función de estas selecciones, la interfaz de usuario de AutoML genera un cuaderno preconfigurado adaptado a las entradas. Al ejecutar el cuaderno, registra y realiza un seguimiento automático de todas las métricas y iteraciones del modelo dentro de los experimentos y elementos del modelo existentes, lo que proporciona una manera organizada y eficaz de administrar y evaluar el rendimiento del modelo.

Requisitos previos

  • Obtenga una suscripción Microsoft Fabric. O bien, regístrese para obtener una prueba gratuita Microsoft Fabric.

  • Inicie sesión en Microsoft Fabric.

  • Cambie a Fabric mediante el conmutador de experiencia en el lado inferior izquierdo de la página principal.

    Captura de pantalla que muestra la selección de Fabric en el menú del cambiador de experiencia.

Configuración de una versión de prueba de ML automatizado

Puede iniciar convenientemente el Asistente para AutoML en Fabric directamente desde un elemento de experimento, modelo o cuaderno existente.

Captura de pantalla del punto de entrada de AutoML de un elemento de experimento.

Elegir origen de datos

Como usuario de AutoML en Fabric, puede seleccionar entre sus lakehouses disponibles, facilitando el acceso y el análisis de los datos almacenados en la plataforma. Después de seleccionar una instancia de Lakehouse, elija una tabla o archivo específico que se usará para las tareas de AutoML.

Captura de pantalla seleccionando un 'Lakehouse' en AutoML.

Sugerencia

Al seleccionar una instancia de LakeHouse, puede elegir una tabla o un archivo para usarlo con AutoML. Los tipos de archivo admitidos incluyen CSV, XLS, XLSX y JSON.

Definición del propósito del modelo de ML

En este paso, los usuarios definen el propósito de su modelo seleccionando la tarea de ML que mejor se adapte a sus datos y objetivos.

Captura de pantalla de la selección de una tarea y el modo de un modelo en AutoML.

El asistente de AutoML de Fabric ofrece las siguientes tareas de aprendizaje automático:

  • Regresión: para predecir valores numéricos continuos.
  • Clasificación binaria: para clasificar los datos en una de estas dos clases.
  • Clasificación de varias clases: para clasificar los datos en una de entre varias clases.
  • Previsión: para realizar predicciones sobre datos de series temporales.

Una vez que haya seleccionado la tarea ML, puede elegir un Modo AutoML. Cada modo establece configuraciones predeterminadas para la versión de prueba de AutoML, como los modelos que se van a explorar y el tiempo asignado para encontrar el mejor modelo. Los modos disponibles son:

  • Prototipo rápido: ofrece resultados rápidos, excelente para probar e iterar rápidamente.
  • Modo interpretable: se ejecuta durante un poco más de tiempo y se centra en los modelos que son inherentemente más fáciles de interpretar.
  • Mejor ajuste: realiza una búsqueda más completa con un tiempo de ejecución prolongado, con el objetivo de encontrar el mejor modelo posible.
  • Personalizado: permite ajustar manualmente algunas opciones de la versión de prueba de AutoML para obtener una configuración personalizada.

Al seleccionar la tarea de ML adecuada y el modo de AutoML, se garantiza que el asistente de AutoML se alinee con los objetivos, la velocidad de equilibrio, la interpretabilidad y el rendimiento en función de la configuración elegida.

Configuración de los datos de entrenamiento

En este paso, configurará los datos de entrenamiento que AutoML usará para compilar el modelo. Para empezar, seleccione la columna de predicción esta es la columna de destino que el modelo se entrenará para predecir.

Captura de pantalla de la configuración de datos de entrenamiento para AutoML.

Después de seleccionar la columna de predicción, puedes personalizar aún más cómo se controlan los datos de entrada:

  • Tipos de datos: Revise y ajuste los tipos de datos de cada columna de entrada para garantizar la compatibilidad y optimizar el rendimiento del modelo.
  • Método de imputación: elige cómo controlar los valores que faltan en el conjunto de datos seleccionando un método de imputación, lo que rellenará los huecos en los datos en función de sus preferencias.

También puedes habilitar o deshabilitar la configuración de featurización automática. Cuando se habilita, la autofeaturización genera características adicionales para el entrenamiento, potencialmente mejorando el rendimiento del modelo al extraer información extra de los datos. Definir esta configuración de datos ayuda al asistente de AutoML a interpretar y procesar el conjunto de datos con precisión, lo que mejora la calidad de los resultados de la prueba.

Captura de pantalla de la featurización automática de AutoML.

Suministro de los detalles finales

Ahora, decide cómo desea que se ejecute la versión de prueba de AutoML, junto con las convenciones de nomenclatura para el experimento y la salida. Tienes dos opciones para ejecutar la versión de prueba de AutoML:

  • Entrenar varios modelos simultáneamente: Esta opción es ideal si los datos se pueden cargar en un DataFrame de Pandas, lo que le permite usar el clúster de Spark para ejecutar varios modelos en paralelo. Este enfoque acelera el proceso de prueba mediante el entrenamiento de varios modelos a la vez.

  • Entrenar modelos secuencialmente mediante Spark: esta opción es adecuada para conjuntos de datos más grandes o para aquellos que se benefician del entrenamiento distribuido. Usa Spark y SynapseML para explorar modelos distribuidos, entrenando un modelo a la vez con la escalabilidad que proporciona Spark.

Nota:

Actualmente, el modo Spark no admite el registro del esquema de entrada y salida para los modelos basados en Spark. Este esquema es un campo obligatorio para la función PREDICT de SynapseML. Como solución alternativa, puede cargar el modelo directamente con MLflow y realizar la inferencia en el cuaderno, omitiendo el requisito de esquema para la predicción.

Después de seleccionar el modo de ejecución, finaliza la configuración especificando nombres para el Cuaderno, el Experimento y el Modelo. Estas convenciones de nomenclatura ayudan a organizar los recursos de AutoML dentro de Fabric y facilitan el seguimiento y la administración de las pruebas. Una vez completado, se genera un cuaderno basado en tus selecciones, listo para ejecutarlo y personalizarlo según sea necesario.

Revisión y creación de cuadernos

En el paso final, tiene la oportunidad de revisar toda la configuración de AutoML y obtener una vista previa del código generado que se alinea con las selecciones. Esta es la oportunidad de asegurarte de que la tarea, el modo, la configuración de datos y otras configuraciones de ML elegidas cumplen tus objetivos.

Captura de pantalla de la finalización de los detalles de AutoML.

Una vez que esté satisfecho, puede finalizar este paso para generar un cuaderno que incluya todos los componentes de la versión de prueba de AutoML. Este cuaderno te permite realizar un seguimiento de cada fase del proceso, desde la preparación de datos hasta la evaluación del modelo, y sirve como un registro completo del trabajo. También puedes personalizar aún más este cuaderno según sea necesario, ajustando el código y la configuración para mejorar los resultados de la prueba de AutoML.

Seguimiento de las ejecuciones de AutoML

Una vez ejecutado el cuaderno, el código de AutoML usa el registro de MLflow para realizar un seguimiento automático de las métricas y parámetros clave de cada modelo probado durante la prueba. Esta integración sin problemas te permite supervisar y revisar cada iteración de la ejecución de AutoML sin necesidad de realizar configuración adicional.

Captura de pantalla de la visualización de ejecuciones de AutoML en un experimento de aprendizaje automático.

Para explorar los resultados de la versión de prueba de AutoML, haz lo siguiente:

  1. Ve al elemento Experimento de ML: en un experimento de ML, puedes realizar un seguimiento de todas las distintas ejecuciones que ha creado el proceso de AutoML. Cada ejecución registra detalles valiosos, como las métricas de rendimiento del modelo, los parámetros y las configuraciones, lo que facilita el análisis y la comparación de los resultados.

  2. Revise las configuraciones de AutoML: Para cada versión de prueba de AutoML, encontrará las configuraciones de AutoML usadas, lo que proporciona información sobre cómo se configuró cada modelo y qué valores llevaron a resultados óptimos.

  3. Busca el mejor modelo: abre el modelo de ML para acceder al modelo final con mejor rendimiento desde la versión de prueba de AutoML.

Este flujo de trabajo de seguimiento te ayuda a organizar, evaluar y administrar los modelos, lo que garantiza que tendrás visibilidad completa del rendimiento y la configuración de cada modelo probado en la versión de prueba de AutoML. Desde aquí, puede aprovechar la interfaz PREDICT de SynapseML o generar predicciones directamente desde los cuadernos.

Pasos siguientes