Configuración del entrenamiento de AutoML sin código con la interfaz de usuario de Estudio

En este artículo, obtenga información sobre cómo configurar trabajos de entrenamiento de AutoML sin una sola línea de código mediante aprendizaje automático automatizado de Azure Machine Learning en Estudio de Azure Machine Learning.

El aprendizaje automático automatizado, AutoML, es un proceso en el que se selecciona automáticamente el mejor algoritmo de aprendizaje automático para sus datos específicos. Este proceso le permite generar modelos de aprendizaje automático rápidamente. Más información sobre cómo Azure Machine Learning implementa el aprendizaje automático automatizado.

Para obtener un ejemplo completo, pruebe el Tutorial: Aprendizaje automático automatizado y entrenamiento de modelos de clasificación sin código.

Si prefiere una experiencia basada en código de Python, configure sus experimentos de aprendizaje automático automatizado con el SDK de Azure Machine Learning.

Requisitos previos

Introducción

  1. Inicie sesión en Azure Machine Learning Studio.

  2. Seleccione su suscripción y área de trabajo.

  3. Navegue al panel izquierdo. Seleccione Automated ML (ML automatizado) en la sección Creación.

Panel de navegación de Azure Machine Learning Studio

Si es la primera vez que realiza algún experimento, verá una lista vacía y vínculos a la documentación.

De lo contrario, verá una lista de los experimentos de ML automatizado recientes, incluidos los creados con el SDK.

Creación y ejecución de un experimento

  1. Seleccione + New automated ML job (+ Nuevo trabajo de ML automatizado) y rellene el formulario.

  2. Seleccione un recurso de datos del contenedor de almacenamiento o cree un nuevo recurso de datos. Los recursos de datos se pueden crear a partir de archivos locales, direcciones URL web, almacenes de datos o conjuntos de datos de Azure Open Datasets. Obtenga más información sobre la creación de recursos de datos.

    Importante

    Requisitos para los datos de entrenamiento:

    • Los datos deben estar en formato tabular.
    • El valor que quiere predecir (columna de destino) debe estar presente en los datos.
    1. Para crear un nuevo conjunto de datos a partir de un archivo del equipo local, seleccione +Crear conjunto de datos y seleccione From local file (Desde archivo local).

    2. En el formulario Información básica, asígnele un nombre único al conjunto de datos e incluya una descripción opcional.

    3. Seleccione Siguiente para abrir el formulario Datastore and file selection (Almacén de datos y selección de archivos). En este formulario, seleccione dónde quiere cargar el conjunto de datos: el contenedor de almacenamiento predeterminado que se crea automáticamente con el área de trabajo, o bien elija un contenedor de almacenamiento que quiera usar para el experimento.

      1. Si los datos están detrás de una red virtual, debe habilitar la función de omitir la validación para asegurarse de que el área de trabajo pueda tener acceso a los datos. Para obtener más información, consulte Uso de Azure Machine Learning en una red virtual de Azure.
    4. Seleccione Examinar para cargar el archivo de datos del conjunto de datos.

    5. Revise el formulario Settings and preview (Configuración y vista previa) para ver que todo está correcto. El formulario se rellena de forma inteligente según el tipo de archivo.

      Campo Descripción
      Formato de archivo Define el diseño y el tipo de datos almacenados en un archivo.
      Delimitador Uno o más caracteres para especificar el límite entre regiones independientes en texto sin formato u otros flujos de datos.
      Encoding Identifica qué tabla de esquema de bit a carácter se va a usar para leer el conjunto de elementos.
      Encabezados de columna Indica cómo se tratarán los encabezados del conjunto de datos, si existen.
      Omitir filas Indica el número de filas, si hay alguna, que se omiten en el conjunto de datos.

      Seleccione Next (Siguiente).

    6. El formulario Esquema se rellena de forma inteligente en función de las selecciones realizadas en el formulario Settings and preview (Configuración y vista previa). Aquí se configura el tipo de datos para cada columna, se revisan los nombres de columna y se seleccionan las columnas que no se van a incluir en el experimento.

      Seleccione Siguiente.

    7. En el formulario Confirmar detalles se muestra un resumen de la información que se ha rellenado anteriormente en los formularios Información básica y Settings and preview (Configuración y vista previa). También tiene la opción de crear un perfil de datos para el conjunto de datos mediante un proceso habilitado para la generación de perfiles. Más información acerca de la generación de perfiles de datos.

      Seleccione Next (Siguiente).

  3. Seleccione el conjunto de datos recién creado cuando aparezca. También puede ver una vista previa del conjunto de datos y las estadísticas de ejemplo.

  4. En el formulario Configurar trabajo, seleccione Crear nuevo y escriba Tutorial-automl-deploy para el nombre del experimento.

  5. Seleccione una columna de destino; esta es la columna en la que realizará las predicciones.

  6. Seleccione un tipo de proceso para la generación de perfiles de los datos y el trabajo de entrenamiento. Puede seleccionar un clúster de proceso o una instancia de proceso.

  7. Seleccione un proceso en la lista desplegable de los procesos existentes. Para crear un nuevo proceso, siga las instrucciones del paso 8.

  8. Seleccione Create a new compute (Crear un proceso) para configurar el contexto del proceso de este experimento.

    Campo Descripción
    Nombre del proceso Escriba un nombre único que identifique el contexto del proceso.
    Prioridad de la máquina virtual Las máquinas virtuales de prioridad baja son más económicas, pero no garantizan nodos de proceso.
    Tipo de máquina virtual Seleccione la CPU o GPU para el tipo de máquina virtual.
    Tamaño de la máquina virtual Seleccione el tamaño de la máquina virtual para el proceso.
    Nodos mín./máx. Para generar perfiles de datos, debe especificar uno o más nodos. escriba el número máximo de nodos para el proceso. El valor predeterminado es seis nodos para un proceso de una instancia de AzureML Compute.
    Configuración avanzada Esta configuración le permite configurar una cuenta de usuario y una red virtual existente para el experimento.

    Seleccione Crear. La creación de un nuevo proceso puede tardar unos minutos.

    Nota

    Su nombre de proceso indicará si el proceso que selecciona o crea admite la generación de perfiles . (Consulte la sección sobre la generación de perfiles de los datos para más detalles ).

    Seleccione Next (Siguiente).

  9. En el formulario Task type and settings (Tipo de tarea y configuración), seleccione el tipo de tarea: clasificación, regresión o previsión. Para más información, vea los tipos de tareas admitidos.

    1. Para classification (clasificación), también puede habilitar el aprendizaje profundo.

      Si el aprendizaje profundo está habilitado, la validación se limita a train_validation split. Obtenga más información sobre las opciones de validación.

    2. Para la previsión, puede:

      1. Habilitar el aprendizaje profundo.

      2. Seleccionar la columna de tiempo: esta columna contiene los datos de tiempo que desea usar.

      3. Seleccionar el horizonte de previsión: Indique cuántas unidades de tiempo (minutos, horas, días, semanas, meses o años) será capaz predecir el modelo en el futuro. Cuanto más se exija al modelo que prediga en el futuro, menos preciso será. Más información sobre la previsión y el horizonte de previsión.

  10. (Opcional) Ver el apartado sobre la adición de configuraciones: opciones de configuración adicionales que puede usar para controlar mejor el trabajo de entrenamiento. De lo contrario, los valores predeterminados se aplican en función de la selección y los datos del experimento.

    Configuraciones adicionales Descripción
    Métrica principal Métrica principal usada para puntuar el modelo. Más información sobre las métricas del modelo.
    Explicación del mejor modelo Seleccione esta opción para habilitar o deshabilitar la visualización de explicaciones del mejor modelo recomendado.
    Esta funcionalidad no está disponible actualmente para algunos algoritmos de previsión.
    Blocked algorithms (Algoritmos bloqueados) Seleccione los algoritmos que desea excluir del trabajo de entrenamiento.

    La opción para permitir los algoritmos solo está disponible para los experimentos de SDK.
    Consulte los algoritmos admitidos para cada tipo de tarea.
    Criterios de exclusión Cuando se cumple alguno de estos criterios, se detiene el trabajo de entrenamiento.
    Tiempo de trabajo de entrenamiento (horas) : cantidad de tiempo para permitir que el trabajo de entrenamiento se ejecute.
    Umbral de puntuación de métrica: puntuación mínima de métrica para todas las canalizaciones. Esto garantiza que si tiene una métrica objetivo definida que desee alcanzar, no dedicará más tiempo en el trabajo de entrenamiento que el necesario.
    Simultaneidad Número máximo de iteraciones simultáneas: número máximo de canalizaciones (iteraciones) para probar en el trabajo de entrenamiento. El trabajo no ejecutará más iteraciones que el número especificado de ellas. Más información sobre el modo en que el aprendizaje automático automatizado realiza múltiples trabajos secundarios en los clústeres.
  11. (Opcional) Consulte la configuración de caracterización: Si decide habilitar Caracterización automática en el formulario Ver configuración de caracterización, se aplican las técnicas de caracterización predeterminadas. En Ver configuración de caracterización puede cambiar estos valores predeterminados y personalizarlos según corresponda. Obtenga información sobre cómo personalizar las caracterizaciones.

    Captura de pantalla que muestra el cuadro de diálogo Select task type (Seleccionar tipo de tarea) con la opción View featurization settings (Ver configuración de caracterización) seleccionada.

  12. Con el formulario [Opcional] Validar y probar puede hacer lo siguiente:

    1. Especificar el tipo de validación que se usará para el trabajo de entrenamiento. Más información sobre la validación cruzada.

      1. La previsión de tareas solo admite la validación cruzada de k iteraciones.
    2. Proporcionar un conjunto de datos de prueba (versión preliminar) para evaluar el modelo recomendado que el aprendizaje automático automatizado genera automáticamente al final del experimento. Cuando se proporcionan datos de prueba, se desencadena automáticamente un trabajo de prueba al final del experimento. Este trabajo de prueba solo se ejecuta en el mejor modelo recomendado por el ML automatizado. Obtenga información sobre cómo obtener los resultados del trabajo de pruebas remotas.

      Importante

      La característica para proporcionar un conjunto de datos de prueba con el fin de evaluar los modelos generados está en versión preliminar. Esta funcionalidad es una característica experimental en versión preliminar y puede cambiar en cualquier momento.

      • Los datos de prueba se consideran algo independiente del entrenamiento y la validación, con el fin de no sesgar los resultados del trabajo de pruebas del modelo recomendado. Obtenga más información sobre el sesgo durante la validación del modelo.
      • Puede proporcionar su propio conjunto de datos de prueba u optar por usar un porcentaje de su conjunto de datos de entrenamiento. Los datos de prueba deben tener el formato de un objeto TabularDataset de Azure Machine Learning.
      • El esquema del conjunto de datos de prueba debe coincidir con el conjunto de datos de entrenamiento. La columna de destino es opcional, pero, si no se indica, no se calcula ninguna métrica de prueba.
      • El conjunto de datos de prueba no debe ser el mismo que el conjunto de datos de entrenamiento o de validación.
      • La previsión de trabajos no admite la división de entrenamiento y pruebas.

      Captura de pantalla en la que se muestra el formulario donde se seleccionan los datos de validación y de prueba

Personalización de la caracterización

En el formulario Caracterización, puede habilitar o deshabilitar la caracterización automática y personalizar la configuración de caracterización automática para su experimento. Para abrir este formulario, consulte el paso 10 de la sección Creación y ejecución de un experimento.

En la tabla siguiente se resumen las personalizaciones disponibles actualmente a través de Studio.

Columna Personalización
Se incluye Especifica las columnas que se van a incluir para el entrenamiento.
Tipo de característica Cambia el tipo de valor de la columna seleccionada.
Imputar con Selecciona el valor con los cuales imputar los valores que faltan en los datos.

Ingeniería de características personalizadas de Azure Machine Learning

Ejecución del experimento y visualización de los resultados

Para ejecutar el experimento, seleccione Finalizar. El proceso de preparación del experimento puede tardar hasta 10 minutos. Los trabajos de entrenamiento pueden tardar de 2 a 3 minutos más para que cada canalización termine de ejecutarse.

Nota

Los algoritmos que el aprendizaje automático automatizado emplea llevan inherente la aleatoriedad, que puede provocar una ligera variación en la puntuación de las métricas finales del modelo recomendado, como la precisión. El aprendizaje automático automatizado también realiza operaciones en datos, como la división de la prueba de entrenamiento, la división de la validación de entrenamiento o la validación cruzada cuando es necesario. Por lo tanto, si ejecuta un experimento con las mismas opciones de configuración y métricas principales varias veces, es probable que vea una variación en las puntuaciones de las métricas finales de los experimentos debido a estos factores.

Visualización de los detalles del experimento

Se abre la pantalla Detalles de trabajo en la pestaña Detalles. En esta pantalla se muestra un resumen del trabajo del experimento, incluida una barra de estado en la parte superior, junto al número de trabajo.

La pestaña Modelos contiene una lista de los modelos creados ordenados por la puntuación de la métrica. De forma predeterminada, el modelo que puntúa más alto en función de las métricas seleccionadas aparece en la parte superior de la lista. A medida que el trabajo de entrenamiento prueba más modelos, se agregan a la lista. Utilice esto para obtener una comparación rápida de las métricas para los modelos generados hasta ahora.

Detalle del trabajo

Vista de detalles de trabajo de entrenamiento

Explore en profundidad cualquiera de los modelos completados para ver los detalles de trabajo de entrenamiento. En la pestaña Modelo, puede ver detalles como un resumen del modelo y los hiperparámetros usados para el modelo seleccionado.

Detalles de hiperparámetros

También puede ver gráficos de métricas de rendimiento específicos del modelo en la pestaña Métricas. Más información sobre los gráficos.

Detalles de la iteración

En la pestaña Transformación de datos, puede ver un diagrama del preprocesamiento de datos, la ingeniería de características, las técnicas de escalado y el algoritmo de aprendizaje automático que se aplicaron para generar este modelo.

Importante

La pestaña Transformación De datos está en versión preliminar. Esta funcionalidad debe considerarse experimental y puede cambiar en cualquier momento.

Transformación de datos

Visualización de los resultados del trabajo de pruebas remotas (versión preliminar)

Si ha especificado un conjunto de datos de prueba o ha optado por una división entre entrenamiento y prueba durante la configuración del experimento —en el formulario Validar y probar—, el aprendizaje automático automatizado prueba automáticamente el modelo recomendado de manera predeterminada. Como resultado, el aprendizaje automático automatizado calcula las métricas de prueba para determinar la calidad del modelo recomendado y sus predicciones.

Importante

La característica para probar modelos con un conjunto de datos de prueba con el fin de evaluar los modelos generados está en versión preliminar. Esta funcionalidad es una característica experimental en versión preliminar y puede cambiar en cualquier momento.

Para ver las métricas del trabajo de pruebas del modelo recomendado, haga lo siguiente:

  1. Vaya a la página Modelos y seleccione el mejor modelo.
  2. Seleccione la pestaña Resultados de la prueba (versión preliminar) .
  3. Seleccione el trabajo que quiere y consulte la pestaña Métricas. Pestaña Resultados de la prueba del modelo recomendado probado automáticamente

Para ver las predicciones de prueba usadas para calcular las métricas de prueba, haga lo siguiente:

  1. Vaya a la parte inferior de la página y seleccione el vínculo de Conjunto de datos de salidas para abrir el conjunto de datos.
  2. En la página Conjuntos de datos, seleccione la pestaña Explorar para ver las predicciones del trabajo de pruebas.
    1. El archivo de predicción también se puede ver o descargar desde la pestaña Salidas y registros. Expanda la carpeta Predicciones para localizar el archivo predicted.csv.

El archivo de predicción también se puede ver o descargar desde la pestaña "Salidas y registros". Expanda la carpeta "Predicciones" para localizar el archivo "predictions.csv".

El trabajo de pruebas del modelo genera el archivo predictions.csv, que se almacena en el almacén de datos predeterminado creado con el área de trabajo. Este almacén de datos pueden verlo todos los usuarios con la misma suscripción. Los trabajos de pruebas no se recomiendan para ningún escenario si cualquier parte de la información usada para el trabajo de pruebas, o creada por esta, debe permanecer privada.

Prueba de un modelo de aprendizaje automático automatizado ya existente (versión preliminar)

Importante

La característica para probar modelos con un conjunto de datos de prueba con el fin de evaluar los modelos generados está en versión preliminar. Esta funcionalidad es una característica experimental en versión preliminar y puede cambiar en cualquier momento.

Una vez completado el experimento, puede probar los modelos que el aprendizaje automático automatizado genera por usted. Si desea probar otro modelo generado por el aprendizaje automático automatizado que no sea el recomendado, puede hacerlo mediante los siguientes pasos:

  1. Seleccione un trabajo de experimento de ML automatizado existente.

  2. Vaya a la pestaña Modelos del trabajo y seleccione el modelo completado que quiere probar.

  3. En la página Detalles del modelo, seleccione el botón Modelo de prueba (versión preliminar) para abrir el panel Modelo de prueba.

  4. En el panel Modelo de prueba, seleccione el clúster de proceso y el conjunto de datos de prueba que quiera usar para el trabajo de pruebas.

  5. Seleccione el botón Probar. El esquema del conjunto de datos de prueba debe coincidir con el conjunto de datos de entrenamiento, pero la columna de destino es opcional.

  6. Una vez que se cree el trabajo de pruebas del modelo, en la página Detalles se mostrará el mensaje correspondiente. Seleccione la pestaña Resultados de la prueba para ver el progreso del trabajo.

  7. Para ver los resultados del trabajo de pruebas, abra la página Detalles y siga los pasos descritos en la sección Visualización de los resultados del trabajo de pruebas remotas.

    Formulario del modelo de prueba

Explicaciones de modelos (versión preliminar)

Para entender mejor el modelo, puede ver qué características de datos (con o sin diseño) han influido en las predicciones del modelo con el panel de explicaciones del modelo.

El panel de explicaciones del modelo proporciona un análisis general del modelo entrenado junto con sus predicciones y explicaciones. También permite profundizar en un determinado punto de datos y la importancia de sus características concretas. Obtenga más información sobre las visualizaciones del panel de explicaciones.

Para obtener explicaciones de un modelo determinado:

  1. En la pestaña Modelos, seleccione el modelo del que quiere conocer más información.

  2. Seleccione el botón Explicar modelo y proporcione un proceso que se pueda usar para generar las explicaciones.

  3. Compruebe el estado en la pestaña Trabajos secundarios.

  4. Cuando termine, vaya a la pestaña Explicaciones (versión preliminar) , que contiene el panel de explicaciones.

    Panel de explicación del modelo

Edición y envío de trabajos (versión preliminar)

Importante

La posibilidad de copiar, editar y enviar un nuevo experimento basado en un experimento existente es una característica en versión preliminar. Esta funcionalidad es una característica experimental en versión preliminar y puede cambiar en cualquier momento.

En los escenarios en los que desea crear un experimento basado en la configuración de un experimento ya existente, el aprendizaje automático automatizado proporciona la opción de hacerlo con el botón Editar y enviar de la interfaz de usuario de Studio.

Esta funcionalidad se limita a los experimentos iniciados desde la interfaz de usuario de Studio y requiere que el esquema de datos del nuevo experimento coincida con el del experimento original.

El botón Editar y enviar abre el asistente para crear un nuevo trabajo de ML automatizado con la configuración de datos, proceso y experimento rellenada previamente. Puede pasar por cada formulario y editar las selecciones según sea necesario para el nuevo experimento.

Implementación del modelo

Una vez que tenga a mano el mejor modelo, es el momento de implementarlo como un servicio web para predecir los datos nuevos.

Sugerencia

Si va a implementar un modelo que se generó a través del paquete automl con el SDK de Python, debe registrar el modelo en el área de trabajo.

Una vez que se haya registrado el modelo, puede buscarlo en el estudio seleccionando Modelos en el panel izquierdo. Después de abrir el modelo, puede seleccionar el botón Implementar en la parte superior de la pantalla y, luego, seguir las instrucciones descritas en el paso 2 de la sección Implementación del modelo.

ML automatizado le ayuda a implementar el modelo sin escribir código:

  1. Tiene unas par de opciones de implementación.

    • Opción 1: implementar el mejor modelo, según los criterios de métricas que haya definido.

      1. Una vez finalizado el experimento, vaya a la página de trabajo primario mediante la selección de Trabajo 1 en la parte superior de la pantalla.
      2. Seleccione el modelo que aparece en la sección Mejor resumen del modelo.
      3. Seleccione Implementar en la parte superior izquierda de la ventana.
    • Opción 2: implementar una iteración del modelo específica de este experimento.

      1. Seleccione el modelo que quiera en la pestaña Modelos.
      2. Seleccione Implementar en la parte superior izquierda de la ventana.
  2. Rellene el panel Implementar modelo.

    Campo Valor
    Nombre Escriba un nombre único para la implementación.
    Descripción Escriba una descripción para saber mejor para qué sirve esta implementación.
    Compute type (Tipo de proceso) Seleccione el tipo de punto de conexión que quiera implementar: Azure Kubernetes Service (AKS) o Azure Container Instances (ACI).
    Nombre del proceso Solo se aplica a AKS: Seleccione el nombre del clúster de AKS en que desea realizar la implementación.
    Enable authentication (Habilitar autenticación) Seleccione esta opción para permitir la autenticación basada en token o basada en clave.
    Use custom deployment assets (Usar recursos de implementación personalizados) Habilite esta característica si desea cargar su propio archivo de entorno y script de puntuación. De lo contrario, el aprendizaje automático automatizado proporcionará estos recursos por usted de manera predeterminada. Más información sobre los scripts de puntuación.

    Importante

    Los nombres de archivo deben tener menos de 32 caracteres y deben comenzar y terminar con caracteres alfanuméricos. Puede incluir guiones, caracteres de subrayado, puntos y caracteres alfanuméricos. No se permiten espacios.

    El menú Avanzado ofrece características de implementación predeterminadas como la recopilación de datos y la configuración del uso de recursos. Si desea reemplazar estos valores predeterminados, hágalo en este menú.

  3. Seleccione Implementar. La implementación puede tardar unos 20 minutos en completarse. Una vez iniciada la implementación, aparece la pestaña Resumen del modelo. Consulte el progreso de la implementación en la sección Estado de implementación.

Ya tiene un servicio web operativo para generar predicciones. Puede probar las predicciones consultando el servicio de soporte técnico de Azure Machine Learning de Power BI.

Pasos siguientes