Carga de datos de entrenamiento en el Generador de modelos
Obtenga información sobre cómo cargar los conjuntos de datos de entrenamiento desde un archivo o una base de datos de SQL Server para su uso en uno de los escenarios del Generador de modelos para ML.NET. Los escenarios del generador de modelos pueden usar bases de datos de SQL Server, archivos de imagen y formatos de archivo CSV o TSV como datos de entrenamiento.
Model Builder solo acepta archivos TSV, CSV y TXT con delimitadores de coma, tabulación y punto y coma, e imágenes PNG y JPG.
Escenarios del Generador de modelos
El Generador de modelos ayuda a crear modelos para los siguientes escenarios de aprendizaje automático:
- Clasificación de datos (clasificación binaria y multiclase): clasifique los datos de texto en dos o más categorías.
- Predicción de valores (regresión): predice un valor numérico.
- Clasificación de imágenes (aprendizaje profundo): clasifique las imágenes en dos o más categorías.
- Recomendación (recomendación): genere una lista de elementos sugeridos para un usuario determinado.
- Detección de objetos (aprendizaje profundo): detecte e identifique el objeto en las imágenes. Puede encontrar uno o varios objetos y etiquetarlos en consecuencia.
En este artículo se describen los escenarios de clasificación y regresión con datos textuales o numéricos, los de clasificación de imágenes y los de detección de objetos.
Carga de texto o datos numéricos desde un archivo
Puede cargar texto o datos numéricos desde un archivo al Generador de modelos. Acepta formatos de archivo delimitados por comas (CSV) o delimitado por tabulaciones(TSV).
En el paso de datos de Model Builder, seleccione Archivo como tipo de origen de datos.
Seleccione el botón Examinar situado junto al cuadro de texto y use el Explorador de archivos para examinar y seleccionar el archivo de datos.
Elija una categoría en el menú desplegable Column to Predict (Label) [Columna para la predicción (etiqueta)].
Nota
(Opcional) Escenarios de clasificación de datos: si el tipo de datos de la columna de etiqueta (el valor de la lista desplegable "Column to predict (Label)") [Columna para la predicción (etiqueta)] está establecido en Booleano (True/False), se usa un algoritmo de clasificación binaria en la canalización de entrenamiento del modelo. De lo contrario, se usa un instructor de clasificación multiclase. Use Opciones avanzadas de datos para modificar el tipo de datos de la columna de etiqueta e informar a Model Builder sobre el tipo de instructor que debe usar para los datos.
Actualice los datos en el vínculo Opciones avanzadas de datos para establecer la configuración de columna o para actualizar el formato de los datos.
Ha terminado de configurar el archivo de origen de datos para el Generador de modelos. Haga clic en el botón Paso siguiente para ir al paso siguiente en Model Builder.
Carga de datos desde una base de datos de SQL Server
El Generador de modelos admite la carga de datos desde bases de datos de SQL Server locales y remotas.
Archivo de base de datos local
Para cargar datos desde un archivo de base de datos de SQL Server en Model Builder, haga lo siguiente:
En el paso de datos de Model Builder, seleccione SQL Server como tipo de origen de datos.
Seleccione el botón Elegir origen de datos.
- En el cuadro de diálogo Elegir origen de datos, seleccione Archivo de base de datos de Microsoft SQL Server.
- Desactive la casilla Usar siempre esta selección y seleccione Continuar.
- En el cuadro de diálogo Propiedades de conexión, seleccione Examinar y después el archivo .MDF descargado.
- Seleccione Aceptar.
Elija el nombre del conjunto de datos en la lista desplegable Table Name (Nombre de la tabla).
En la lista desplegable Column to Predict (Label) [Columna para la predicción (etiqueta)], elija la categoría de datos en la que quiere crear una predicción.
Nota
(Opcional) Escenarios de clasificación de datos: si el tipo de datos de la columna de etiqueta (el valor de la lista desplegable "Column to predict (Label)") [Columna para la predicción (etiqueta)] está establecido en Booleano (True/False), se usa un algoritmo de clasificación binaria en la canalización de entrenamiento del modelo. De lo contrario, se usa un instructor de clasificación multiclase. Use Opciones avanzadas de datos para modificar el tipo de datos de la columna de etiqueta e informar a Model Builder sobre el tipo de instructor que debe usar para los datos.
Actualice los datos en el vínculo Opciones avanzadas de datos para establecer la configuración de columna o para actualizar el formato de los datos.
Base de datos remota
Para cargar datos desde una conexión de base de datos en Model Builder:
En el paso de datos de Model Builder, seleccione SQL Server como tipo de origen de datos.
Seleccione el botón Elegir origen de datos.
- En el cuadro de diálogo Elegir origen de datos, seleccione Microsoft SQL Server.
En el cuadro de diálogo Propiedades de conexión, escriba las propiedades de la base de datos Microsoft SQL.
- Indique el nombre del servidor que tiene la tabla a la que quiere conectarse.
- Configure la autenticación en el servidor. Si Autenticación de SQL Server está seleccionada, escriba el nombre de usuario y la contraseña del servidor.
- Seleccione a qué base de datos conectarse en la lista desplegable Seleccionar o escribir el nombre de la base de datos. Debería rellenarse automáticamente si el nombre del servidor y la información de inicio de sesión son correctos.
- Seleccione Aceptar.
Elija el nombre del conjunto de datos en la lista desplegable Table Name (Nombre de la tabla).
En la lista desplegable Column to Predict (Label) [Columna para la predicción (etiqueta)], elija la categoría de datos en la que quiere crear una predicción.
Nota
(Opcional) Escenarios de clasificación de datos: si el tipo de datos de la columna de etiqueta (el valor de la lista desplegable "Column to predict (Label)") [Columna para la predicción (etiqueta)] está establecido en Booleano (True/False), se usa un algoritmo de clasificación binaria en la canalización de entrenamiento del modelo. De lo contrario, se usa un instructor de clasificación multiclase. Use Opciones avanzadas de datos para modificar el tipo de datos de la columna de etiqueta e informar a Model Builder sobre el tipo de instructor que debe usar para los datos.
Actualice los datos en el vínculo Opciones avanzadas de datos para establecer la configuración de columna o para actualizar el formato de los datos.
Ha terminado de configurar el archivo de origen de datos para el Generador de modelos. Haga clic en el vínculo del botón Paso siguiente para ir al paso siguiente en Model Builder.
Configuración de archivos de datos de clasificación de imágenes
Model Builder espera que los datos de clasificación de imágenes sean archivos JPG o PNG organizados en carpetas que se corresponden con las categorías de la clasificación.
Para cargar imágenes al Generador de modelos, proporcione la ruta de acceso a un único directorio de nivel superior:
- Este directorio de nivel superior contiene una subcarpeta para cada una de las categorías que se van a predecir.
- Cada subcarpeta contiene los archivos de imagen que pertenecen a su categoría.
En la estructura de carpetas que se muestra a continuación, el directorio de nivel superior es flower_photos. Hay cinco subdirectorios que se corresponden con las categorías que quiere predecir: daisy, dandelion, roses, sunflowers y tulips. Cada uno de estos subdirectorios contiene imágenes que pertenecen a su categoría correspondiente.
\---flower_photos
+---daisy
| 100080576_f52e8ee070_n.jpg
| 102841525_bd6628ae3c.jpg
| 105806915_a9c13e2106_n.jpg
|
+---dandelion
| 10443973_aeb97513fc_m.jpg
| 10683189_bd6e371b97.jpg
| 10919961_0af657c4e8.jpg
|
+---roses
| 102501987_3cdb8e5394_n.jpg
| 110472418_87b6a3aa98_m.jpg
| 118974357_0faa23cce9_n.jpg
|
+---sunflowers
| 127192624_afa3d9cb84.jpg
| 145303599_2627e23815_n.jpg
| 147804446_ef9244c8ce_m.jpg
|
\---tulips
100930342_92e8746431_n.jpg
107693873_86021ac4ea_n.jpg
10791227_7168491604.jpg
Configuración de archivos de datos de imagen para detección de objetos
Model Builder espera que los datos de imagen para detección de objetos tengan el formato JSON generado a partir de VoTT. El archivo JSON se encuentra en la carpeta vott-json-export de la Ubicación de destino que se especifica en la configuración del proyecto.
El archivo JSON consta de la siguiente información generada a partir de VoTT:
- Todas las etiquetas que se crearon.
- Las ubicaciones de los archivos de imagen.
- La información del cuadro de límite de la imagen.
- La etiqueta asociada a la imagen.
Para más información sobre cómo preparar los datos para la detección de objetos, consulte Generación de datos de detección de objetos a partir de VoTT.
Pasos siguientes
Siga estos tutoriales para crear aplicaciones de aprendizaje automático con el Generador de modelos:
- Generación de datos de detección de objetos a partir de VoTT
- Predicción de precios mediante regresión
- Análisis de sentimiento en una aplicación web mediante la clasificación binaria
Si va a entrenar un modelo mediante código, aprenda a cargar datos mediante la API de ML.NET.