Inicio rápido: Creación de un modelo de clasificación de imágenes mediante el portal de Custom Vision

Artículo
11/04/2024

En este inicio rápido se explica cómo usar el portal web de Custom Vision para crear un modelo de clasificación de imágenes. Una vez que cree un modelo, puede probarlo con nuevas imágenes y, finalmente, integrarlo en su propia aplicación de reconocimiento de imágenes.

Requisitos previos

Suscripción a Azure. Puede crear una cuenta gratuita.
Un conjunto de imágenes para entrenar el modelo de clasificación. Puede usar el conjunto de imágenes de ejemplo en GitHub. O bien, puede elegir sus propias imágenes mediante las sugerencias siguientes.
Un explorador web compatible.

Creación de recursos de Custom Vision

Para usar Custom Vision Service, tendrá que crear recursos de entrenamiento y predicción de Custom Vision en Azure Portal. Para ello, en Azure Portal rellene la ventana del cuadro de diálogo de la página Create Custom Vision (Crear recurso de Custom Vision) para crear un recurso de entrenamiento y predicción.

Creación de un proyecto

Vaya a la página web de Custom Visione inicie sesión con la misma cuenta que usó para iniciar sesión en Azure Portal.

Captura de pantalla que muestra la página de inicio de sesión.

Para crear su primer proyecto, seleccione New Project (Nuevo proyecto). Aparecerá el cuadro de diálogo Crear nuevo proyecto.
Escriba un nombre y una descripción para el proyecto. Después, seleccione el recurso de aprendizaje de Custom Vision. Si la cuenta con la que ha iniciado sesión está asociada a una cuenta de Azure, el menú desplegable Recursos mostrará todos los recursos compatibles de Azure.

Nota:

Si no hay ningún recurso disponible, confirme que ha iniciado sesión en customvision.ai con la misma cuenta que usó para iniciar sesión en la Azure Portal. Además, confirme que ha seleccionado la misma Directorio en el sitio web de Custom Vision que el directorio de Azure Portal donde se encuentran los recursos de Custom Vision. En ambos sitios, puede seleccionar el directorio en el menú desplegable de la cuenta en la esquina superior derecha de la pantalla.
Seleccione Classification (Clasificación) en Project Types (Tipos de proyecto). Después, en Classification Types (Tipos de clasificación), elija Multilabel (Multietiqueta) o Multiclass (Multiclase) según su caso de uso. La clasificación multietiqueta aplica cualquier número de etiquetas a una imagen (cero o más), mientras que la clasificación multiclase ordena las imágenes en categorías únicas (cada imagen que envíe se ordena en la etiqueta más probable). Puede cambiar el tipo de clasificación más adelante, si lo desea.

A continuación, seleccione uno de los dominios disponibles. Cada dominio optimizará al modelo para el uso de determinados tipos de imágenes, tal y como se describe en la tabla siguiente. Puede cambiar el dominio más adelante si lo desea.

Dominio	Propósito
Genérico	Optimizado para una amplia gama de tareas de clasificación de imágenes. Si ninguno de los otros dominios es adecuado o si no está seguro de qué dominio elegir, seleccione el dominio genérico.
Alimentos	Optimizado para fotos de platos tal y como los vería en el menú de un restaurante. Si quiere clasificar fotos de frutas o verduras individuales, use el dominio de alimentos.
Puntos de referencia	Optimizado para lugares de interés reconocibles, tanto naturales como artificiales. Este dominio funciona mejor cuando el punto de referencia es claramente visible en la foto. Este dominio funciona incluso si hay gente delante del punto de referencia que obstruye parcialmente su visión.
Minoristas	Optimizado para imágenes que se encuentran en un catálogo de compra o un sitio web de compras. Si quiere una clasificación de alta precisión entre vestidos, pantalones y camisas, use este dominio.
Dominios compactos	Optimizados para las restricciones de clasificación en tiempo real en dispositivos móviles. Los modelos generados por los dominios compactos se pueden exportar para ejecutarse localmente.

Por último, seleccione Create project (Crear proyecto).

Elección de las imágenes de entrenamiento

Como mínimo, se recomienda que use 30 imágenes por etiqueta en el conjunto de entrenamiento inicial. También conviene recopilar algunas imágenes adicionales para probar el modelo una vez que está entrenado.

Para entrenar el modelo de forma eficaz, use imágenes con variedad visual. Seleccione imágenes que varíen en:

ángulos de cámara
iluminación
background
estilo visual
sujetos individuales o grupos
tamaño
type

Además, asegúrese de que todas las imágenes de entrenamiento cumplen los criterios siguientes:

formato .jpg, .png, .bmp o .gif
tienen menos de 6 MB de tamaño (4 MB en el caso de imágenes de predicción)
tienen más de 256 píxeles en el borde más corto. Custom Vision Service escalará verticalmente y de forma automática todas las imágenes que sean más cortas

Carga y etiquetado de imágenes

Puede cargar y etiquetar manualmente imágenes para ayudar a entrenar el clasificador.

Para agregar imágenes, seleccione Add images (Agregar imágenes) y, después, Browse local files (Examinar archivos locales). Seleccione Open (Abrir) para empezar a etiquetar. La selección de etiquetas se aplica a todo el grupo de imágenes que carga, por lo que es más fácil cargar imágenes en grupos independientes según sus etiquetas aplicadas. También puede cambiar las etiquetas de las imágenes individuales después de que se hayan cargado.
Para crear una etiqueta, escriba texto en el campo My Tags (Mis etiquetas) y pulse ENTRAR. Si la etiqueta ya existe, aparecerá en un menú desplegable. En un proyecto multietiqueta, puede agregar más de una etiqueta a las imágenes, pero en un proyecto multiclase solo puede agregar una. Para terminar la carga de las imágenes, use el botón Upload [number] files (Cargar [número] archivos).
Seleccione Listo una vez cargadas las imágenes.

Para cargar otro conjunto de imágenes, vuelva a la parte superior de esta sección y repita los pasos.

Entrenamiento del clasificador

Para entrenar al clasificador, seleccione el botón Train (Entrenar). El clasificador usa todas las imágenes actuales para crear un modelo que identifica las calidades visuales de cada etiqueta. Este proceso puede tardar varios minutos.

Captura de pantalla del botón entrenar en la parte superior derecha de la barra de herramientas de encabezado de la página web.

El proceso de entrenamiento solo debe llevar unos minutos. Durante este tiempo, se muestra información sobre el proceso de entrenamiento en la pestaña Performance (Rendimiento).

Captura de pantalla de la ventana del explorador con detalles de entrenamiento en la sección principal.

Evaluación del clasificador

Una vez completado el entrenamiento, se calcula y se muestra el rendimiento del modelo. Custom Vision Service usa las imágenes que ha enviado para entrenamiento para calcular la precisión y la coincidencia. La precisión y la coincidencia constituyen dos medidas diferentes de la eficacia de un clasificador:

La precisión indica la fracción de las clasificaciones identificadas que fueron correctas. Por ejemplo, si el modelo identificó 100 imágenes como perros y 99 de ellas eran realmente de perros, la precisión sería del 99 %.
La coincidencia indica la fracción de las clasificaciones reales que se identificaron correctamente. Por ejemplo, si había realmente 100 imágenes de manzanas y el modelo identificó 80 como manzanas, la coincidencia sería del 80 %.

Captura de pantalla de los resultados de entrenamiento que muestran la precisión general y la recuperación, así como la precisión y la recuperación de cada etiqueta del clasificador.

Umbral de probabilidad

Observe el control deslizante Probability Threshold (Umbral de probabilidad) situado en el panel izquierdo de la pestaña Performance (Rendimiento). Este es el nivel de confianza que debe tener una predicción para que se considere correcta (para los fines de calcular la precisión y la coincidencia).

Al interpretar llamadas de predicción con un umbral alto de probabilidad, tienden a devolver resultados muy precisos pero con una baja coincidencia; las clasificaciones detectadas son correctas, pero muchas siguen sin detectarse. Un umbral bajo de probabilidad tiene el efecto contrario: la mayoría de las clasificaciones reales se detectan, pero hay más falsos positivos en ese conjunto. Teniendo esto en cuenta, debe establecer el umbral de probabilidad según las necesidades específicas de su proyecto. Posteriormente, si va a recibir resultados de predicción en el cliente, debe usar el mismo valor de umbral de probabilidad que el empleado aquí.

Administración de iteraciones de entrenamiento

Cada vez que entrena al clasificador, se crea una nueva iteración con métricas de rendimiento actualizadas. Puede ver todas las iteraciones en el panel izquierdo de la pestaña Performance (Rendimiento). Encontrará también el botón Delete (Eliminar), que puede usar para eliminar una iteración si está obsoleta. Cuando se elimina una iteración, elimina las imágenes que están asociadas exclusivamente a ella.

Para obtener información sobre cómo acceder a los modelos entrenados mediante programación, consulte Llamada a la API de predicción.

Paso siguiente

En este inicio rápido ha aprendido a crear y entrenar un modelo de clasificación de imágenes mediante el portal web de Custom Vision. A continuación, obtenga más información sobre el proceso iterativo de mejora del modelo.

Prueba y reentrenamiento del modelo

¿Qué es Custom Vision?

Compartir a través de