¿Qué es Image Analysis?

El servicio Visión de Azure AI puede extraer una gran variedad de características visuales de sus imágenes. Por ejemplo, puede determinar si una imagen tiene contenido para adultos, buscar marcas u objetos específicos o buscar rostros humanos.

La versión más reciente de Image Analysis, la 4.0, que ya tiene disponibilidad general, tiene nuevas características, como el OCR sincrónico y la detección de personas. Recomendamos utilizar esta versión en adelante.

Puede usar Image Analysis en la aplicación mediante el uso de un SDK de biblioteca cliente o invocar la API REST directamente. Siga el inicio rápido para comenzar.

O puede probar las funcionalidades de Image Analysis de forma rápida y sencilla en el explorador mediante Vision Studio.

Esta documentación contiene los siguientes tipos de artículos:

  • Los inicios rápidos son instrucciones paso a paso que permiten realizar llamadas al servicio y obtener los resultados en un breve período de tiempo.
  • Las guías paso a paso contienen instrucciones para usar el servicio de maneras más específicas o personalizadas.
  • Los artículos conceptuales proporcionan explicaciones detalladas de la funcionalidad y las características del servicio.
  • Los tutoriales son guías más largas que muestran cómo usar este servicio como componente en soluciones empresariales más amplias.

Para un enfoque más estructurado, siga un módulo de Training para Image Analysis.

Versiones de Image Analysis

Importante

Seleccione la versión de la API de Image Analysis que mejor se adapte a sus requisitos.

Versión Características disponibles Recomendación
versión 4.0 Leer texto, subtítulos, subtítulos densos, etiquetas, detección de objetos, clasificación de imágenes personalizadas/detección de objetos, personas, recorte inteligente Mejores modelos; use la versión 4.0 si es compatible con su caso de uso.
versión 3.2 Etiquetas, objetos, descripciones, marcas, caras, tipo de imagen, gama de colores, lugares emblemáticos, celebridades, contenido para adultos, recorte inteligente Gama de características más amplia; use la versión 3.2 si su caso de uso aún no es compatible con la versión 4.0

Se recomienda usar la API de Image Analysis 4.0 si es compatible con su caso de uso. Use la versión 3.2 si su caso de uso aún no es compatible con la versión 4.0.

También deberá usar la versión 3.2 si quiere realizar el subtitulado de imágenes y el recurso de Visión está fuera de estas regiones de Azure: Este de EE. UU., Centro de Francia, Centro de Corea del Sur, Norte de Europa, Sudeste Asiático, Oeste de Europa, Oeste de EE. UU. y Este de Asia. La función de subtitulado de imágenes de Image Analysis 4.0 solo es compatible en estas regiones de Azure. El subtitulado de imágenes de la versión 3.2 está disponible en todas las regiones de Visión de Azure AI.

Analyze Image

Puede analizar imágenes para detectar y proporcionar información detallada acerca de las características y funciones visuales. Todas las características de esta lista son proporcionadas por la API Analyze Image. Siga un inicio rápido para comenzar.

Nombre Descripción Página Concepto
Personalización de modelos (solo en la versión preliminar v4.0) Puede crear y entrenar modelos personalizados para realizar la clasificación de imágenes o la detección de objetos. Traiga sus propias imágenes, etiquételas con etiquetas personalizadas e Image Analysis entrena un modelo personalizado para su caso de uso. Personalización de modelos
Lectura de texto de imágenes (solo v4.0) La versión preliminar 4.0 de Image Analysis ofrece la posibilidad de extraer texto legible de imágenes. En comparación con la API de lectura asincrónica Computer Vision 3.2, la nueva versión ofrece el conocido motor Read OCR en una API sincrónica unificada de rendimiento mejorado que facilita la obtención de OCR junto con otras conclusiones en una sola llamada API. OCR para imágenes
Detección de personas en imágenes (solo v4.0) La versión 4.0 de Image Analysis ofrece la capacidad de detectar personas que aparecen en imágenes. Se devuelven las coordenadas del rectángulo delimitador de cada persona detectada, junto con una puntuación de confianza. Detección de personas
Subtitulado de imágenes Genere una descripción de una imagen en lenguaje legible por cualquier persona, con frases completas. Los algoritmos de Computer Vision generan varios subtítulos en función de los objetos identificados en la imagen.

El modelo de subtitulado de imágenes de la versión 4.0 es una implementación más avanzada y funciona con una gama más amplia de imágenes de entrada. Solo está disponible en las siguientes regiones geográficas: Este de EE. UU., Centro de Francia, Centro de Corea del Sur, Norte de Europa, Sudeste Asiático, Oeste de Europa, Oeste de EE. UU.

La versión 4.0 también permite usar descripción densa, que genera subtítulos detallados para objetos individuales que se encuentran en la imagen. La API devuelve las coordenadas del rectángulo delimitador (en píxeles) de cada objeto que se encuentra en la imagen, además de un título. Puede usar esta funcionalidad para generar descripciones de partes independientes de una imagen.

Photo of cows with a simple description on the right.
Generación de subtitulado de imágenes (v3.2)
(v4.0)
Detección de objetos La detección de objetos es similar al etiquetado, pero la API devuelve las coordenadas del rectángulo delimitador para cada etiqueta aplicada. Por ejemplo, si una imagen contiene un perro, un gato y una persona, la operación de detección muestra estos objetos junto con sus coordenadas en la imagen. Puede usar esta funcionalidad para procesar más las relaciones entre los objetos de una imagen. También permite saber cuando hay varias instancias de la misma etiqueta en una imagen.

Photo of an office with a rectangle drawn around a laptop.
Detección de objetos (v3.2)
(v4.0)
Etiquetar características visuales Identifique y etiquete las características visuales de una imagen a partir de un conjunto de miles de objetos, seres vivos, paisajes y acciones reconocibles. Cuando las etiquetas son ambiguas o no muy comunes, la respuesta de la API contiene “indicaciones” para aclarar el contexto de la etiqueta. El etiquetado no se limita al sujeto principal, como una persona en primer plano, sino que también incluye el entorno (interior o exterior), muebles, herramientas, plantas, animales, accesorios, gadgets, etc.

Photo of a skateboarder with tags listed on the right.
Etiquetado de características visuales (v3.2)
(v4.0)
Obtención del área de interés/recorte inteligente Analice el contenido de una imagen para devolver las coordenadas del área de interés que coincida con una relación de aspecto especificada. Computer Vision devuelve las coordenadas del rectángulo delimitador de la región, por lo que la aplicación que realiza la llamada puede modificar la imagen original según sea necesario.

El modelo de recorte inteligente de la versión 4.0 es una implementación más avanzada y funciona con una gama más amplia de imágenes de entrada. Solo está disponible en las siguientes regiones geográficas: Este de EE. UU., Centro de Francia, Centro de Corea del Sur, Norte de Europa, Sudeste Asiático, Oeste de Europa, Oeste de EE. UU.
Generación de miniaturas (v3.2)
(versión preliminar v4.0)
Detección de marcas (solo v3.2) Identifique las marcas comerciales en imágenes o vídeos desde una base de datos de miles de logotipos globales. Puede usar esta característica, por ejemplo, para detectar qué marcas son más populares en medios sociales o más frecuentes en la ubicación de los productos multimedia. Detección de marcas
Clasificación de imágenes (solo v3.2) Identifique y clasifique toda una imagen mediante una taxonomía de categoría con jerarquías hereditarias de elementos primarios y secundarios. Las categorías se pueden usar solas o con nuestros nuevos modelos de etiquetado.

Actualmente, el inglés es el único idioma que se admite para etiquetar y clasificar imágenes.
Clasificar una imagen
Detección de caras (solo v3.2) Detecte caras en una imagen y proporcione información acerca de ellas. Visión de Azure AI devuelve las coordenadas, el rectángulo, el sexo y la edad de los rostros que detecta.

También puede usar la instancia de Face API dedicada para estos fines. Esta API proporciona un análisis más detallado, como la identificación facial y la detección de poses.
Detección de caras
Detección de tipos de imagen (solo v3.2) Detecte las características de una imagen, como por ejemplo, si una imagen es un dibujo lineal o la probabilidad de que sea una imagen prediseñada. Detectar tipos de imagen
Detección de contenido específico del dominio (solo v3.2) Use los modelos de dominio para detectar e identificar el contenido específico del dominio en una imagen, como celebridades y monumentos. Por ejemplo, si una imagen contiene personas, Visión de Azure AI puede usar un modelo de dominio para celebridades para determinar si las personas que se han detectado en la imagen son famosos conocidos. Detectar contenido específico del dominio
Detección de la combinación de colores (solo v3.2) Analice el uso del color en una imagen. Visión de Azure AI puede determinar si una imagen está en blanco y negro o en color, y en las imágenes de color, identificar los colores dominantes y de énfasis. Detectar la combinación de colores
Moderación del contenido de las imágenes (solo v3.2) Puede usar Visión de Azure AI para detectar contenido para adultos en una imagen y devolver puntuaciones de confianza en las distintas clasificaciones. El umbral para el etiquetado de contenido se puede establecer en una escala deslizante, con el fin de que pueda ajustarlo a sus preferencias. Detección de contenido para adultos

Sugerencia

Puede usar las características Leer texto y Detección de objetos de Image Analysis a través del servicio Azure OpenAI. El modelo GPT-4 Turbo con Vision le permite chatear con un asistente de IA que pueda analizar las imágenes que comparte, y la opción de mejora de la visión usa Análisis de imágenes para proporcionar a la inteligencia artificial más detalles (texto legible y ubicaciones de objetos) sobre la imagen. Para obtener más información, consulte el Inicio rápido de GPT-4 Turbo con Vision.

Product Recognition (solo versión preliminar v4.0)

Las API de Product Recognition permiten analizar fotos de estantes de una tienda. Puede detectar la presencia o ausencia de productos y obtener las coordenadas del rectángulo delimitador. Úselo en combinación con la personalización del modelo para entrenar un modelo para identificar los productos específicos. También puede comparar los resultados de Product Recognition con el documento de planograma de la tienda.

Product Recognition

Inserciones multimodales (solo v4.0)

Las API de inserción multimodal permiten la vectorización de imágenes y consultas de texto. Convierten imágenes en coordenadas en un espacio vectorial multidimensional. A continuación, las consultas de texto entrantes también se pueden convertir en vectores y las imágenes se pueden comparar con el texto en función de la proximidad semántica. Esto permite al usuario buscar en un conjunto de imágenes mediante texto, sin necesidad de usar etiquetas de imagen u otros metadatos. La proximidad semántica suele producir mejores resultados en la búsqueda.

La API 2024-02-01 incluye un modelo multilingüe que admite la búsqueda de texto en 102 idiomas. El modelo de solo inglés original sigue disponible, pero no se puede combinar con el nuevo modelo en el mismo índice de búsqueda. Si ha vectorizado texto e imágenes con el modelo de solo inglés, estos vectores no serán compatibles con vectores de imagen y texto multilingües.

Estas API solo están disponibles en las siguientes regiones geográficas: Este de EE. UU., Centro de Francia, Centro de Corea del Sur, Norte de Europa, Sudeste Asiático, Oeste de Europa, Oeste de EE. UU.

Inserciones multimodales

Eliminación del fondo (solo v4.0 preliminar)

Image Analysis 4.0 (versión preliminar) ofrece la posibilidad de quitar el fondo de una imagen. Esta característica puede generar una imagen del objeto en primer plano detectado con un fondo transparente o una imagen alfa mate de escala de grises que muestra la opacidad del objeto de primer plano detectado. Eliminación del fondo

Imagen original Con fondo quitado Alfa mate
Photo of a group of people using a tablet. Photo of a group of people using a tablet; background is transparent. Alpha matte of a group of people.

Requisitos de imagen

Image Analysis funciona con imágenes que cumplen los requisitos siguientes:

  • La imagen debe presentarse en formato JPEG, PNG, GIF, BMP, WEBP, ICO, TIFF o MPO.
  • El tamaño de archivo de la imagen debe ser inferior a 20 megabytes (MB).
  • Las dimensiones de la imagen deben estar entre 50 x 50 píxeles y 16 000 x 16 000 píxeles

Sugerencia

Los requisitos de entrada para las inserciones multimodales son diferentes y se enumeran en Inserciones multimodales

Seguridad y privacidad de datos

Al igual que sucede con todas las instancias de servicios de Azure AI, los desarrolladores que usan el servicio Visión de Azure AI deben estar al tanto de las directivas de Microsoft sobre los datos de clientes. Para más información, consulte la página de servicios de Azure AI en Microsoft Trust Center.

Pasos siguientes

Para empezar a usar Image Analysis, siga la guía de inicio rápido del lenguaje de desarrollo que prefiera: