Compartir a través de


Inserciones multimodales (versión 4.0)

La inserción multimodal es el proceso de generación de la representación numérica de una imagen, que captura sus funciones y características en un formato vectorial. Estos vectores codifican el contenido y el contexto de una imagen de una manera que es compatible con la búsqueda de texto en el mismo espacio vectorial.

Los sistemas de recuperación de imágenes han usado tradicionalmente características extraídas de las imágenes, como etiquetas de contenido, etiquetas y descriptores de imagen, para comparar imágenes y clasificarlas por similitud. Sin embargo, la búsqueda de similitud vectorial está ganando más popularidad debido a una serie de ventajas sobre la búsqueda tradicional basada en palabras clave y se está convirtiendo en un componente fundamental en los servicios de búsqueda de contenido populares.

La búsqueda de palabras clave es el método más básico y tradicional de recuperación de información. En ese enfoque, el motor de búsqueda busca la coincidencia exacta de las palabras clave o frases introducidas por el usuario en la consulta de búsqueda y la compara con las etiquetas y marcas proporcionadas para las imágenes. A continuación, el motor de búsqueda devuelve imágenes que contienen esas palabras clave exactas como etiquetas de contenido y etiquetas de imagen. La búsqueda de palabras clave se basa en gran medida en la capacidad del usuario de usar términos de búsqueda relevantes y específicos.

La búsqueda por vectores busca grandes colecciones de vectores en un espacio de alta dimensión para encontrar vectores que sean similares a una consulta determinada. La búsqueda vectorial busca similitudes semánticas mediante la captura del contexto y el significado de la consulta de búsqueda. Este enfoque suele ser más eficaz que las técnicas tradicionales de recuperación de imágenes, ya que puede reducir el espacio de búsqueda y mejorar la precisión de los resultados.

Aplicaciones empresariales

La inserción multimodal tiene una variedad de aplicaciones en distintos campos, entre los que se incluyen:

  • Administración de activos digitales: la inserción multimodal se puede usar para administrar grandes colecciones de imágenes digitales; por ejemplo, en museos, archivos o galerías en línea. Los usuarios pueden buscar imágenes basadas en características visuales y recuperar las imágenes que coinciden con sus criterios.
  • Seguridad y vigilancia: la vectorización se puede usar en sistemas de seguridad y vigilancia para buscar imágenes basadas en características o patrones específicos, como en, personas y seguimiento de objetos o detección de amenazas.
  • Recuperación de imágenes forenses: la vectorización se puede usar en investigaciones forenses para buscar imágenes basadas en su contenido visual o metadatos, como en casos de ciberdelincuencia.
  • Comercio electrónico: la vectorización se puede usar en aplicaciones de compras en línea para buscar productos similares en función de sus características o descripciones o proporcionar recomendaciones basadas en compras anteriores.
  • Moda y diseño: la vectorización se puede usar en los campos de moda y diseño para buscar imágenes en función de sus características visuales, como el color, el patrón o la textura. Esto puede ayudar a los diseñadores o minoristas a identificar productos o tendencias similares.

Precaución

La inserción multimodal no está diseñada para analizar imágenes médicas para características de diagnóstico o patrones de enfermedades. No use la inserción multimodal para fines médicos.

¿Qué son las incrustaciones vectoriales?

Las incrustaciones vectoriales son una forma de representar contenido (texto o imágenes) como vectores de números reales en un espacio dimensional alto. Las incrustaciones vectoriales a menudo se aprenden de grandes cantidades de datos textuales y visuales mediante algoritmos de aprendizaje automático, como redes neuronales.

Cada dimensión del vector corresponde a una característica o atributo diferentes del contenido, como su significado semántico, el rol sintáctico o el contexto en el que suele aparecer. En Visión de Azure AI, las inserciones de vectores de imagen y texto tienen 1024 dimensiones.

Importante

Las incrustaciones vectoriales solo se pueden comparar y hacer coincidir si proceden del mismo tipo de modelo. Las imágenes vectorizadas por un modelo no se podrán buscar a través de otro modelo. La API de análisis de imágenes más reciente ofrece dos modelos: la versión 2023-04-15, que admite la búsqueda de texto en muchos idiomas, y el modelo 2022-04-11 heredado, que solo admite la búsqueda en inglés.

¿Cómo funciona?

A continuación, se muestran los pasos principales del proceso de recuperación de imágenes mediante inserciones multimodales.

Diagram of image retrieval process.

  1. Vectorizar imágenes y texto: las API de inserciones multimodales, VectorizeImage y VectorizeText, se pueden usar para extraer vectores de características de una imagen o texto, respectivamente. Las API devuelven un único vector de característica que representa toda la entrada.

    Nota:

    La inserción multimodal no realiza ningún procesamiento biométrico de rostros humanos. Para la detección e identificación de caras, consulte el servicio Face de Azure AI.

  2. Medir similitud: los sistemas de búsqueda vectorial suelen usar métricas de distancia, como la distancia coseno o la distancia euclidiana, para comparar vectores y clasificarlos por similitud. La demostración de Vision Studio usa la distancia de coseno para medir la similitud.

  3. Recuperar imágenes: use los vectores superiores N similares a la consulta de búsqueda y recupere las imágenes correspondientes a esos vectores de la biblioteca de fotos para proporcionar como resultado final.

Puntuación de relevancia

Los servicios de recuperación de imágenes y vídeos devuelven un campo denominado "relevancia". El término "relevancia" denota una medida de puntuación de similitud entre una consulta y las incrustaciones o fotogramas de vídeo o imágenes. La puntuación de relevancia se compone de dos partes:

  1. La similitud de coseno (que se encuentra en el intervalo de [0,1]) entre la consulta y las incrustaciones o fotogramas de vídeo o imágenes.
  2. Una puntuación de metadatos, que refleja la similitud entre la consulta y los metadatos asociados con el fotograma de vídeo o la imagen.

Importante

La puntuación de relevancia es una buena medida para clasificar los resultados, como fotogramas de vídeo o imágenes, con respecto a una sola consulta. Sin embargo, la puntuación de relevancia no se puede comparar con precisión entre las consultas. Por lo tanto, no es posible asignar fácilmente la puntuación de relevancia a un nivel de confianza. Tampoco es posible crear trivialmente un algoritmo de umbral para eliminar los resultados irrelevantes basándose únicamente en la puntuación de relevancia.

Requisitos de entrada

Entrada de imagen

  • El tamaño de archivo de la imagen debe ser inferior a 20 megabytes (MB).
  • Las dimensiones de la imagen deben estar entre 10 x 10 píxeles y 16 000 x 16 000 píxeles.

Entrada de texto

  • La cadena de texto debe estar entre (inclusive) 1 y 70 palabras.

Pasos siguientes

Habilite las inserciones multimodales para el servicio de búsqueda y siga los pasos para generar incrustaciones vectoriales de texto e imágenes.