Incorporations multimodales (version 4.0)

Article
09/25/2024

L’incorporation multimodale est le processus de génération d’une représentation vectorielle d’une image qui capture ses caractéristiques. Ces vecteurs encodent le contenu et le contexte d’une image d’une manière compatible avec la recherche de texte sur le même espace vectoriel.

Les systèmes de récupération d’images utilisent généralement des caractéristiques extraites des images, telles que les étiquettes de contenu, les mots clés et les descripteurs d’image, pour comparer les images et les classer par similarités. Toutefois, la recherche de similarité vectorielle offre un certain nombre d’avantages par rapport à la recherche traditionnelle basée sur des mots clés, et devient un composant essentiel des services populaires de recherche de contenu.

Différences entre la recherche vectorielle et la recherche par mots clés

La recherche par mot clé constitue la méthode de récupération d’informations la plus simple et la plus classique. Dans cette approche, le moteur de recherche cherche la correspondance exacte d’expressions ou de mots clés entrés par l’utilisateur dans la requête de recherche, et les compare avec les étiquettes et les mots clés fournies pour les images. Le moteur de recherche retourne ensuite les images qui contiennent ces mots clés exacts sous forme d’étiquettes de contenu et d’étiquettes d’image. La recherche par mot clé s’appuie fortement sur la capacité de l’utilisateur à utiliser des termes de recherche pertinents et spécifiques.

La recherche vectorielle recherche de grandes collections de vecteurs dans un espace de grande dimension pour trouver des vecteurs similaires à une requête donnée. La recherche vectorielle recherche des similitudes sémantiques en capturant le contexte et la signification de la requête de recherche. Cette approche est souvent plus efficace que les techniques de récupération d’images traditionnelles, car elle peut réduire l’espace de recherche et améliorer la justesse des résultats.

Applications métier

Les incorporations multimodales ont une variété d’applications dans différents domaines, notamment :

La gestion des ressources numériques : l’incorporation multimodale peut être utilisée pour gérer de grandes collections d’images numériques, par exemple dans les musées, les archives ou les galeries en ligne. Les utilisateurs peuvent rechercher des images basées sur des caractéristiques visuelles, et récupérer les images qui correspondent à leurs critères.
Sécurité et surveillance : vous pouvez utiliser la vectorisation dans des systèmes de sécurité et de surveillance pour rechercher des images basées sur des caractéristiques ou des modèles spécifiques, comme dans le suivi d’objets et de personnes ou la détection de menaces.
Récupération d’images médico-légales : la vectorisation peut être utilisée dans les enquêtes judiciaires pour rechercher des images en fonction de leur contenu visuel ou de leurs métadonnées, comme dans les cas de cyber-criminalité.
E-commerce : la vectorisation peut être utilisée dans les applications d’achat en ligne pour rechercher des produits similaires en fonction de leurs caractéristiques ou de leurs descriptions, ou pour fournir des suggestions basées sur des achats précédents.
Mode et le design : la vectorisation peut être utilisée dans la mode et le design pour rechercher des images en fonction de leurs caractéristiques visuelles, comme la couleur, le modèle ou la texture. Elle peut aider les designers ou les détaillants à identifier des produits ou des tendances similaires.

Attention

Les incorporations multimodales ne sont pas conçues pour analyser les images médicales à la recherche de points de diagnostic ou de caractéristiques de maladie. Veuillez ne pas utiliser les incorporations multimodales à des fins médicales.

Que sont les incorporations vectorielles ?

Les incorporations vectorielles sont un moyen de représenter du contenu, (texte ou images) sous forme de vecteurs de nombres réels dans un espace de grande dimension. Les incorporations vectorielles sont souvent apprises à partir de grandes quantités de données textuelles et visuelles à l’aide d’algorithmes de machine learning, tels que les réseaux neuronaux.

Chaque dimension du vecteur correspond à une caractéristique ou un attribut différent du contenu, comme sa signification sémantique, son rôle syntaxique ou le contexte dans lequel il apparaît couramment. Dans Azure AI Vision, les incorporations de vecteurs image et texte ont 1024 dimensions.

Important

Les incorporations vectorielles peuvent être comparées et associées seulement si elles proviennent du même type de modèle. Les images vectorisées par un seul modèle ne peuvent pas faire l’objet d’une recherche par le biais d’un autre modèle. La dernière API Analyse d’images offre deux modèles, la version 2023-04-15 qui prend en charge la recherche de texte dans de nombreuses langues, et le modèle 2022-04-11 hérité qui prend uniquement en charge l’anglais.

Comment cela fonctionne-t-il ?

Voici les principales étapes du processus de récupération d’images à l’aide des incorporations multimodales.

Diagramme du processus d’incorporation multimodale/de récupération d’images.

Vectoriser des images et du texte : les API d’incorporation multimodale, VectorizeImage et VectorizeText, peuvent être utilisées pour extraire des vecteurs de caractéristiques à partir d’une image ou d’un texte, respectivement. Les API retournent un vecteur de caractéristique unique représentant l’entrée entière.

Remarque

Les incorporations multimodales ne procèdent à aucun traitement biométrique des visages humains. Pour la détection et l’identification des visages, consultez le service Visage Azure AI.
Mesure de la similitude : les systèmes de recherche vectorielle utilisent généralement des métriques de distance, telles que la distance du cosinus ou la distance euclidienne, pour comparer les vecteurs et les classer par similarités. La démonstration de Vision Studio utilise la distance du cosinus pour mesurer la similarité.
Récupération d’images : utilisez les premiers vecteurs N similaires à la requête de recherche et récupérez les images correspondant à ces vecteurs à partir de votre photothèque pour fournir le résultat final.

Score de pertinence

Les services de récupération d’image et de vidéo retournent un champ appelé « pertinence ». Le terme « pertinence » désigne une mesure de similarité entre une requête et les incorporations d’images ou d’images vidéo. Le score de pertinence est composé de deux parties :

La similarité cosinus (qui se situe dans la plage de [0,1]) entre la requête et les incorporations d’image ou d’image vidéo.
Un score de métadonnées, qui reflète la similarité entre la requête et les métadonnées associées à l’image ou à l’image vidéo.

Important

Le score de pertinence est une bonne mesure pour classer les résultats des images ou des images vidéo par rapport à une seule requête. Toutefois, le score de pertinence ne peut pas être comparé avec précision entre plusieurs requêtes. Par conséquent, il n’est pas possible de mapper facilement le score de pertinence à un niveau de confiance. Il n’est pas non plus possible de créer un algorithme de seuil pour éliminer les résultats non pertinents uniquement en fonction du score de pertinence.

Critères des entrées

Entrée d’image

La taille de fichier de l’image doit être inférieure à 20 mégaoctets (Mo)
Les dimensions de l’image doivent être supérieures à 10 x 10 pixels et inférieures à 16 000 x 16 000 pixels.

Saisie de texte

La chaîne de texte doit être comprise entre un mot et 70 mots (inclus).

Étapes suivantes

Activez les incorporations multimodales pour votre service de recherche et suivez les étapes afin de générer des incorporations vectorielles pour le texte et les images.

Appeler les API d’incorporations multimodales

Partager via