Détection d’objet (version 4.0)

La détection d’objets est similaire à l’étiquetage, mais l’API retourne les coordonnées de cadre englobant (en pixels) pour chaque objet trouvé dans l’image. Par exemple, si une image contient un chien, un chat et une personne, l’opération de détection d’objet répertorie ces objets ainsi que leurs coordonnées dans l’image. Vous pouvez utiliser cette fonctionnalité pour traiter les relations entre les objets dans une image. Elle vous permet également de déterminer s’il existe plusieurs instances du même objet dans une image.

La fonction de détection d’objet applique des étiquettes en fonction des objets ou éléments vivants identifiés dans l’image. Il n’existe aucune relation formelle entre la taxonomie des balises et la taxonomie de détection d’objets. À un niveau conceptuel, la fonction de détection d’objet recherche uniquement des objets et éléments vivants, tandis que la fonction d’étiquette peut également inclure des termes contextuels tels que « intérieur », qui ne peuvent pas être localisés avec des cadres englobants.

Essayez les fonctionnalités de détection d’objets rapidement et facilement dans votre navigateur à l’aide de Vision Studio.

Conseil

Vous pouvez utiliser la fonctionnalité de détection d’objets via le service Azure OpenAI. Le modèle GPT-4 Turbo avec Vision vous permet de converser avec un assistant IA capable d’analyser les images que vous partagez, et l’option Amélioration de la vision utilise l’analyse des images pour fournir à l’assistance IA plus de détails (le texte lisible et les emplacements des objets) sur l’image. Pour plus d’informations, consultez le Guide de démarrage rapide de GPT-4 Turbo avec Vision.

Exemple de détection d’objet

La réponse JSON suivante illustre ce que retourne l’API Analyse 4.0 lors de la détection d’objet dans l’exemple d’image.

A woman using a Microsoft Surface device in a kitchen

{
    "metadata":
    {
        "width": 1260,
        "height": 473
    },
    "objectsResult":
    {
        "values":
        [
            {
                "name": "kitchen appliance",
                "confidence": 0.501,
                "boundingBox": {"x":730,"y":66,"w":135,"h":85}
            },
            {
                "name": "computer keyboard",
                "confidence": 0.51,
                "boundingBox": {"x":523,"y":377,"w":185,"h":46}
            },
            {
                "name": "Laptop",
                "confidence": 0.85,
                "boundingBox": {"x":471,"y":218,"w":289,"h":226}
            },
            {
                "name": "person",
                "confidence": 0.855,
                "boundingBox": {"x":654,"y":0,"w":584,"h":473}
            }
        ]
    }
}

Limites

Les limites de la détection d'objet doivent impérativement être prises en compte afin d'éviter ou d'atténuer les effets des faux négatifs (objets manqués) et des détails limités.

  • Les tout petits objets (moins de 5 % de l'image) ne sont généralement pas détectés.
  • Les objets proches les uns des autres (piles d'assiettes, par exemple) ne sont généralement pas détectés.
  • Les objets ne sont pas différenciés par marque ou nom de produit (différents types de sodas sur une étagère de magasin, par exemple). Toutefois, vous pouvez obtenir des informations sur les marques figurant sur une image à l'aide de la fonctionnalité Détection de marque.

Utilisation de l’API

La fonctionnalité de détection d'objet fait partie de l'API Analyser l'image. Vous pouvez appeler cette API à l’aide de REST. Incluez Objects dans le paramètre de requête features. Ensuite, lorsque vous obtenez la réponse JSON complète, analysez la chaîne de contenu de la section "objects".

Étapes suivantes