Légendes d’image (version 4.0)

Article
01/27/2024

Les légendes d’image dans Analyse d’image 4.0 sont disponibles via les fonctionnalités Légende et Légendes denses.

Le texte de légende génère une description en une phrase de tout le contenu de l’image. Les légendes denses fournissent plus de détails en générant des descriptions d’une phrase pour un maximum de 10 régions de l’image, en plus de la description de l’image entière. La fonctionnalité Légendes denses renvoie également les coordonnées de cadre englobant les régions d’image décrites. Ces deux fonctionnalités utilisent les derniers modèles d’IA innovants basés sur Florence.

À l’heure actuelle, la fonctionnalité de légende d’image est disponible uniquement en anglais.

Important

La fonctionnalité de légende d’image dans Analyse d’image 4.0 est disponible uniquement dans les régions de centre de données Azure suivantes : USA Est, France Centre, Corée Centre, Europe Nord, Asie Sud-Est, Europe Ouest, USA Ouest, Asie Est. Vous devez utiliser une ressource Vision située dans l’une de ces régions pour obtenir les résultats des fonctionnalités Légende et Légendes denses.

Si vous devez utiliser une ressource Vision en dehors de ces régions pour générer des légendes d’image, veuillez utiliser Analyse d’image 3.2, qui est disponible dans toutes les régions Azure AI Vision.

Essayez les fonctionnalités de légende d’images rapidement et facilement dans votre navigateur à l’aide de Vision Studio.

Essayez Vision Studio

Légendes non genrées

Les légendes contiennent par défaut des termes de genre (« homme », « femme », « garçon » et « fille »). Vous avez la possibilité de remplacer ces termes par « personne » dans vos résultats et obtenir ainsi des légendes non genrées. Pour ce faire, définissez le paramètre de demande d’API facultatif, gender-neutral-caption sur true dans l’URL de la requête.

Exemples de légendes et de légendes denses

Caption
Légendes denses

La réponse JSON suivante montre la description de l’image qui est retournée par l’API Analyse 4.0, sur la base des éléments visuels qu’elle contient.

Photo of a man pointing at a screen

"captions": [
    {
        "text": "a man pointing at a screen",
        "confidence": 0.4891590476036072
    }
]

La réponse JSON suivante illustre ce que l’API Analyse 4.0 retourne lors de la génération de légendes denses pour l’exemple d’image.

Photo of a tractor on a farm

{
  "denseCaptionsResult": {
    "values": [
      {
        "text": "a man driving a tractor in a farm",
        "confidence": 0.535620927810669,
        "boundingBox": {
          "x": 0,
          "y": 0,
          "w": 850,
          "h": 567
        }
      },
      {
        "text": "a man driving a tractor in a field",
        "confidence": 0.5428450107574463,
        "boundingBox": {
          "x": 132,
          "y": 266,
          "w": 209,
          "h": 219
        }
      },
      {
        "text": "a blurry image of a tree",
        "confidence": 0.5139822363853455,
        "boundingBox": {
          "x": 147,
          "y": 126,
          "w": 76,
          "h": 131
        }
      },
      {
        "text": "a man riding a tractor",
        "confidence": 0.4799223840236664,
        "boundingBox": {
          "x": 206,
          "y": 264,
          "w": 64,
          "h": 97
        }
      },
      {
        "text": "a blue sky above a hill",
        "confidence": 0.35495415329933167,
        "boundingBox": {
          "x": 0,
          "y": 0,
          "w": 837,
          "h": 166
        }
      },
      {
        "text": "a tractor in a field",
        "confidence": 0.47338250279426575,
        "boundingBox": {
          "x": 0,
          "y": 243,
          "w": 838,
          "h": 311
        }
      }
    ]
  },
  "modelVersion": "2024-02-01",
  "metadata": {
    "width": 850,
    "height": 567
  }
}

La fonctionnalité de légende d’image fait partie de l’API Analyse Image. Incluez Caption dans le paramètre de requête features. Ensuite, lorsque vous obtenez la réponse JSON complète, analysez la chaîne de contenu de la section "captionResult".

Étapes suivantes

Découvrez le concept lié de détection d’objet.
Démarrage rapide : API REST d'analyse d'images ou bibliothèques clientes
Appelez l’API Analyse Image

Légendes d’image (version 4.0)

Légendes non genrées

Exemples de légendes et de légendes denses

Utilisation de l’API

Étapes suivantes

Ressources supplémentaires