Image didascalia s (versione 4.0)

Articolo
01/23/2024

Le didascalia di immagini in Analisi immagini 4.0 sono disponibili tramite le funzionalità Caption e Dense Captions.

La didascalia genera una descrizione di una frase per tutto il contenuto dell'immagine. Le didascalie dense forniscono più dettagli generando descrizioni di una frase di un massimo di 10 aree dell'immagine oltre a descrivere l'intera immagine. Le didascalie dense restituiscono anche le coordinate del rettangolo delimitatore delle aree dell'immagine descritte. Entrambe queste funzionalità usano i modelli di intelligenza artificiale più recenti basati su Firenze.

Al momento, l'didascalia di immagini è disponibile solo in inglese.

Importante

Il didascalia di immagini in Image Analysis 4.0 è disponibile solo nelle aree seguenti del data center di Azure: Stati Uniti orientali, Francia centrale, Corea centrale, Europa settentrionale, Asia sud-orientale, Europa occidentale, Stati Uniti occidentali, Asia orientale. È necessario usare una risorsa visione che si trova in una di queste aree per ottenere i risultati dalle funzionalità Caption e Dense Captions.

Se è necessario usare una risorsa visione esterna a queste aree per generare didascalia di immagini, usare l'analisi delle immagini 3.2 disponibile in tutte le aree di Visione artificiale di Azure.

Provare le funzionalità di didascalia immagine in modo rapido e semplice nel browser usando Vision Studio.

Provare Vision Studio

Didascalia indipendenti dal genere

Per impostazione predefinita, le didascalie contengono termini di genere ("uomo", "donna", "ragazzo" e "ragazza"). È possibile sostituire questi termini con "persona" nei risultati e ricevere didascalia di genere neutrali. A tale scopo, impostare il parametro facoltativo della richiesta API, gender-neutral-didascalia su true nell'URL della richiesta.

Esempi di sottotitoli e sottotitoli densi

Caption
Didascalie dense

La risposta JSON seguente illustra ciò che l'API Analysis 4.0 restituisce quando descrive l'immagine di esempio in base alle relative funzionalità visive.

Photo of a man pointing at a screen

"captions": [
    {
        "text": "a man pointing at a screen",
        "confidence": 0.4891590476036072
    }
]

La risposta JSON seguente illustra ciò che l'API Analysis 4.0 restituisce durante la generazione di didascalia densi per l'immagine di esempio.

Photo of a tractor on a farm

{
  "denseCaptionsResult": {
    "values": [
      {
        "text": "a man driving a tractor in a farm",
        "confidence": 0.535620927810669,
        "boundingBox": {
          "x": 0,
          "y": 0,
          "w": 850,
          "h": 567
        }
      },
      {
        "text": "a man driving a tractor in a field",
        "confidence": 0.5428450107574463,
        "boundingBox": {
          "x": 132,
          "y": 266,
          "w": 209,
          "h": 219
        }
      },
      {
        "text": "a blurry image of a tree",
        "confidence": 0.5139822363853455,
        "boundingBox": {
          "x": 147,
          "y": 126,
          "w": 76,
          "h": 131
        }
      },
      {
        "text": "a man riding a tractor",
        "confidence": 0.4799223840236664,
        "boundingBox": {
          "x": 206,
          "y": 264,
          "w": 64,
          "h": 97
        }
      },
      {
        "text": "a blue sky above a hill",
        "confidence": 0.35495415329933167,
        "boundingBox": {
          "x": 0,
          "y": 0,
          "w": 837,
          "h": 166
        }
      },
      {
        "text": "a tractor in a field",
        "confidence": 0.47338250279426575,
        "boundingBox": {
          "x": 0,
          "y": 243,
          "w": 838,
          "h": 311
        }
      }
    ]
  },
  "modelVersion": "2024-02-01",
  "metadata": {
    "width": 850,
    "height": 567
  }
}

La funzionalità di didascalia dell'immagine fa parte dell'API Analizza immagine. Includere Caption nel parametro di query delle funzionalità . Quindi, quando si ottiene la risposta JSON completa, analizzare la stringa per il contenuto della "captionResult" sezione.

Passaggi successivi

Informazioni sul concetto correlato di rilevamento degli oggetti.
Guida introduttiva: API REST di analisi delle immagini o librerie client
Chiamare l'API Analizza immagine

Image didascalia s (versione 4.0)

Didascalia indipendenti dal genere

Esempi di sottotitoli e sottotitoli densi

Usare l'API

Passaggi successivi

Risorse aggiuntive