Subtítulos de imágenes (versión 4.0)

Artículo
02/03/2024

Los subtítulos de imágenes en Image Analysis 4.0 están disponibles mediante las características de subtítulos y subtítulos densos.

La funcionalidad de subtítulos genera una descripción de una frase para todo el contenido de la imagen. El subtitulado denso proporciona más detalles al generar descripciones de una frase de hasta diez regiones de la imagen, además de describir la imagen completa. El subtitulado denso también devuelve las coordenadas del rectángulo delimitador de las regiones de imagen descritas. Ambas funciones utilizan los últimos modelos de IA basados en Florence.

En este momento, el subtítulo de imagen solo está disponible en inglés.

Importante

El subtitulado de imágenes de Image Analysis 4.0 solo están disponibles en las siguientes regiones del centro de datos de Azure: Este de EE. UU., Centro de Francia, Centro de Corea del Sur, Norte de Europa, Sudeste de Asia, Oeste de Europa, Oeste de EE. UU., Este de Asia. Debe usar un recurso de Visión ubicado en una de estas regiones para obtener resultados de las características Subtitulado y Subtitulado denso.

Si tiene que usar un recurso de Visión fuera de estas regiones para generar subtítulos de imagen, use Análisis de imagen 3.2, que está disponible en todas las regiones de Visión de Azure AI.

Pruebe las características de generación de subtítulos para imágenes de forma rápida y sencilla en el explorador mediante Vision Studio.

Prueba de Vision Studio

Subtítulos de género neutro

Los subtítulos contienen términos de género ("hombre", "mujer", "chico" y "chica") de forma predeterminada. Tiene la opción de reemplazar estos términos por "persona" en los resultados y recibir subtítulos con sexo neutro. Puede hacerlo estableciendo el parámetro opcional de solicitud de API, gender-neutral-caption en true en la URL de la solicitud.

Ejemplos de subtítulos y subtítulos densos

Caption
Subtítulos densos

La siguiente respuesta JSON muestra lo que devuelve Analysis 4.0 API al describir la imagen de ejemplo según sus características visuales.

Photo of a man pointing at a screen

"captions": [
    {
        "text": "a man pointing at a screen",
        "confidence": 0.4891590476036072
    }
]

La siguiente respuesta JSON muestra lo que devuelve la API de Analysis 4.0 al generar subtítulos densos para la imagen de ejemplo.

Photo of a tractor on a farm

{
  "denseCaptionsResult": {
    "values": [
      {
        "text": "a man driving a tractor in a farm",
        "confidence": 0.535620927810669,
        "boundingBox": {
          "x": 0,
          "y": 0,
          "w": 850,
          "h": 567
        }
      },
      {
        "text": "a man driving a tractor in a field",
        "confidence": 0.5428450107574463,
        "boundingBox": {
          "x": 132,
          "y": 266,
          "w": 209,
          "h": 219
        }
      },
      {
        "text": "a blurry image of a tree",
        "confidence": 0.5139822363853455,
        "boundingBox": {
          "x": 147,
          "y": 126,
          "w": 76,
          "h": 131
        }
      },
      {
        "text": "a man riding a tractor",
        "confidence": 0.4799223840236664,
        "boundingBox": {
          "x": 206,
          "y": 264,
          "w": 64,
          "h": 97
        }
      },
      {
        "text": "a blue sky above a hill",
        "confidence": 0.35495415329933167,
        "boundingBox": {
          "x": 0,
          "y": 0,
          "w": 837,
          "h": 166
        }
      },
      {
        "text": "a tractor in a field",
        "confidence": 0.47338250279426575,
        "boundingBox": {
          "x": 0,
          "y": 243,
          "w": 838,
          "h": 311
        }
      }
    ]
  },
  "modelVersion": "2024-02-01",
  "metadata": {
    "width": 850,
    "height": 567
  }
}

La función de subtitulado de imágenes forma parte de la API de Analyze Image. Incluya Caption en el parámetro de consulta característica. Después, cuando obtenga la respuesta JSON completa, analice la cadena con el contenido de la sección "captionResult".

Pasos siguientes

Obtenga información sobre el concepto relacionado de detección de objetos.
Inicio rápido: API REST o bibliotecas cliente de Image Analysis
Llamada a Analyze Image API

Subtítulos de imágenes (versión 4.0)

Subtítulos de género neutro

Ejemplos de subtítulos y subtítulos densos

Uso de la API

Pasos siguientes

Recursos adicionales