Subtítulos de imágenes (versión 4.0)

Article
06/17/2024

Los subtítulos de imágenes en Image Analysis 4.0 están disponibles mediante las características de subtítulos y subtítulos densos.

La funcionalidad de subtítulos genera una descripción de una frase para todo el contenido de la imagen. El subtitulado denso proporciona más detalles al generar descripciones de una frase de hasta diez regiones de la imagen, además de describir la imagen completa. El subtitulado denso también devuelve las coordenadas del rectángulo delimitador de las regiones de imagen descritas. Ambas funciones utilizan los últimos modelos de IA basados en Florence.

En este momento, el subtítulo de imagen solo está disponible en inglés.

Importante

La leyenda de imagen de Image Analysis 4.0 solo está disponible en determinadas regiones del centro de datos de Azure: consulte Disponibilidad de regiones. Debe usar un recurso de Visión ubicado en una de estas regiones para obtener resultados de las características Subtitulado y Subtitulado denso.

Si tiene que usar un recurso de Visión fuera de estas regiones para generar subtítulos de imagen, use Análisis de imagen 3.2, que está disponible en todas las regiones de Visión de Azure AI.

Pruebe las características de generación de subtítulos para imágenes de forma rápida y sencilla en el explorador mediante Vision Studio.

Prueba de Vision Studio

Subtítulos de género neutro

Los subtítulos contienen términos de género ("hombre", "mujer", "chico" y "chica") de forma predeterminada. Tiene la opción de reemplazar estos términos por "persona" en los resultados y recibir subtítulos con sexo neutro. Puede hacerlo estableciendo el parámetro opcional de solicitud de API, gender-neutral-caption en true en la URL de la solicitud.

Ejemplos de subtítulos y subtítulos densos

Caption
Subtítulos densos

La siguiente respuesta JSON muestra lo que devuelve Analysis 4.0 API al describir la imagen de ejemplo según sus características visuales.

Foto de un hombre que señala una pantalla

"captions": [
    {
        "text": "a man pointing at a screen",
        "confidence": 0.4891590476036072
    }
]

La siguiente respuesta JSON muestra lo que devuelve la API de Analysis 4.0 al generar subtítulos densos para la imagen de ejemplo.

Foto de un tractor en una granja

{
  "denseCaptionsResult": {
    "values": [
      {
        "text": "a man driving a tractor in a farm",
        "confidence": 0.535620927810669,
        "boundingBox": {
          "x": 0,
          "y": 0,
          "w": 850,
          "h": 567
        }
      },
      {
        "text": "a man driving a tractor in a field",
        "confidence": 0.5428450107574463,
        "boundingBox": {
          "x": 132,
          "y": 266,
          "w": 209,
          "h": 219
        }
      },
      {
        "text": "a blurry image of a tree",
        "confidence": 0.5139822363853455,
        "boundingBox": {
          "x": 147,
          "y": 126,
          "w": 76,
          "h": 131
        }
      },
      {
        "text": "a man riding a tractor",
        "confidence": 0.4799223840236664,
        "boundingBox": {
          "x": 206,
          "y": 264,
          "w": 64,
          "h": 97
        }
      },
      {
        "text": "a blue sky above a hill",
        "confidence": 0.35495415329933167,
        "boundingBox": {
          "x": 0,
          "y": 0,
          "w": 837,
          "h": 166
        }
      },
      {
        "text": "a tractor in a field",
        "confidence": 0.47338250279426575,
        "boundingBox": {
          "x": 0,
          "y": 243,
          "w": 838,
          "h": 311
        }
      }
    ]
  },
  "modelVersion": "2024-02-01",
  "metadata": {
    "width": 850,
    "height": 567
  }
}

La función de subtitulado de imágenes forma parte de la API de Analyze Image. Incluya Caption en el parámetro de consulta característica. Después, cuando obtenga la respuesta JSON completa, analice la cadena con el contenido de la sección "captionResult".

Pasos siguientes

Obtenga información sobre el concepto relacionado de detección de objetos.
Inicio rápido: API REST o bibliotecas cliente de Image Analysis
Llamada a Analyze Image API

Comparteix a través de