Legendas de imagem (versão 4.0)

Artigo
09/27/2024

As legendas de imagem da Análise de Imagem 4.0 estão disponíveis por meio dos recursos Legenda e Legendas Densas.

O recurso Legenda gera uma descrição em uma frase de todos os conteúdos da imagem. Legendas Densas fornecem mais detalhes, gerando descrições em uma frase de até 10 regiões diferentes da imagem, além de descrever a imagem inteira. As Legendas Densas também retornam coordenadas de caixas delimitadoras das regiões descritas na imagem. Ambos os recursos utilizam os mais recentes modelos de IA baseados no Florence.

A criação de legendas de imagem está disponível apenas em inglês.

Importante

A legenda de imagem na Análise de Imagem 4.0 só está disponível em determinadas regiões do data center do Azure: confira a Disponibilidade da região. É necessário utilizar um recurso do Visão de IA do Azure localizado em uma dessas regiões para obter resultados dos recursos Legenda e Legendas Densas.

Se precisar usar um recurso de Visão fora dessas regiões para gerar legendas de imagem, utilize a Análise de Imagem 3.2, que está disponível em todas as regiões do Visão de IA do Azure.

Experimente os recursos de legenda de imagem de maneira rápida e fácil no navegador usando o Vision Studio.

Experimentar o Vision Studio

Legendas neutras em relação a gênero

Por padrão, as legendas contêm termos de gênero ("homem", "mulher", "menino" e "menina"). Você tem a opção de substituir esses termos por "pessoa" nos resultados e receber legendas neutras em relação a gênero. Você pode fazer isso definindo o parâmetro de solicitação de API opcional gender-neutral-caption para true na URL de solicitação.

A resposta JSON a seguir ilustra o que a API da Análise de Imagem 4.0 retorna ao descrever a imagem de exemplo com base em seus recursos visuais.

Foto de um homem apontando para uma tela

"captions": [
    {
        "text": "a man pointing at a screen",
        "confidence": 0.4891590476036072
    }
]

A resposta JSON a seguir ilustra o que a API de Análise de Imagem 4.0 retorna ao gerar legendas densas para a imagem de exemplo.

Foto de um trator em uma fazenda

{
  "denseCaptionsResult": {
    "values": [
      {
        "text": "a man driving a tractor in a farm",
        "confidence": 0.535620927810669,
        "boundingBox": {
          "x": 0,
          "y": 0,
          "w": 850,
          "h": 567
        }
      },
      {
        "text": "a man driving a tractor in a field",
        "confidence": 0.5428450107574463,
        "boundingBox": {
          "x": 132,
          "y": 266,
          "w": 209,
          "h": 219
        }
      },
      {
        "text": "a blurry image of a tree",
        "confidence": 0.5139822363853455,
        "boundingBox": {
          "x": 147,
          "y": 126,
          "w": 76,
          "h": 131
        }
      },
      {
        "text": "a man riding a tractor",
        "confidence": 0.4799223840236664,
        "boundingBox": {
          "x": 206,
          "y": 264,
          "w": 64,
          "h": 97
        }
      },
      {
        "text": "a blue sky above a hill",
        "confidence": 0.35495415329933167,
        "boundingBox": {
          "x": 0,
          "y": 0,
          "w": 837,
          "h": 166
        }
      },
      {
        "text": "a tractor in a field",
        "confidence": 0.47338250279426575,
        "boundingBox": {
          "x": 0,
          "y": 243,
          "w": 838,
          "h": 311
        }
      }
    ]
  },
  "modelVersion": "2024-02-01",
  "metadata": {
    "width": 850,
    "height": 567
  }
}

Usar a API

Legendas de imagem
Legendas densas

O recurso de descrição de imagem faz parte da API de Análise de Imagem. Inclua Caption no parâmetro de consulta features. Em seguida, quando receber a resposta JSON completa, basta analisar a cadeia de caracteres para o conteúdo da seção "captionResult".

Próximas etapas

Conheça o conceito relacionado de detecção de objetos.
Guia de início rápido: bibliotecas de clientes ou API REST da Análise de Imagem
Chamar a API de Análise de Imagem

Compartilhar via

Legendas de imagem (versão 4.0)

Legendas neutras em relação a gênero

Exemplos de legendas e legendas densas

Usar a API

Próximas etapas

Comentários

Recursos adicionais