O que é a Análise de Imagem?

O serviço Azure AI Vision Image Analysis pode extrair uma grande variedade de recursos visuais de suas imagens. Por exemplo, pode determinar se uma imagem contém conteúdo adulto, encontrar marcas ou objetos específicos ou encontrar rostos humanos.

A última versão do Image Analysis, 4.0, que agora está em disponibilidade geral, tem novos recursos como OCR síncrono e deteção de pessoas. Recomendamos que você use esta versão no futuro.

Você pode usar a Análise de Imagem por meio de um SDK de biblioteca de cliente ou chamando a API REST diretamente. Siga o guia de início rápido para começar.

Ou, você pode experimentar os recursos da Análise de Imagem de forma rápida e fácil em seu navegador usando o Vision Studio.

Esta documentação contém os seguintes tipos de artigos:

  • Os guias de início rápido são instruções passo a passo que permitem fazer chamadas para o serviço e obter resultados em um curto período de tempo.
  • Os guias de instruções contêm instruções para usar o serviço de maneiras mais específicas ou personalizadas.
  • Os artigos conceituais fornecem explicações detalhadas sobre a funcionalidade e os recursos do serviço.
  • Os tutoriais são guias mais longos que mostram como usar esse serviço como um componente em soluções de negócios mais amplas.

Para uma abordagem mais estruturada, siga um módulo de Formação em Análise de Imagem.

Versões de Análise de Imagem

Importante

Selecione a versão da API de Análise de Imagem que melhor se adapta às suas necessidades.

Versão Funcionalidades disponíveis Recomendação
versão 4.0 Ler texto, Legendas, Legendas densas, Tags, Deteção de objetos, Classificação de imagem personalizada / deteção de objetos, Pessoas, Corte inteligente Melhores modelos; Use a versão 4.0 se ela suportar seu caso de uso.
Versão 3.2 Tags, Objetos, Descrições, Marcas, Rostos, Tipo de imagem, Esquema de cores, Pontos de referência, Celebridades, Conteúdo adulto, Corte inteligente Maior variedade de funcionalidades; Use a versão 3.2 se o seu caso de uso ainda não for suportado na versão 4.0

Recomendamos que você use a API do Image Analysis 4.0 se ela oferecer suporte ao seu caso de uso. Use a versão 3.2 se o seu caso de uso ainda não for suportado pela 4.0.

Você também precisará usar a versão 3.2 se quiser fazer legendas de imagens e seu recurso Visão estiver fora dessas regiões do Azure: Leste dos EUA, França Central, Coreia Central, Europa do Norte, Sudeste Asiático, Europa Ocidental e Oeste dos EUA, Ásia Oriental. O recurso de legenda de imagem no Image Analysis 4.0 só é suportado nessas regiões do Azure. A legenda de imagem na versão 3.2 está disponível em todas as regiões do Azure AI Vision.

Analisar imagem

Você pode analisar imagens para fornecer informações sobre seus recursos e características visuais. Todos os recursos desta lista são fornecidos pela API Analyze Image. Siga um guia de início rápido para começar.

Nome Descrição Página de conceito
Personalização do modelo (apenas visualização v4.0) Você pode criar e treinar modelos personalizados para fazer classificação de imagem ou deteção de objetos. Traga suas próprias imagens, rotule-as com tags personalizadas e a Análise de Imagem treina um modelo personalizado para seu caso de uso. Personalização do modelo
Ler texto de imagens (apenas v4.0) A versão 4.0 de visualização da Análise de Imagem oferece a capacidade de extrair texto legível de imagens. Em comparação com a API de leitura assíncrona do Computer Vision 3.2, a nova versão oferece o conhecido mecanismo Read OCR em uma API síncrona unificada com desempenho aprimorado que facilita a obtenção de OCR junto com outras informações em uma única chamada de API. OCR para imagens
Detetar pessoas em imagens (somente v4.0) A versão 4.0 da Análise de Imagem oferece a capacidade de detetar pessoas que aparecem em imagens. As coordenadas da caixa delimitadora de cada pessoa detetada são retornadas, juntamente com uma pontuação de confiança. Deteção de pessoas
Gerar legendas de imagem Gere uma legenda de uma imagem em linguagem legível por humanos, usando frases completas. Os algoritmos da Computer Vision geram legendas com base nos objetos identificados na imagem.

O modelo de legendagem de imagem versão 4.0 é uma implementação mais avançada e funciona com uma gama mais ampla de imagens de entrada. Está disponível apenas nas seguintes regiões geográficas: Leste dos EUA, França Central, Coreia Central, Norte da Europa, Sudeste Asiático, Europa Ocidental, Oeste dos EUA.

A versão 4.0 também permite usar legendas densas, que geram legendas detalhadas para objetos individuais encontrados na imagem. A API retorna as coordenadas da caixa delimitadora (em pixels) de cada objeto encontrado na imagem, além de uma legenda. Você pode usar essa funcionalidade para gerar descrições de partes separadas de uma imagem.

Foto de vacas com uma descrição simples à direita.
Gerar legendas de imagem (v3.2)
(v4.0)
Detetar objetos A deteção de objetos é semelhante à marcação, mas a API retorna as coordenadas da caixa delimitadora para cada tag aplicada. Por exemplo, se uma imagem contiver um cão, gato e pessoa, a operação Detetar listará esses objetos juntamente com suas coordenadas na imagem. Você pode usar essa funcionalidade para processar outras relações entre os objetos em uma imagem. Ele também permite que você saiba quando há várias instâncias da mesma tag em uma imagem.

Foto de um escritório com um retângulo desenhado em torno de um laptop.
Detetar objetos (v3.2)
(v4.0)
Etiquetar elementos visuais Identifique e marque características visuais em uma imagem, a partir de um conjunto de milhares de objetos reconhecíveis, seres vivos, cenários e ações. Quando as tags são ambíguas ou não são de conhecimento comum, a resposta da API fornece dicas para esclarecer o contexto da tag. A identificação não se limita ao motivo principal, por exemplo, uma pessoa em primeiro plano, mas também inclui o cenário (interior ou exterior), mobiliário, ferramentas, plantas, animais, acessórios, gadgets, etc.

Foto de um skatista com tags listadas à direita.
Marcar recursos visuais (v3.2)
(v4.0)
Obter a área de interesse / colheita inteligente Analise o conteúdo de uma imagem para retornar as coordenadas da área de interesse que corresponda a uma proporção especificada. O Computer Vision retorna as coordenadas da caixa delimitadora da região, para que o aplicativo chamador possa modificar a imagem original conforme desejado.

O modelo de corte inteligente versão 4.0 é uma implementação mais avançada e funciona com uma gama mais ampla de imagens de entrada. Está disponível apenas nas seguintes regiões geográficas: Leste dos EUA, França Central, Coreia Central, Norte da Europa, Sudeste Asiático, Europa Ocidental, Oeste dos EUA.
Gerar uma miniatura (v3.2)
(Visualização v4.0)
Detetar marcas (somente v3.2) Identifique marcas comerciais em imagens ou vídeos a partir de uma base de dados de milhares de logótipos globais. Você pode usar esse recurso, por exemplo, para descobrir quais marcas são mais populares nas mídias sociais ou mais prevalentes no posicionamento de produtos de mídia. Detetar marcas
Categorizar uma imagem (somente v3.2) Identifique e categorize uma imagem inteira, com uma taxonomia de categorias com hierarquias hereditárias principais/subordinadas. As categorias podem ser utilizadas isoladamente ou com os nossos novos modelos de identificação.

Atualmente, o inglês é o único idioma suportado para identificar e categorizar imagens.
Categorizar uma imagem
Detetar rostos (somente v3.2) Detete rostos numa imagem e forneça informações sobre cada rosto detetado. O Azure AI Vision retorna as coordenadas, retângulo, sexo e idade de cada rosto detetado.

Você também pode usar a API Face dedicada para esses fins. Ele fornece análises mais detalhadas, como identificação facial e deteção de poses.
Detetar rostos
Detetar tipos de imagem (somente v3.2) Detete características sobre uma imagem como, por exemplo, se uma imagem é um desenho de linha ou a probabilidade de uma imagem ser ClipArt. Detetar tipos de imagem
Detetar conteúdo específico do domínio (somente v3.2) Utilize modelos de domínio para detetar e identificar conteúdo específico de um domínio numa imagem, como celebridades e marcos de referência. Por exemplo, se uma imagem contiver pessoas, o Azure AI Vision pode usar um modelo de domínio para celebridades para determinar se as pessoas detetadas na imagem são celebridades conhecidas. Detetar conteúdo específico de um domínio
Detetar o esquema de cores (somente v3.2) Analise a utilização de cor numa imagem. O Azure AI Vision pode determinar se uma imagem é preta ou branca ou colorida e, para imagens coloridas, identificar as cores dominantes e de destaque. Detetar o esquema de cores
Moderar conteúdo em imagens (apenas v3.2) Você pode usar o Azure AI Vision para detetar conteúdo adulto em uma imagem e retornar pontuações de confiança para diferentes classificações. O limite para sinalizar conteúdo pode ser definido em uma escala deslizante para acomodar suas preferências. Detetar conteúdo adulto

Gorjeta

Você pode usar os recursos de Leitura de texto e Deteção de objetos da Análise de Imagem por meio do serviço Azure OpenAI . O modelo GPT-4 Turbo with Vision permite conversar com um assistente de IA que pode analisar as imagens que você compartilha, e a opção Vision Enhancement usa Análise de Imagem para dar à assistência de IA mais detalhes (texto legível e locais de objetos) sobre a imagem. Para obter mais informações, consulte o Guia de início rápido GPT-4 Turbo com Visão.

Reconhecimento do produto (apenas visualização v4.0)

As APIs de reconhecimento de produtos permitem analisar fotos de prateleiras em uma loja de varejo. Você pode detetar a presença ou ausência de produtos e obter suas coordenadas de caixa delimitadora. Use-o em combinação com a personalização do modelo para treinar um modelo para identificar seus produtos específicos. Também pode comparar os resultados do Reconhecimento de Produtos com o documento de planograma da sua loja.

Reconhecimento do Produto

Incorporações multimodais (apenas v4.0)

As APIs de incorporações multimodais permitem a vetorização de imagens e consultas de texto. Eles convertem imagens em coordenadas em um espaço vetorial multidimensional. Em seguida, as consultas de texto recebidas também podem ser convertidas em vetores e as imagens podem ser correspondidas ao texto com base na proximidade semântica. Isso permite que o usuário pesquise um conjunto de imagens usando texto, sem precisar usar tags de imagem ou outros metadados. A proximidade semântica produz frequentemente melhores resultados na pesquisa.

A 2024-02-01 API inclui um modelo multilingue que suporta a pesquisa de texto em 102 idiomas. O modelo original apenas em inglês ainda está disponível, mas não pode ser combinado com o novo modelo no mesmo índice de pesquisa. Se você vetorizou texto e imagens usando o modelo somente em inglês, esses vetores não serão compatíveis com vetores de texto e imagem multilíngues.

Essas APIs só estão disponíveis nas seguintes regiões geográficas: Leste dos EUA, França Central, Coreia Central, Norte da Europa, Sudeste Asiático, Europa Ocidental, Oeste dos EUA.

Incorporações multimodais

Remoção em segundo plano (apenas visualização v4.0)

Image Analysis 4.0 (visualização) oferece a capacidade de remover o fundo de uma imagem. Esse recurso pode gerar uma imagem do objeto de primeiro plano detetado com um plano de fundo transparente ou uma imagem fosca alfa em escala de cinza mostrando a opacidade do objeto de primeiro plano detetado.

Remoção de fundo

Imagem original Com fundo removido Alfa mate
Foto de um grupo de pessoas usando um tablet. Foto de um grupo de pessoas usando um tablet; o fundo é transparente. Alfa fosco de um grupo de pessoas.

Requisitos de imagem

A Análise de Imagem funciona em imagens que cumprem os requisitos seguintes:

  • A imagem deve ser apresentada no formato JPEG, PNG, GIF, BMP, WEBP, ICO, TIFF ou MPO
  • O tamanho do ficheiro da imagem tem de ser inferior a 20 megabytes (MB)
  • As dimensões da imagem devem ser superiores a 50 x 50 pixels e inferiores a 16 000 x 16 000 pixels

Gorjeta

Os requisitos de entrada para incorporações multimodais são diferentes e estão listados em Incorporações multimodais

Privacidade e segurança dos dados

Tal como acontece com todos os serviços de IA do Azure, os programadores que utilizam o serviço Azure AI Vision devem estar cientes das políticas da Microsoft sobre dados de clientes. Consulte a página de serviços de IA do Azure na Central de Confiabilidade da Microsoft para saber mais.

Próximos passos

Comece a usar a Análise de Imagem seguindo o guia de início rápido em sua linguagem de desenvolvimento preferida: