O que é a Análise de Imagem?

O serviço de Análise de Imagens do Visão de IA do Azure pode extrair uma ampla variedade de recursos visuais das suas imagens. Por exemplo, ele pode determinar se uma imagem apresenta conteúdo para adulto, localizar marcas ou objetos específicos ou encontrar rostos humanos.

A versão mais recente da Análise de Imagem, 4.0, que agora está em disponibilidade geral, tem novos recursos como OCR síncrono e detecção facial. Recomendamos que você use esta versão daqui para frente.

Use a Análise de Imagem por meio de um SDK da biblioteca de clientes ou chamando a API REST diretamente. Siga o guia de início rápido para obter uma introdução.

Você também pode experimentar as funcionalidades da Análise de Imagem de maneira rápida e fácil no navegador usando o Vision Studio.

Esta documentação contém os seguintes tipos de artigos:

  • Os inícios rápidos são instruções passo a passo que permitem fazer chamadas para o serviço e obter resultados em um período curto.
  • Os guias de instruções contêm instruções para usar o serviço de maneiras mais específicas ou personalizadas.
  • Os artigos conceituais fornecem explicações detalhadas sobre a funcionalidade e os recursos do serviço.
  • Os tutoriais são guias mais longos que mostram como usar o serviço como um componente de soluções de negócios mais amplas.

Para obter uma abordagem mais estruturada, siga um módulo de treinamento de análise de imagem.

Versões da Análise de Imagem

Importante

Selecione a versão da API de Análise de Imagem mais adequada às suas necessidades.

Versão Recursos disponível Recomendação
versão 4.0 Leitura do texto, Legendas, Legendas densas, Marcas, Detecção de objetos, Classificação de imagem personalizada / detecção de objetos, Pessoas, Corte inteligente Modelos melhores. Use a versão 4.0 se ela der suporte ao seu caso de uso.
versão 3.2 Marcas, objetos, descrições, marcas comerciais, rostos, tipo de imagem, esquema de cores, pontos de Referência, celebridades, conteúdo para adulto, corte inteligente Maior variedade de recursos. Use a versão 3.2 se o caso de uso ainda não tiver suporte na versão 4.0

Recomendamos que você use a API de Análise de Imagem 4.0 se ela der suporte ao seu caso de uso. Use a versão 3.2 se o caso de uso ainda não tiver suporte na versão 4.0.

Você também precisará usar a versão 3.2 se quiser fazer a legendagem de imagens e se o recurso Visão estiver fora dessas regiões do Azure: Leste dos EUA, França Central, Coreia Central, Norte da Europa, Sudeste da Ásia, Oeste da Europa e Oeste dos EUA, Leste da Ásia. O recurso de legendagem de imagem na Análise de Imagem 4.0 só tem suporte nessas regiões do Azure. A legenda da imagem na versão 3.2 está disponível em todas as regiões da Visão de IA do Azure.

Analisar a imagem

Analise imagens para fornecer insights sobre os recursos visuais e as características. Todos os recursos nesta lista são fornecidos pela API de Análise de Imagem. Siga nosso início rápido para começar.

Nome Descrição Página conceito
Personalização de modelo (somente versão prévia v4.0) Você pode criar e treinar modelos personalizados para fazer a classificação de imagem ou a detecção de objetos. Traga suas próprias imagens, rotule-as com marcas personalizadas e a Análise de Imagem treinará um modelo personalizado para seu caso de uso. Personalização de modelo
Ler texto de imagens (somente v4.0) A versão prévia da Versão 4.0 da Análise de imagem oferece o recurso de extrair texto legível de imagens. Em comparação com a API de Leitura assíncrona da Pesquisa Visual Computacional 3.2, a nova versão oferece o mecanismo OCR de leitura familiar em uma API síncrona unificada com aprimoramento de desempenho que facilita a obtenção de OCR junto com outros insights em uma só chamada à API. OCR para imagens
Detectar pessoas em imagens (somente v4.0) A versão 4.0 da Análise de Imagem oferece a capacidade de detectar pessoas que aparecem nas imagens. São retornadas as coordenadas da caixa delimitadora de cada pessoa detectada, juntamente com uma pontuação de confiança. Detecção facial
Gerar legendas de imagem Gere a legenda de uma imagem em uma linguagem compreendida por pessoas usando frases completas. Os algoritmos da Pesquisa Visual Computacional geram legendas com base nos objetos identificados na imagem.

O modelo de legendagem de imagem da versão 4.0 é uma implementação mais avançada e funciona com uma gama mais ampla de imagens de entrada. Ela só está disponível nas seguintes regiões geográficas: Leste dos EUA, França Central, Coreia Central, Norte da Europa, Sudeste da Ásia, Oeste da Europa e Oeste dos EUA.

A versão 4.0 também permite que você use legendas densas, o que gera legendas detalhadas para objetos individuais encontrados na imagem. A API retorna as coordenadas da caixa delimitadora (em pixels) de cada objeto encontrado na imagem, além de uma legenda. Você pode usar essa funcionalidade para gerar descrições de partes separadas de uma imagem.

Imagem de vacas com uma descrição simples à direita.
Gerar legendas de imagem (v3.2)
(v4.0)
Detectar objetos A detecção de objetos é semelhante à marcação, mas a API retorna as coordenadas da caixa delimitadora para cada tag aplicada. Por exemplo, se uma imagem contiver um cachorro, um gato e uma pessoa, a operação Detect listará esses objetos junto com as coordenadas na imagem. Você pode usar essa funcionalidade para processar ainda mais as relações entre os objetos em uma imagem. Também permite que você saiba quando há várias instâncias da mesma tag em uma imagem.

Foto de um escritório com um retângulo desenhado em torno de um laptop.
Detectar objetos (v3.2)
(v4.0)
Marcar recursos visuais Identificar e marcar recursos visuais em uma imagem, de um conjunto de milhares de objetos reconhecíveis, seres vivos, cenários e ações. Quando as marcas forem ambíguas ou não pertencerem a um conhecimento comum, a resposta da API fornecerá dicas para esclarecer o contexto da tag. A marcação não está limitada ao assunto principal, como uma pessoa em primeiro plano, mas também inclui cenário (interno ou externo), móveis, ferramentas, plantas, animais, acessórios, gadgets e outros.

Foto de um esqueitista com marcas listadas à direita.
Marcar recursos visuais (v3.2)
(v4.0)
Obter a área de interesse/corte inteligente Analise o conteúdo de uma imagem para retornar as coordenadas da área de interesse que corresponde a uma taxa de proporção especificada. A Pesquisa Visual Computacional retorna as coordenadas da caixa delimitadora da região, de modo que o aplicativo de chamada possa modificar a imagem original conforme desejado.

O modelo de corte inteligente da versão 4.0 é uma implementação mais avançada e funciona com uma gama maior de imagens de entrada. Ela só está disponível nas seguintes regiões geográficas: Leste dos EUA, França Central, Coreia Central, Norte da Europa, Sudeste da Ásia, Oeste da Europa e Oeste dos EUA.
Gerar uma miniatura (v3.2)
(Versão prévia v4.0)
Detectar marcas (somente v3.2) Identifique as marcas comerciais em imagens ou vídeos de um banco de dados de milhares de logotipos globais. Você pode usar esse recurso, por exemplo, para descobrir quais marcas são mais populares em mídia social ou mais predominantes no posicionamento de produto de mídia. Detectar marcas
Categorizar uma imagem (somente v3.2) Identifique e categorize uma imagem inteira usando uma taxonomia de categoria com hierarquias hereditárias de pai/filho. As categorias podem ser usadas autonomamente ou com nossos novos modelos de marcação.

Atualmente, o inglês é o único idioma com suporte para a marcação e categorização de imagens.
Categorizar uma imagem
Detectar rostos (somente v3.2) Detecte rostos em uma imagem e forneça informações sobre cada rosto detectado. A Visão de IA do Azure retorna as coordenadas, o retângulo, o gênero e a idade de cada rosto detectado.

Você também pode usar a API de Detecção Facial dedicada para essas finalidades. Ela fornece uma análise mais detalhada, como identificação facial e detecção de pose.
Detectar faces
Detectar tipos de imagem (somente v3.2) Detecte características sobre uma imagem, por exemplo, se uma imagem é um desenho de linha se é, possivelmente, um clip-art. Detectar tipos de imagem
Detectar conteúdo específico do domínio (somente v3.2) Use modelos de domínio para detectar e identificar conteúdo específico de um assunto em uma imagem, como celebridades e pontos turísticos. Por exemplo, se uma imagem contiver pessoas, a Visão de IA do Azure poderá usar um modelo de domínio para celebridades para determinar se as pessoas detectadas na imagem são celebridades conhecidas. Detectar conteúdo específico de um domínio
Detectar o esquema de cores (somente v3.2) Analise o uso de cores em uma imagem. A Visão de IA do Azure pode determinar se uma imagem é preta e branca ou colorida e, para imagens coloridas, identificar as cores dominantes e de destaque. Detectar o esquema de cores
Moderar o conteúdo em imagens (somente v3.2) Você pode usar a Visão de IA do Azure para detectar conteúdo adulto em uma imagem e retornar pontuações de confiança para diferentes classificações. O limite para a sinalização de conteúdo pode ser definido em uma escala deslizante para acomodar suas preferências. Detectar conteúdo para adultos

Dica

Use os recursos de leitura de texto e detecção de objetos da Análise de Imagens por meio do serviço OpenAI do Azure. O modelo GPT-4 Turbo com Visão permite que você converse com um assistente de IA que pode analisar as imagens que você compartilha e a opção de Aprimoramento de Visão usa Análise de Imagem para fornecer ao assistente de IA mais detalhes (texto legível e localizações de objetos) sobre a imagem. Para obter mais informações, consulte o Início rápido do GPT-4 Turbo com Visão.

Reconhecimento de Produto (somente versão prévia v4.0)

As APIs de Reconhecimento de Produto permitem analisar fotos de prateleiras em uma loja de varejo. Você pode detectar a presença e a ausência de produtos, e obter as coordenadas da caixa delimitadora. Use junto com a personalização do modelo para treinar um modelo para identificar seus produtos específicos. Você também pode comparar os resultados do Reconhecimento de Produtos com o documento de planograma da sua loja.

Reconhecimento de Produto

Inserções multimodal (somente v4.0)

As APIs de inserções multimodais permitem a vetorização de imagens e consultas de texto. Elas convertem imagens em coordenadas em um espaço de vetor multidimensional. Depois, as consultas de texto de entrada também podem ser convertidas em vetores e as imagens podem ser correspondidas ao texto com base na proximidade semântica. Isso permite que o usuário pesquise um conjunto de imagens usando texto, sem precisar usar marcas de imagem ou outros metadados. A proximidade semântica geralmente produz melhores resultados na pesquisa.

A API 2024-02-01 inclui um modelo multilíngue que dá suporte à pesquisa de texto em 102 idiomas. O modelo original somente em inglês ainda está disponível, mas não pode ser combinado com o novo modelo no mesmo índice de pesquisa. Se você vetorizou texto e imagens usando o modelo somente inglês, esses vetores não serão compatíveis com vetores de texto e imagem multilíngues.

Essas APIs só estão disponíveis nas seguintes regiões geográficas: Leste dos EUA, França Central, Coreia Central, Norte da Europa, Sudeste Asiático, Oeste da Europa e Oeste dos EUA.

Inserções multimodal

Remoção de tela de fundo (somente versão prévia v4.0)

A Análise de Imagem 4.0 (versão prévia) oferece a capacidade de remover a tela de fundo de uma imagem. Esse recurso pode gerar uma imagem do objeto em primeiro plano detectado com uma tela de fundo transparente ou uma imagem fosca alfa em escala de cinza mostrando a opacidade do objeto detectado em primeiro plano.

Remoção de Plano de Fundo

Imagem original Com o plano de fundo removido Alfa fosco
Foto de um grupo de pessoas usando um tablet. Foto de um grupo de pessoas usando um tablet; o plano de fundo é transparente. Alfa fosco de um grupo de pessoas.

Requisitos de imagem

A Análise de Imagem funciona em imagens que atendem aos seguintes requisitos:

  • A imagem deve ser apresentada nos formatos JPEG, PNG, GIF, BMP, WEBP, ICO, TIFF ou MPO
  • O tamanho do arquivo da imagem deve ser menor que 20 MB (megabytes)
  • As dimensões da imagem devem ser maiores que 50 x 50 pixels e menores que 16.000 x 16.000 pixels

Dica

Os requisitos de entrada para inserções multimodais são diferentes e estão listados em inserções multimodais

Segurança e privacidade de dados

Como em todos os serviços de IA do Azure, os desenvolvedores que usam o serviço do Visão de IA do Azure devem estar cientes das políticas da Microsoft sobre dados de clientes. Consulte a página de serviços de IA do Azure na Central de Confiabilidade da Microsoft para saber mais.

Próximas etapas

Comece a usar a Análise de Imagem seguindo o guia de início rápido na linguagem de desenvolvimento de sua preferência: