Partilhar via


O que é a Análise de Imagem?

O serviço Azure AI Vision Image Analysis pode extrair uma grande variedade de recursos visuais de suas imagens. Por exemplo, pode determinar se uma imagem contém conteúdo adulto, encontrar marcas ou objetos específicos ou encontrar rostos humanos.

A última versão do Image Analysis, 4.0, que agora está em disponibilidade geral, tem novos recursos como OCR síncrono e deteção de pessoas. Recomendamos que você use esta versão no futuro.

Você pode usar a Análise de Imagem por meio de um SDK de biblioteca de cliente ou chamando a API REST diretamente. Siga o guia de início rápido para começar.

Ou, você pode experimentar os recursos da Análise de Imagem de forma rápida e fácil em seu navegador usando o Vision Studio.

Esta documentação contém os seguintes tipos de artigos:

  • Os guias de início rápido são instruções passo a passo que permitem fazer chamadas para o serviço e obter resultados em um curto período de tempo.
  • Os guias de instruções contêm instruções para usar o serviço de maneiras mais específicas ou personalizadas.
  • Os artigos conceituais fornecem explicações detalhadas sobre a funcionalidade e os recursos do serviço.

Para uma abordagem mais estruturada, siga um módulo de Formação em Análise de Imagem.

Versões de Análise de Imagem

Importante

Selecione a versão da API de Análise de Imagem que melhor se adapta às suas necessidades.

Versão Funcionalidades disponíveis Recomendação
versão 4.0 Ler texto, Legendas, Legendas densas, Tags, Deteção de objetos, Classificação de imagem personalizada / deteção de objetos, Pessoas, Corte inteligente Melhores modelos; Use a versão 4.0 se ela suportar seu caso de uso.
Versão 3.2 Tags, Objetos, Descrições, Marcas, Rostos, Tipo de imagem, Esquema de cores, Pontos de referência, Celebridades, Conteúdo adulto, Corte inteligente Maior variedade de funcionalidades; Use a versão 3.2 se o seu caso de uso ainda não for suportado na versão 4.0

Recomendamos que você use a API do Image Analysis 4.0 se ela oferecer suporte ao seu caso de uso. Use a versão 3.2 se o seu caso de uso ainda não for suportado pela 4.0.

Você também precisará usar a versão 3.2 se quiser fazer legendas de imagem e seu recurso Visão estiver fora das regiões do Azure com suporte. O recurso de legenda de imagem no Image Analysis 4.0 só tem suporte em determinadas regiões do Azure. A legenda de imagem na versão 3.2 está disponível em todas as regiões do Azure AI Vision. Consulte Disponibilidade da região.

Analisar imagem

Você pode analisar imagens para fornecer informações sobre seus recursos e características visuais. Todos os recursos nesta tabela são fornecidos pela API Analyze Image. Siga um guia de início rápido para começar.

Nome Descrição Página de conceito
Personalização do modelo (apenas visualização v4.0) (preterido) Você pode criar e treinar modelos personalizados para fazer classificação de imagem ou deteção de objetos. Traga suas próprias imagens, rotule-as com tags personalizadas e a Análise de Imagem treina um modelo personalizado para seu caso de uso. Personalização do modelo
Ler texto de imagens (apenas v4.0) A versão 4.0 de visualização da Análise de Imagem oferece a capacidade de extrair texto legível de imagens. Em comparação com a API de leitura assíncrona do Computer Vision 3.2, a nova versão oferece o conhecido mecanismo Read OCR em uma API síncrona unificada com desempenho aprimorado que facilita a obtenção de OCR junto com outras informações em uma única chamada de API. OCR para imagens
Detetar pessoas em imagens (somente v4.0) A versão 4.0 da Análise de Imagem oferece a capacidade de detetar pessoas que aparecem em imagens. As coordenadas da caixa delimitadora de cada pessoa detetada são retornadas, juntamente com uma pontuação de confiança. Deteção de pessoas
Gerar legendas de imagem Gere uma legenda de uma imagem em linguagem legível por humanos, usando frases completas. Os algoritmos da Computer Vision geram legendas com base nos objetos identificados na imagem.

O modelo de legendagem de imagem versão 4.0 é uma implementação mais avançada e funciona com uma gama mais ampla de imagens de entrada. Está disponível apenas em determinadas regiões geográficas. Consulte Disponibilidade da região.

A versão 4.0 também permite usar legendas densas, que geram legendas detalhadas para objetos individuais encontrados na imagem. A API retorna as coordenadas da caixa delimitadora (em pixels) de cada objeto encontrado na imagem, além de uma legenda. Você pode usar essa funcionalidade para gerar descrições de partes separadas de uma imagem.

Foto de vacas com uma descrição simples à direita.
Gerar legendas de imagem (v3.2)
(v4.0)
Detetar objetos A deteção de objetos é semelhante à marcação, mas a API retorna as coordenadas da caixa delimitadora para cada tag aplicada. Por exemplo, se uma imagem contiver um cão, gato e pessoa, a operação Detetar listará esses objetos juntamente com suas coordenadas na imagem. Você pode usar essa funcionalidade para processar outras relações entre os objetos em uma imagem. Ele também permite que você saiba quando há várias instâncias da mesma tag em uma imagem.

Foto de um escritório com um retângulo desenhado em torno de um laptop.
Detetar objetos (v3.2)
(v4.0)
Etiquetar elementos visuais Identifique e marque características visuais em uma imagem, a partir de um conjunto de milhares de objetos reconhecíveis, seres vivos, cenários e ações. Quando as tags são ambíguas ou não são de conhecimento comum, a resposta da API fornece dicas para esclarecer o contexto da tag. A identificação não se limita ao motivo principal, por exemplo, uma pessoa em primeiro plano, mas também inclui o cenário (interior ou exterior), mobiliário, ferramentas, plantas, animais, acessórios, gadgets, etc.

Foto de um skatista com tags listadas à direita.
Marcar recursos visuais (v3.2)
(v4.0)
Obter a área de interesse / colheita inteligente Analise o conteúdo de uma imagem para retornar as coordenadas da área de interesse que corresponda a uma proporção especificada. O Computer Vision retorna as coordenadas da caixa delimitadora da região, para que o aplicativo chamador possa modificar a imagem original conforme desejado.

O modelo de corte inteligente versão 4.0 é uma implementação mais avançada e funciona com uma gama mais ampla de imagens de entrada. Está disponível apenas em determinadas regiões geográficas. Consulte Disponibilidade da região.
Gerar uma miniatura (v3.2)
(Visualização v4.0)
Detetar marcas (somente v3.2) Identifique marcas comerciais em imagens ou vídeos a partir de uma base de dados de milhares de logótipos globais. Você pode usar esse recurso, por exemplo, para descobrir quais marcas são mais populares nas mídias sociais ou mais prevalentes no posicionamento de produtos de mídia. Detetar marcas
Categorizar uma imagem (somente v3.2) Identifique e categorize uma imagem inteira, com uma taxonomia de categorias com hierarquias hereditárias principais/subordinadas. As categorias podem ser utilizadas isoladamente ou com os nossos novos modelos de identificação.

Atualmente, o inglês é o único idioma suportado para identificar e categorizar imagens.
Categorizar uma imagem
Detetar rostos (somente v3.2) Detete rostos numa imagem e forneça informações sobre cada rosto detetado. O Azure AI Vision retorna as coordenadas, retângulo, sexo e idade de cada rosto detetado.

Você também pode usar a API Face dedicada para esses fins. Ele fornece análises mais detalhadas, como identificação facial e deteção de poses.
Detetar rostos
Detetar tipos de imagem (somente v3.2) Detete características sobre uma imagem como, por exemplo, se uma imagem é um desenho de linha ou a probabilidade de uma imagem ser ClipArt. Detetar tipos de imagem
Detetar conteúdo específico do domínio (somente v3.2) Utilize modelos de domínio para detetar e identificar conteúdo específico de um domínio numa imagem, como celebridades e marcos de referência. Por exemplo, se uma imagem contiver pessoas, o Azure AI Vision pode usar um modelo de domínio para celebridades para determinar se as pessoas detetadas na imagem são celebridades conhecidas. Detetar conteúdo específico de um domínio
Detetar o esquema de cores (somente v3.2) Analise a utilização de cor numa imagem. O Azure AI Vision pode determinar se uma imagem é preta ou branca ou colorida e, para imagens coloridas, identificar as cores dominantes e de destaque. Detetar o esquema de cores
Moderar conteúdo em imagens (apenas v3.2) Você pode usar o Azure AI Vision para detetar conteúdo adulto em uma imagem e retornar pontuações de confiança para diferentes classificações. O limite para sinalizar conteúdo pode ser definido em uma escala deslizante para acomodar suas preferências. Detetar conteúdo adulto

Reconhecimento do produto (apenas visualização v4.0) (preterido)

Importante

Este recurso foi preterido. Em 10 de janeiro de 2025, a Classificação de Imagem Personalizada do Azure AI 4.0, a Deteção de Objetos Personalizados e a API de visualização de Reconhecimento de Produto serão desativadas. Após essa data, as chamadas de API para esses serviços falharão.

Para manter um bom funcionamento dos seus modelos, faça a transição para a Visão Personalizada da IA do Azure, que agora está disponível ao público em geral. O Custom Vision oferece funcionalidade semelhante a esses recursos de desativação.

As APIs de reconhecimento de produtos permitem analisar fotos de prateleiras em uma loja de varejo. Você pode detetar a presença ou ausência de produtos e obter suas coordenadas de caixa delimitadora. Use-o em combinação com a personalização do modelo para treinar um modelo para identificar seus produtos específicos. Também pode comparar os resultados do Reconhecimento de Produtos com o documento de planograma da sua loja.

Reconhecimento do Produto

Incorporações multimodais (apenas v4.0)

As APIs de incorporações multimodais permitem a vetorização de imagens e consultas de texto. Eles convertem imagens em coordenadas em um espaço vetorial multidimensional. Em seguida, as consultas de texto recebidas também podem ser convertidas em vetores e as imagens podem ser correspondidas ao texto com base na proximidade semântica. Isso permite que o usuário pesquise um conjunto de imagens usando texto, sem precisar usar tags de imagem ou outros metadados. A proximidade semântica produz frequentemente melhores resultados na pesquisa.

A 2024-02-01 API inclui um modelo multilingue que suporta a pesquisa de texto em 102 idiomas. O modelo original apenas em inglês ainda está disponível, mas não pode ser combinado com o novo modelo no mesmo índice de pesquisa. Se você vetorizou texto e imagens usando o modelo somente em inglês, esses vetores não serão compatíveis com vetores de texto e imagem multilíngues.

Essas APIs estão disponíveis apenas em determinadas regiões geográficas. Consulte Disponibilidade da região.

Incorporações multimodais

Remoção em segundo plano (apenas visualização v4.0)

Importante

Este recurso foi preterido. Em 10 de janeiro de 2025, a API de Segmento do Azure AI Image Analysis 4.0 e o serviço de remoção em segundo plano serão desativados. Todos os pedidos a este serviço falharão após esta data.

Para manter um bom funcionamento de seus modelos, instale o modelo de código aberto Florence 2 e use seu recurso de segmentação de região, que permite uma operação de remoção de plano de fundo semelhante.

Image Analysis 4.0 (visualização) oferece a capacidade de remover o fundo de uma imagem. Esse recurso pode gerar uma imagem do objeto de primeiro plano detetado com um plano de fundo transparente ou uma imagem fosca alfa em escala de cinza mostrando a opacidade do objeto de primeiro plano detetado.

Remoção de fundo

Imagem original Com fundo removido Alfa mate
Foto de um grupo de pessoas usando um tablet. Foto de um grupo de pessoas usando um tablet; o fundo é transparente. Alfa fosco de um grupo de pessoas.

Limites de serviço

Requisitos de entrada

A Análise de Imagem funciona em imagens que cumprem os requisitos seguintes:

  • A imagem deve ser apresentada no formato JPEG, PNG, GIF, BMP, WEBP, ICO, TIFF ou MPO
  • O tamanho do ficheiro da imagem tem de ser inferior a 20 megabytes (MB)
  • As dimensões da imagem devem ser superiores a 50 x 50 pixels e inferiores a 16 000 x 16 000 pixels

Gorjeta

Os requisitos de entrada para incorporações multimodais são diferentes e estão listados em Incorporações multimodais

Suporte de idiomas

Diferentes recursos de análise de imagem estão disponíveis em diferentes idiomas. Consulte a página Suporte de idiomas .

Disponibilidade da região

Para usar as APIs de Análise de Imagem, você deve criar seu recurso Azure AI Vision em uma região com suporte. Os recursos de Análise de Imagem estão disponíveis nas seguintes regiões:

País/Região Analisar imagem
(menos 4,0 legendas)
Analisar imagem
(incluindo legendas 4.0)
Reconhecimento do Produto Incorporações multimodais Remoção de fundo
E.U.A. Leste
E.U.A. Oeste
E.U.A. Oeste 2
França Central
Europa do Norte
Europa Ocidental
Suécia Central
Norte da Suíça
Leste da Austrália
Sudeste Asiático
Ásia Leste
Coreia do Sul Central
Leste do Japão

Privacidade e segurança dos dados

Tal como acontece com todos os serviços de IA do Azure, os programadores que utilizam o serviço Azure AI Vision devem estar cientes das políticas da Microsoft sobre dados de clientes. Consulte a página de serviços de IA do Azure na Central de Confiabilidade da Microsoft para saber mais.

Próximos passos

Comece a usar a Análise de Imagem seguindo o guia de início rápido em sua linguagem de desenvolvimento preferida e versão da API: