Visão de IA do Azure

Concluído

Embora seja possível treinar seus próprios modelos de machine learning para pesquisa visual computdisparal, a arquitetura dos modelos de pesquisa visual computdisparal pode ser complexa e são necessários volumes significativos de imagens de treinamento e poder de computação para realizar o processo de treinamento.

O serviço Visão de IA do Azure da Microsoft oferece modelos de pesquisa visual computdisparal pré-construídos e personalizáveis que se baseiam no modelo de base Florence e fornecem vários recursos avançados. Com o Visão de IA do Azure, é possível criar soluções sofisticadas de pesquisa visual computdisparal de forma rápida e fácil, aproveitando a funcionalidade "pronta para uso" para muitos cenários comuns de pesquisa visual computdisparal e, ao mesmo tempo, mantendo a capacidade de criar modelos personalizados usando suas próprias imagens.

Recursos do Azure para o serviço de Visão de IA do Azure

Para usar a Visão de IA do Azure, você precisa criar um recurso para ele em sua assinatura do Azure. Você pode usar qualquer um dos seguintes tipos de recurso:

  • Visão de IA do Azure: Um recurso específico para o serviço Visão de IA do Azure. Use esse tipo de recurso se você não pretende usar nenhum outro serviço de IA do Azure ou se desejar rastrear a utilização e os custos do seu recurso do Visão de IA do Azure separadamente.
  • Serviços de IA do Azure: Um recurso geral que inclui o Visão de IA do Azure juntamente com muitos outros serviços de IA do Azure, como o Linguagem de IA do Azure, o Visão Personalizada de IA do Azure, o Tradutor de IA do Azure e outros. Use esse tipo de recurso se planejar usar vários serviços de IA e desejar simplificar a administração e o desenvolvimento.

Análise de imagens com o serviço Visão de IA do Azure

Depois de criar um recurso adequado na sua assinatura, você pode enviar imagens para que o serviço de Visão de IA do Azure execute uma ampla gama de tarefas analíticas.

O Visão de IA do Azure dá suporte a vários recursos de análise de imagem, incluindo:

  • Reconhecimento óptico de caracteres (OCR) - extração de texto de imagens.
  • Geração de legendas e descrições de imagens.
  • Detecção de milhares de objetos comuns em imagens.
  • Marcação de recursos visuais em imagens

Essas e outras tarefas podem ser realizadas no Estúdio do Visão de IA do Azure.

Screenshot of Vision Studio.

Reconhecimento óptico de caracteres

O serviço Visão de IA do Azure pode usar recursos de reconhecimento óptico de caracteres (OCR) para detectar texto em imagens. Por exemplo, considere a seguinte imagem de um rótulo nutricional em um produto em um supermercado:

Diagram of a nutrition label.

O serviço Visão de IA do Azure pode analisar essa imagem e extrair o texto a seguir:

Nutrition Facts Amount Per Serving
Serving size:1 bar (40g)
Serving Per Package: 4
Total Fat 13g
Saturated Fat 1.5g
Amount Per Serving
Trans Fat 0g
calories 190
Cholesterol 0mg
ories from Fat 110
Sodium 20mg
ntDaily Values are based on
Vitamin A 50
calorie diet

Dica

É possível explorar mais os recursos de OCR do Visão de IA do Azure no módulo Leitura de texto com o Visão de IA do Azure no Microsoft Learn.

Descrição de uma imagem com legendas

A Visão de IA do Azure tem a capacidade de analisar uma imagem, avaliar os objetos detectados e gerar uma frase ou sentença legível por humanos que possa descrever o que foi detectado na imagem. Por exemplo, considere a seguinte imagem:

Diagram of a man on a skateboard.

O Visão de IA do Azure retorna a seguinte legenda para essa imagem:

Um homem pulando em um skate

Detecção de objetos comuns em uma imagem

O Visão de IA do Azure pode identificar milhares de objetos comuns em imagens. Por exemplo, quando usado para detectar objetos na imagem do skatista discutida anteriormente, o Visão de IA do Azure retorna as seguintes previsões:

  • Skate (90,40%)
  • Pessoa (95,5%)

As previsões incluem uma pontuação de confiança que indica a probabilidade que o modelo calculou para os objetos previstos.

Além dos rótulos de objetos detectados e suas probabilidades, o Visão de IA do Azure retorna as coordenadas da caixa delimitadora que indicam a parte superior, a esquerda, a largura e a altura do objeto detectado. É possível usar essas coordenadas para determinar o local em que cada objeto foi detectado na imagem, da seguinte forma:

Diagram of a skateboarder with bounding boxes around detected objects.

Marcação de recursos visuais

O Visão de IA do Azure pode sugerir marcas para uma imagem com base em seu conteúdo. Essas marcas podem ser associadas à imagem como metadados que resumem os atributos da imagem e podem ser úteis se você quiser indexar uma imagem junto com um conjunto de termos-chave que podem ser utilizados para pesquisar imagens com atributos ou conteúdos específicos.

Por exemplo, as marcas retornadas para a imagem do skatista (com as pontuações de confiança associadas) incluem:

  • esporte (99,60%)
  • pessoa (99,56%)
  • calçados (98,05%)
  • patinação (96,27%)
  • esportes com prancha (95,58%)
  • equipamento de skate (94,43%)
  • roupas (94,02%)
  • parede (93,81%)
  • skate (93,78%)
  • skatista (93,25%)
  • esportes individuais (92,80%)
  • acrobacias de rua (90,81%)
  • balanço (90,81%)
  • pular (89,87%)
  • equipamentos esportivos (88,61%)
  • esporte extremo (88,35%)
  • kickflip (88,18%)
  • manobra (87.27%)
  • skate (86,87%)
  • praticante de acrobacias (85,83%)
  • joelho (85,30%)
  • esportes (85,24%)
  • longboard (84,61%)
  • longboarding (84,45%)
  • andando (73.37%)
  • skate (67,27%)
  • ar (64,83%)
  • jovens (63,29%)
  • ao ar livre (61,39%)

Treinamento de modelos personalizados

Se os modelos internos fornecidos pelo Visão de IA do Azure não atenderem às suas necessidades, você poderá usar o serviço para treinar um modelo personalizado para classificação de imagens ou detecção de objetos. O Visão de IA do Azure cria modelos personalizados no modelo de fundação pré-treinado, o que significa que é possível treinar modelos sofisticados usando relativamente poucas imagens de treinamento.

Classificação de imagens

Um modelo de classificação de imagem é usado para prever a categoria, ou classe, de uma imagem. Por exemplo, é possívelria treinar um modelo para determinar que tipo de fruta é mostrado em uma imagem, como esta:

Apple Banana Orange
Diagram of an apple. Diagram of a banana. Diagram of an orange.

Detecção de objetos

Os modelos de detecção de objetos detectam e classificam objetos em uma imagem, retornando as coordenadas da caixa delimitadora para localizar cada objeto. Além dos recursos internos de detecção de objetos no Visão de IA do Azure, é possível treinar um modelo personalizado de detecção de objetos com suas próprias imagens. Por exemplo, é possívelria usar fotografias de frutas para treinar um modelo que detecta várias frutas em uma imagem, como esta:

Diagram of multiple detected fruits in an image.

Observação

Os detalhes de como usar o Visão de IA do Azure para treinar um modelo personalizado estão além do escopo deste módulo. É possível encontrar informações sobre o treinamento de modelos personalizados na documentação do Visão de IA do Azure.