Azure AI Vision

Concluído

Embora você possa treinar seus próprios modelos de aprendizado de máquina para visão computacional, a arquitetura para modelos de visão computacional pode ser complexa; e você precisa de volumes significativos de imagens de treinamento e poder de computação para executar o processo de treinamento.

O serviço Azure AI Vision da Microsoft fornece modelos de visão computacional pré-construídos e personalizáveis que são baseados no modelo de fundação de Florença e fornecem vários recursos poderosos. Com o Azure AI Vision, pode criar soluções sofisticadas de visão computacional de forma rápida e fácil; aproveitando a funcionalidade "pronta para uso" para muitos cenários comuns de visão computacional, mantendo a capacidade de criar modelos personalizados usando suas próprias imagens.

Recursos do Azure para o serviço Azure AI Vision

Para usar o Azure AI Vision, você precisa criar um recurso para ele em sua assinatura do Azure. Pode utilizar um dos seguintes tipos de recurso:

  • Azure AI Vision: Um recurso específico para o serviço Azure AI Vision. Use esse tipo de recurso se você não pretende usar nenhum outro serviço de IA do Azure ou se quiser controlar a utilização e os custos do seu recurso Azure AI Vision separadamente.
  • Serviços de IA do Azure: um recurso geral que inclui o Azure AI Vision juntamente com muitos outros serviços de IA do Azure, como Azure AI Language, Azure AI Custom Vision, Azure AI Translator e outros. Use esse tipo de recurso se você planeja usar vários serviços de IA e deseja simplificar a administração e o desenvolvimento.

Analisar imagens com o serviço Azure AI Vision

Depois de criar um recurso adequado em sua assinatura, você pode enviar imagens para o serviço Azure AI Vision para executar uma ampla variedade de tarefas analíticas.

O Azure AI Vision suporta várias capacidades de análise de imagem, incluindo:

  • Reconhecimento ótico de caracteres (OCR) - extraindo texto de imagens.
  • Geração de legendas e descrições de imagens.
  • Deteção de milhares de objetos comuns em imagens.
  • Marcação de recursos visuais em imagens

Essas tarefas, e muito mais, podem ser executadas no Azure AI Vision Studio.

Screenshot of Vision Studio.

Reconhecimento ótico de carateres

O serviço Azure AI Vision pode usar recursos de reconhecimento ótico de caracteres (OCR) para detetar texto em imagens. Por exemplo, considere a seguinte imagem de um rótulo nutricional em um produto em um supermercado:

Diagram of a nutrition label.

O serviço Azure AI Vision pode analisar esta imagem e extrair o seguinte texto:

Nutrition Facts Amount Per Serving
Serving size:1 bar (40g)
Serving Per Package: 4
Total Fat 13g
Saturated Fat 1.5g
Amount Per Serving
Trans Fat 0g
calories 190
Cholesterol 0mg
ories from Fat 110
Sodium 20mg
ntDaily Values are based on
Vitamin A 50
calorie diet

Gorjeta

Você pode explorar ainda mais os recursos de OCR do Azure AI Vision no módulo Ler texto com o Azure AI Vision no Microsoft Learn.

Descrição de uma imagem com legendas

O Azure AI Vision tem a capacidade de analisar uma imagem, avaliar os objetos que são detetados e gerar uma frase ou frase legível por humanos que pode descrever o que foi detetado na imagem. Por exemplo, considere a seguinte imagem:

Diagram of a man on a skateboard.

O Azure AI Vision retorna a seguinte legenda para esta imagem:

Um homem pulando em um skate

Detetando objetos comuns em uma imagem

O Azure AI Vision pode identificar milhares de objetos comuns em imagens. Por exemplo, quando usado para detetar objetos na imagem do skatista discutido anteriormente, o Azure AI Vision retorna as seguintes previsões:

  • Skate (90,40%)
  • Pessoa (95,5%)

As previsões incluem um escore de confiança que indica a probabilidade que o modelo calculou para os objetos previstos.

Além dos rótulos de objeto detetados e suas probabilidades, o Azure AI Vision retorna coordenadas de caixa delimitadora que indicam a parte superior, esquerda, largura e altura do objeto detetado. Você pode usar essas coordenadas para determinar onde na imagem cada objeto foi detetado, desta forma:

Diagram of a skateboarder with bounding boxes around detected objects.

Etiquetar caraterísticas visuais

O Azure AI Vision pode sugerir tags para uma imagem com base em seu conteúdo. Essas tags podem ser associadas à imagem como metadados que resumem atributos da imagem e podem ser úteis se você quiser indexar uma imagem junto com um conjunto de termos-chave que podem ser usados para pesquisar imagens com atributos ou conteúdos específicos.

Por exemplo, as tags retornadas para a imagem do skatista (com pontuações de confiança associadas) incluem:

  • desporto (99,60%)
  • pessoa (99,56%)
  • calçado (98,05%)
  • patinação (96,27%)
  • desporto de tabuleiro (95,58%)
  • equipamentos de skate (94,43%)
  • vestuário (94,02%)
  • parede (93,81%)
  • skate (93,78%)
  • skatista (93,25%)
  • esportes individuais (92,80%)
  • acrobacias de rua (90,81%)
  • (90,81%)
  • salto (89,87%)
  • equipamentos desportivos (88,61%)
  • desporto radical (88,35%)
  • Kickflip (88,18%)
  • acrobacias (87,27%)
  • skate (86,87%)
  • dublês (85,83%)
  • joelho (85,30%)
  • esportes (85,24%)
  • longboard (84,61%)
  • longboard (84,45%)
  • equitação (73,37%)
  • skate (67,27%)
  • ar (64,83%)
  • jovens (63,29%)
  • ao ar livre (61,39%)

Treinamento de modelos personalizados

Se os modelos internos fornecidos pelo Azure AI Vision não atenderem às suas necessidades, você poderá usar o serviço para treinar um modelo personalizado para classificação de imagem ou deteção de objetos. O Azure AI Vision cria modelos personalizados no modelo de base pré-treinado, o que significa que você pode treinar modelos sofisticados usando relativamente poucas imagens de treinamento.

Classificação de imagens

Um modelo de classificação de imagem é usado para prever a categoria ou classe de uma imagem. Por exemplo, você pode treinar um modelo para determinar qual tipo de fruta é mostrado em uma imagem, assim:

Apple Banana Orange
Diagram of an apple. Diagram of a banana. Diagram of an orange.

Deteção de objetos

Os modelos de deteção de objetos detetam e classificam objetos em uma imagem, retornando coordenadas de caixa delimitadora para localizar cada objeto. Além dos recursos internos de deteção de objetos no Azure AI Vision, você pode treinar um modelo de deteção de objeto personalizado com suas próprias imagens. Por exemplo, você pode usar fotografias de frutas para treinar um modelo que deteta várias frutas em uma imagem, como esta:

Diagram of multiple detected fruits in an image.

Nota

Os detalhes de como usar o Azure AI Vision para treinar um modelo personalizado estão além do escopo deste módulo. Você pode encontrar informações sobre o treinamento de modelo personalizado na documentação do Azure AI Vision.