Visão de IA do Azure
Embora seja possível treinar seus próprios modelos de machine learning para pesquisa visual computdisparal, a arquitetura dos modelos de pesquisa visual computdisparal pode ser complexa e são necessários volumes significativos de imagens de treinamento e poder de computação para realizar o processo de treinamento.
O serviço Visão de IA do Azure da Microsoft oferece modelos de pesquisa visual computdisparal pré-construídos e personalizáveis que se baseiam no modelo de base Florence e fornecem vários recursos avançados. Com o Visão de IA do Azure, é possível criar soluções sofisticadas de pesquisa visual computdisparal de forma rápida e fácil, aproveitando a funcionalidade "pronta para uso" para muitos cenários comuns de pesquisa visual computdisparal e, ao mesmo tempo, mantendo a capacidade de criar modelos personalizados usando suas próprias imagens.
Recursos do Azure para o serviço de Visão de IA do Azure
Para usar a Visão de IA do Azure, você precisa criar um recurso para ele em sua assinatura do Azure. Você pode usar qualquer um dos seguintes tipos de recurso:
- Visão de IA do Azure: Um recurso específico para o serviço Visão de IA do Azure. Use esse tipo de recurso se você não pretende usar nenhum outro serviço de IA do Azure ou se desejar rastrear a utilização e os custos do seu recurso do Visão de IA do Azure separadamente.
- Serviços de IA do Azure: Um recurso geral que inclui o Visão de IA do Azure juntamente com muitos outros serviços de IA do Azure, como o Linguagem de IA do Azure, o Visão Personalizada de IA do Azure, o Tradutor de IA do Azure e outros. Use esse tipo de recurso se planejar usar vários serviços de IA e desejar simplificar a administração e o desenvolvimento.
Análise de imagens com o serviço Visão de IA do Azure
Depois de criar um recurso adequado na sua assinatura, você pode enviar imagens para que o serviço de Visão de IA do Azure execute uma ampla gama de tarefas analíticas.
O Visão de IA do Azure dá suporte a vários recursos de análise de imagem, incluindo:
- Reconhecimento óptico de caracteres (OCR) - extração de texto de imagens.
- Geração de legendas e descrições de imagens.
- Detecção de milhares de objetos comuns em imagens.
- Marcação de recursos visuais em imagens
Essas e outras tarefas podem ser realizadas no Estúdio do Visão de IA do Azure.
Reconhecimento óptico de caracteres
O serviço Visão de IA do Azure pode usar recursos de reconhecimento óptico de caracteres (OCR) para detectar texto em imagens. Por exemplo, considere a seguinte imagem de um rótulo nutricional em um produto em um supermercado:
O serviço Visão de IA do Azure pode analisar essa imagem e extrair o texto a seguir:
Nutrition Facts Amount Per Serving
Serving size:1 bar (40g)
Serving Per Package: 4
Total Fat 13g
Saturated Fat 1.5g
Amount Per Serving
Trans Fat 0g
calories 190
Cholesterol 0mg
ories from Fat 110
Sodium 20mg
ntDaily Values are based on
Vitamin A 50
calorie diet
Dica
É possível explorar mais os recursos de OCR do Visão de IA do Azure no módulo Leitura de texto com o Visão de IA do Azure no Microsoft Learn.
Descrição de uma imagem com legendas
A Visão de IA do Azure tem a capacidade de analisar uma imagem, avaliar os objetos detectados e gerar uma frase ou sentença legível por humanos que possa descrever o que foi detectado na imagem. Por exemplo, considere a seguinte imagem:
O Visão de IA do Azure retorna a seguinte legenda para essa imagem:
Um homem pulando em um skate
Detecção de objetos comuns em uma imagem
O Visão de IA do Azure pode identificar milhares de objetos comuns em imagens. Por exemplo, quando usado para detectar objetos na imagem do skatista discutida anteriormente, o Visão de IA do Azure retorna as seguintes previsões:
- Skate (90,40%)
- Pessoa (95,5%)
As previsões incluem uma pontuação de confiança que indica a probabilidade que o modelo calculou para os objetos previstos.
Além dos rótulos de objetos detectados e suas probabilidades, o Visão de IA do Azure retorna as coordenadas da caixa delimitadora que indicam a parte superior, a esquerda, a largura e a altura do objeto detectado. É possível usar essas coordenadas para determinar o local em que cada objeto foi detectado na imagem, da seguinte forma:
Marcação de recursos visuais
O Visão de IA do Azure pode sugerir marcas para uma imagem com base em seu conteúdo. Essas marcas podem ser associadas à imagem como metadados que resumem os atributos da imagem e podem ser úteis se você quiser indexar uma imagem junto com um conjunto de termos-chave que podem ser utilizados para pesquisar imagens com atributos ou conteúdos específicos.
Por exemplo, as marcas retornadas para a imagem do skatista (com as pontuações de confiança associadas) incluem:
- esporte (99,60%)
- pessoa (99,56%)
- calçados (98,05%)
- patinação (96,27%)
- esportes com prancha (95,58%)
- equipamento de skate (94,43%)
- roupas (94,02%)
- parede (93,81%)
- skate (93,78%)
- skatista (93,25%)
- esportes individuais (92,80%)
- acrobacias de rua (90,81%)
- balanço (90,81%)
- pular (89,87%)
- equipamentos esportivos (88,61%)
- esporte extremo (88,35%)
- kickflip (88,18%)
- manobra (87.27%)
- skate (86,87%)
- praticante de acrobacias (85,83%)
- joelho (85,30%)
- esportes (85,24%)
- longboard (84,61%)
- longboarding (84,45%)
- andando (73.37%)
- skate (67,27%)
- ar (64,83%)
- jovens (63,29%)
- ao ar livre (61,39%)
Treinamento de modelos personalizados
Se os modelos internos fornecidos pelo Visão de IA do Azure não atenderem às suas necessidades, você poderá usar o serviço para treinar um modelo personalizado para classificação de imagens ou detecção de objetos. O Visão de IA do Azure cria modelos personalizados no modelo de fundação pré-treinado, o que significa que é possível treinar modelos sofisticados usando relativamente poucas imagens de treinamento.
Classificação de imagens
Um modelo de classificação de imagem é usado para prever a categoria, ou classe, de uma imagem. Por exemplo, é possívelria treinar um modelo para determinar que tipo de fruta é mostrado em uma imagem, como esta:
Apple | Banana | Orange |
---|---|---|
Detecção de objetos
Os modelos de detecção de objetos detectam e classificam objetos em uma imagem, retornando as coordenadas da caixa delimitadora para localizar cada objeto. Além dos recursos internos de detecção de objetos no Visão de IA do Azure, é possível treinar um modelo personalizado de detecção de objetos com suas próprias imagens. Por exemplo, é possívelria usar fotografias de frutas para treinar um modelo que detecta várias frutas em uma imagem, como esta:
Observação
Os detalhes de como usar o Visão de IA do Azure para treinar um modelo personalizado estão além do escopo deste módulo. É possível encontrar informações sobre o treinamento de modelos personalizados na documentação do Visão de IA do Azure.