Noções básicas sobre a Pesquisa Visual Computacional

Concluído

A Pesquisa Visual Computacional é uma área da IA que lida com o processamento visual. Vamos explorar algumas das possibilidades que a Pesquisa Visual Computacional oferece.

O aplicativo Seeing AI é um ótimo exemplo do poder da Pesquisa Visual Computacional. Criado para a comunidade de pessoas cegas e com baixa visão, o aplicativo Seeing AI aproveita o poder da IA para abrir o mundo visual e descrever pessoas, textos e objetos nas proximidades.

Veja o vídeo a seguir para saber mais sobre o Seeing AI.

Para saber mais, confira a página da Web do Seeing AI.

Modelos e funcionalidades da Pesquisa Visual Computacional

A maioria das soluções de Pesquisa Visual Computacional baseia-se em modelos de machine learning que podem ser aplicados à entrada visual de câmeras, vídeos ou imagens. A tabela a seguir descreve tarefas comuns da Pesquisa Visual Computacional.

Tarefa Descrição
Classificação de imagens An image of a taxi with the label
A classificação de imagens envolve treinar um modelo de machine learning para classificar imagens com base no conteúdo delas. Por exemplo, em uma solução de monitoramento de tráfego, você pode usar um modelo de classificação de imagens para classificar imagens com base no tipo de veículo que elas contêm, como táxis, ônibus, bicicletas e assim por diante.
Detecção de objetos An image of a street with buses, cars, and cyclists identified and highlighted with a bounding box.
Os modelos de machine learning de detecção de objetos são treinados para classificar objetos individuais dentro de uma imagem e identificar a localização deles com uma caixa delimitadora. Por exemplo, uma solução de monitoramento de tráfego pode usar a detecção de objetos para identificar a localização de diferentes classes de veículo.
Segmentação semântica An image of a street with the pixels belonging to buses, cars, and cyclists identified.
A segmentação semântica é uma técnica avançada de machine learning em que pixels individuais na imagem são classificados de acordo com o objeto ao qual eles pertencem. Por exemplo, uma solução de monitoramento de tráfego pode sobrepor imagens de tráfego com camadas de "máscara" para realçar veículos diferentes usando cores específicas.
Análise de imagem An image of a person with a dog on a street and the caption
Você pode criar soluções que combinam modelos de machine learning com técnicas avançadas de análise de imagem para extrair informações de imagens, incluindo "marcas" que podem ajudar a catalogar a imagem ou até mesmo legendas descritivas que resumem a cena mostrada na imagem.
Detecção, análise e reconhecimento facial An image of multiple people on a city street with their faces highlighted.
A detecção facial é uma forma especializada de detecção de objetos que localiza faces humanas em uma imagem. Ela pode ser combinada com as técnicas de classificação e análise de geometria facial para reconhecer indivíduos com base nos traços do rosto deles.
OCR (reconhecimento óptico de caracteres) An image of a building with the sign
O reconhecimento óptico de caracteres é uma técnica usada para detectar e ler texto em imagens. Você pode usar o OCR para ler texto em fotografias (por exemplo, placas da estrada ou vitrines) ou para extrair informações de documentos digitalizados, como cartas, faturas ou formulários.

Serviços de Pesquisa Visual Computacional no Microsoft Azure

Você pode utilizar o Visão de IA do Azure da Microsoft para desenvolver soluções de visão computacional. Os recursos do serviço estão disponíveis para uso e teste no Estúdio do Visão do Azure e em outras linguagens de programação. Alguns recursos do Visão de IA do Azure incluem:

  • Análise de imagens: funcionalidades para analisar imagens e vídeos e extrair descrições, marcas, objetos e textos.
  • Detecção Facial: funcionalidades que permitem que você crie soluções de detecção e reconhecimento facial.
  • Reconhecimento óptico de caracteres (OCR): funcionalidades para extrair texto impresso ou manuscrito de imagens, permitindo o acesso a uma versão digital do texto verificado.