Incorporações multimodais (versão 4.0)

Artigo
02/23/2024

A incorporação multimodal é o processo de gerar uma representação numérica de uma imagem que captura suas características e características em um formato vetorial. Esses vetores codificam o conteúdo e o contexto de uma imagem de uma forma compatível com a pesquisa de texto no mesmo espaço vetorial.

Os sistemas de recuperação de imagens tradicionalmente usam recursos extraídos das imagens, como rótulos de conteúdo, tags e descritores de imagem, para comparar imagens e classificá-las por semelhança. No entanto, a pesquisa de semelhança vetorial está ganhando mais popularidade devido a uma série de benefícios em relação à pesquisa tradicional baseada em palavras-chave e está se tornando um componente vital em serviços de pesquisa de conteúdo populares.

Qual é a diferença entre a pesquisa vetorial e a pesquisa baseada em palavras-chave?

A pesquisa por palavras-chave é o método mais básico e tradicional de recuperação de informação. Nesta abordagem, o motor de busca procura a correspondência exata das palavras-chave ou frases introduzidas pelo utilizador na consulta de pesquisa e compara-a com as etiquetas e etiquetas fornecidas para as imagens. Em seguida, o mecanismo de pesquisa retorna imagens que contêm essas palavras-chave exatas como tags de conteúdo e rótulos de imagem. A pesquisa por palavra-chave depende fortemente da capacidade do utilizador de utilizar termos de pesquisa relevantes e específicos.

A pesquisa vetorial pesquisa grandes coleções de vetores no espaço de alta dimensão para encontrar vetores que são semelhantes a uma determinada consulta. A pesquisa vetorial procura semelhanças semânticas capturando o contexto e o significado da consulta de pesquisa. Esta abordagem é muitas vezes mais eficiente do que as técnicas tradicionais de recuperação de imagens, uma vez que pode reduzir o espaço de pesquisa e melhorar a precisão dos resultados.

Aplicações empresariais

A incorporação multimodal tem uma variedade de aplicações em diferentes campos, incluindo:

Gerenciamento de ativos digitais: a incorporação multimodal pode ser usada para gerenciar grandes coleções de imagens digitais, como museus, arquivos ou galerias on-line. Os usuários podem pesquisar imagens com base em recursos visuais e recuperar as imagens que correspondem aos seus critérios.
Segurança e vigilância: A vetorização pode ser usada em sistemas de segurança e vigilância para procurar imagens com base em características ou padrões específicos, como rastreamento de pessoas e objetos ou deteção de ameaças.
Recuperação de imagens forenses: A vetorização pode ser usada em investigações forenses para procurar imagens com base em seu conteúdo visual ou metadados, como em casos de crimes cibernéticos.
E-commerce: A vetorização pode ser usada em aplicativos de compras on-line para pesquisar produtos semelhantes com base em suas características ou descrições ou fornecer recomendações com base em compras anteriores.
Moda e design: A vetorização pode ser usada na moda e no design para pesquisar imagens com base em suas características visuais, como cor, padrão ou textura. Isso pode ajudar designers ou varejistas a identificar produtos ou tendências semelhantes.

Atenção

A incorporação multimodal não foi projetada para analisar imagens médicas em busca de características de diagnóstico ou padrões de doenças. Por favor, não utilize a incorporação multimodal para fins médicos.

O que são incorporações vetoriais?

As incorporações vetoriais são uma forma de representar o conteúdo — texto ou imagens — como vetores de números reais em um espaço de alta dimensão. As incorporações vetoriais são frequentemente aprendidas a partir de grandes quantidades de dados textuais e visuais usando algoritmos de aprendizado de máquina, como redes neurais.

Cada dimensão do vetor corresponde a uma característica ou atributo diferente do conteúdo, como seu significado semântico, papel sintático ou contexto no qual ele comumente aparece. No Azure AI Vision, as incorporações vetoriais de imagem e texto têm 1024 dimensões.

Importante

As incorporações vetoriais só podem ser comparadas e combinadas se forem do mesmo tipo de modelo. As imagens vetorizadas por um modelo não serão pesquisáveis através de um modelo diferente. A mais recente API de Análise de Imagem oferece dois modelos, a versão 2023-04-15 que suporta pesquisa de texto em muitos idiomas e o modelo legado 2022-04-11 que suporta apenas o inglês.

Como é que isto funciona?

A seguir estão as principais etapas do processo de recuperação de imagem usando incorporações multimodais.

Diagram of image retrieval process.

Vetorizar imagens e texto: as APIs de incorporação multimodal, VectorizeImage e VectorizeText, podem ser usadas para extrair vetores de recursos de uma imagem ou texto, respectivamente. As APIs retornam um único vetor de recurso que representa toda a entrada.

Nota

A incorporação multimodal não faz qualquer processamento biométrico de rostos humanos. Para deteção e identificação de rosto, consulte o serviço Azure AI Face.
Medir a semelhança: Os sistemas de busca vetorial normalmente usam métricas de distância, como distância cosseno ou distância euclidiana, para comparar vetores e classificá-los por semelhança. A demonstração do estúdio Vision usa a distância cosseno para medir a semelhança.
Recuperar imagens: use os vetores N superiores semelhantes à consulta de pesquisa e recupere imagens correspondentes a esses vetores da sua biblioteca de fotos para fornecer como resultado final.

Pontuação de relevância

Os serviços de recuperação de imagem e vídeo retornam um campo chamado "relevância". O termo "relevância" denota uma medida de pontuação de semelhança entre uma consulta e incorporações de quadros de imagem ou vídeo. A pontuação de relevância é composta por duas partes:

A semelhança cosseno (que se enquadra no intervalo de [0,1]) entre a consulta e as incorporações de imagem ou quadro de vídeo.
Uma pontuação de metadados, que reflete a semelhança entre a consulta e os metadados associados ao quadro de imagem ou vídeo.

Importante

A pontuação de relevância é uma boa medida para classificar resultados, como imagens ou quadros de vídeo, em relação a uma única consulta. No entanto, a pontuação de relevância não pode ser comparada com precisão entre consultas. Portanto, não é possível mapear facilmente a pontuação de relevância para um nível de confiança. Também não é possível criar trivialmente um algoritmo de limite para eliminar resultados irrelevantes com base apenas na pontuação de relevância.

Requisitos de entrada

Entrada de imagem

O tamanho do arquivo da imagem deve ser inferior a 20 megabytes (MB)
As dimensões da imagem devem ser maiores que 10 x 10 pixels e menores que 16.000 x 16.000 pixels

Entrada de texto

A cadeia de texto deve estar entre (inclusive) uma palavra e 70 palavras.

Próximos passos

Habilite as incorporações multimodais para seu serviço de pesquisa e siga as etapas para gerar incorporações vetoriais para texto e imagens.

Chamar as APIs de incorporação multimodal

Partilhar via