Nota
O acesso a esta página requer autorização. Pode tentar iniciar sessão ou alterar os diretórios.
O acesso a esta página requer autorização. Pode tentar alterar os diretórios.
A pesquisa multimodal refere-se à capacidade de ingerir, compreender e recuperar informações em vários tipos de conteúdo, incluindo texto, imagens, vídeo e áudio. No Azure AI Search, a pesquisa multimodal suporta nativamente a ingestão de documentos que contêm texto e imagens e a recuperação do seu conteúdo, permitindo-lhe realizar pesquisas que combinam ambas as modalidades.
A construção de um gasoduto multimodal robusto normalmente envolve:
Extração de imagens embutidas e texto das páginas de documentos.
Descrição de imagens em linguagem natural.
Incorpore texto e imagens em um espaço vetorial compartilhado.
Armazenamento das imagens para uso posterior como anotações.
A pesquisa multimodal também requer a preservação da ordem das informações tal como aparecem nos documentos e a execução de consultas híbridas que combinam pesquisa de texto completo com pesquisa vetorial e classificação semântica.
Na prática, um aplicativo que usa pesquisa multimodal pode responder a perguntas como "Qual é o processo para ter um formulário de RH aprovado?", mesmo quando a única descrição autorizada do processo está dentro de um diagrama incorporado em um arquivo PDF.
Porquê utilizar a pesquisa multimodal?
Tradicionalmente, a pesquisa multimodal requer sistemas separados para processamento de texto e imagem, muitas vezes exigindo código personalizado e configurações de baixo nível dos desenvolvedores. A manutenção desses sistemas implica custos, complexidade e esforço mais elevados.
O Azure AI Search aborda esses desafios integrando imagens no mesmo pipeline de recuperação que o texto. Com um único pipeline multimodal, você pode simplificar a configuração e desbloquear informações que residem em gráficos, capturas de tela, infográficos, formulários digitalizados e outros visuais complexos.
A pesquisa multimodal é ideal para cenários de geração aumentada de recuperação (RAG). Ao interpretar a lógica estrutural das imagens, a pesquisa multimodal torna menos provável que seu aplicativo RAG ou agente de IA ignore detalhes visuais importantes. Ele também fornece aos seus usuários respostas detalhadas que podem ser rastreadas até suas fontes originais, independentemente da modalidade da fonte.
Como funciona a pesquisa multimodal no Azure AI Search
Para simplificar a criação de um pipeline multimodal, o Azure AI Search oferece o assistente Importar e vetorizar dados no portal do Azure. O assistente ajuda a configurar uma fonte de dados, definir configurações de extração e enriquecimento e gerar um índice multimodal que contém texto, referências de imagem incorporadas e incorporações vetoriais. Para obter mais informações, consulte Guia de início rápido: pesquisa multimodal no portal do Azure.
O assistente segue estas etapas para criar um pipeline multimodal:
Extrair conteúdo: A competência de Extração de Documentos ou competência de Layout de Documento obtém texto da página, imagens embutidas e metadados estruturais. A habilidade Extração de Documentos não extrai polígonos ou números de página, e os tipos de arquivo suportados variam. Para obter mais informações, consulte Opções para extração de conteúdo multimodal.
Essas funcionalidades incorporadas não suportam a extração de tabelas ou a preservação da estrutura de tabelas. Para usar esses recursos, você deve criar uma habilidade de API Web personalizada que chame o Entendimento de Conteúdo do Azure AI.
Fragmentos de texto: A habilidade de divisão de texto divide o texto extraído em partes manejáveis para uso no restante do fluxo, como a habilidade de incorporação.
Gerar descrições de imagens: A habilidade GenAI Prompt verbaliza imagens, produzindo descrições concisas em linguagem natural para pesquisa de texto e incorporação usando um modelo de linguagem grande (LLM).
Gerar incorporações: A habilidade de incorporação cria representações vetoriais de texto e imagens, permitindo semelhança e recuperação híbrida. Você pode chamar Azure OpenAI, Azure AI Foundry ou Azure AI Vision para modelos de incorporação de forma nativa.
Como alternativa, você pode pular a verbalização de imagens e passar o texto e as imagens extraídos diretamente para um modelo de incorporação multimodal por meio da habilidade AML ou da habilidade de incorporação multimodal Azure AI Vision. Para obter mais informações, consulte Opções para incorporação de conteúdo multimodal.
Armazenar imagens extraídas: O armazenamento de conhecimento contém imagens extraídas que podem ser retornadas diretamente para aplicativos cliente. Quando você usa o assistente, a localização de uma imagem é armazenada diretamente no índice multimodal, permitindo uma recuperação conveniente no momento da consulta.
Sugestão
Para ver a pesquisa multimodal em ação, conecte o índice criado pelo assistente ao aplicativo de exemplo RAG multimodal. O exemplo demonstra como um aplicativo RAG consome um índice multimodal e processa citações textuais e trechos de imagem associados na resposta. O exemplo também mostra o processo baseado em código de ingestão e indexação de dados.
Opções para extração de conteúdo multimodal
Um pipeline multimodal começa quebrando cada documento de origem em pedaços de texto, imagens embutidas e metadados associados. Para esta etapa, a Pesquisa de IA do Azure fornece duas habilidades internas: a habilidade de Extração de Documentos e a habilidade de Layout de Documento. Ambas as habilidades permitem a extração de texto e imagem, mas diferem em detalhes de layout, metadados retornados e faturamento.
Característica | Habilidade de extração de documentos | Habilidade de layout de documentos |
---|---|---|
Extração de metadados de localização de texto (páginas e polígonos delimitadores) | Não | Sim |
Extração de metadados de localização de imagem (páginas e polígonos delimitadores) | Sim | Sim |
Extração de metadados de localização com base no tipo de arquivo | Apenas PDFs. | Vários tipos de arquivo com suporte de acordo com o modelo de layout do Azure AI Document Intelligence. |
Faturação da extração de dados | A extração de imagens é cobrada de acordo com os preços do Azure AI Search. | Faturado conforme os preços de Layout de Documentos. |
Cenários recomendados | Prototipagem rápida ou linhas de produção onde a posição exata ou o layout detalhado não são necessários. | Fluxos de trabalho de agente e pipelines RAG que necessitam de números de página precisos, destaques diretamente na página, ou sobreposições de diagramas em aplicações dos clientes. |
Você também pode usar uma habilidade personalizada para chamar diretamente o Entendimento de Conteúdo do Azure AI, que o Azure AI Search não oferece suporte nativo, para extração de conteúdo multimodal.
Opções para incorporação de conteúdo multimodal
No Azure AI Search, recuperar conhecimento de imagens pode seguir dois caminhos complementares: verbalização de imagens ou incorporações diretas. Compreender as distinções ajuda a alinhar custo, latência e qualidade de resposta com as necessidades do seu aplicativo.
Verbalização de imagem seguida de incorporação de texto
Com este método, a habilidade GenAI Prompt invoca um LLM durante a ingestão para criar uma descrição concisa em linguagem natural de cada imagem extraída de documentos, como "Fluxo de trabalho de acesso de RH em cinco etapas que começa com a aprovação do gerente". A descrição é armazenada como texto e incorporada junto ao texto circundante do documento, que pode então ser vetorizado ao chamar os modelos de incorporação Azure OpenAI, Azure AI Foundry ou Azure AI Vision.
Como a imagem agora é expressa em idioma, o Azure AI Search pode:
Interprete as relações e entidades mostradas em um diagrama.
Forneça legendas prontas que um LLM pode citar textualmente em uma resposta.
Devolver excertos relevantes para aplicações de RAG ou cenários de agentes de IA com dados fundamentados.
A profundidade semântica adicionada implica uma chamada LLM para cada imagem e um aumento marginal no tempo de indexação.
Incorporações multimodais diretas
Uma segunda opção é passar as imagens e o texto extraídos do documento para um modelo de incorporação multimodal que produz representações vetoriais no mesmo espaço vetorial. A configuração é simples e nenhum LLM é necessário no momento da indexação. As incorporações diretas são bem adequadas para semelhanças visuais e para cenários de "encontrar-me-algo-que-se-parece-com-isto".
Como a representação é puramente matemática, ela não transmite por que duas imagens estão relacionadas e não oferece o contexto pronto para citações ou explicações detalhadas.
Combinação de ambas as abordagens
Muitas soluções precisam de ambos os caminhos de codificação. Diagramas, fluxogramas e outros visuais ricos em explicações são verbalizados para que as informações semânticas estejam disponíveis para o aterramento do agente RAG e da IA. Capturas de tela, fotos de produtos ou ilustrações são incorporadas diretamente para uma pesquisa de semelhança eficiente. Você pode personalizar o índice e o pipeline de competências do indexador do Azure AI Search para que ele possa armazenar os dois conjuntos de vetores e recuperá-los em paralelo.
Opções para consultar conteúdos multimodais
Se o seu pipeline multimodal for alimentado pela competência GenAI Prompt, poderá executar consultas híbridas em texto simples e imagens verbalizadas no seu índice de pesquisa. Você também pode usar filtros para restringir os resultados da pesquisa a tipos de conteúdo específicos, como apenas texto ou apenas imagens.
Embora a habilidade GenAI Prompt suporte consultas de texto para vetor por meio de pesquisa híbrida, ela não suporta consultas de imagem para vetor. Apenas os modelos de incorporação multimodal fornecem os vetorizadores que convertem imagens em vetores no momento da consulta.
Para usar imagens como entradas de consulta para seu índice multimodal, você deve usar a habilidade AML ou a habilidade de incorporações multimodais do Azure AI Vision com um vetorizador equivalente. Para obter mais informações, consulte Configurar um vetorizador em um índice de pesquisa.
Tutoriais e exemplos
Para ajudá-lo a começar com a pesquisa multimodal no Azure AI Search, aqui está uma coleção de conteúdo que demonstra como criar e otimizar índices multimodais usando a funcionalidade do Azure.
Conteúdo | Descrição |
---|---|
Guia de início rápido: pesquisa multimodal no portal do Azure | Crie e teste um índice multimodal no portal do Azure usando o assistente e o Gerenciador de Pesquisa. |
Tutorial: Verbalização de imagens e habilidade de extração de documentos | Extraia texto e imagens, verbalize diagramas e incorpore as descrições e o texto resultantes em um índice pesquisável. |
Tutorial: Incorporação multimodal e habilidade de extração de documentos | Use um modelo de texto de visão para incorporar texto e imagens diretamente, permitindo a pesquisa de semelhança visual em PDFs digitalizados. |
Tutorial: Verbalização de imagens e habilidade de layout de documentos | Aplique fragmentação sensível ao layout e verbalização de diagramas, capture dados de localização e armazene imagens recortadas para citações exatas e realces de página. |
Tutorial: Incorporação multimodal e habilidade de layout de documentos | Combine a fragmentação sensível ao layout com incorporações unificadas para uma pesquisa híbrida semântica e de palavras-chave que retorna localizações exatas de correspondência. |
Aplicativo de exemplo: repositório GitHub RAG multimodal | Um aplicativo RAG completo e pronto para código com recursos multimodais que exibe trechos de texto e anotações de imagem. Ideal para copilotos empresariais em fase de arranque. |