Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Na Pesquisa de IA do Azure, enriquecimento de IA refere-se à integração com serviços de IA do Azure para processar o conteúdo não pesquisável em sua forma bruta. Através de enriquecimento, análise e inferência são usados para criar conteúdo pesquisável e estrutura onde não existia anteriormente.
Como a Pesquisa de IA do Azure é usada para consultas de texto e vetoriais, o objetivo do enriquecimento de IA é melhorar a utilidade do seu conteúdo em cenários relacionados à pesquisa. O conteúdo bruto deve ser texto ou imagens (você não pode enriquecer vetores), mas a saída de um pipeline de enriquecimento pode ser vetorizada e indexada em um índice de pesquisa usando habilidades como habilidades de Divisão de Texto para agrupamento e habilidade do Azure OpenAI Embedding para codificação de vetor. Para mais informações sobre o uso de habilidades em cenários vetoriais, consulte Fragmentação de dados e integração de vetores.
O enriquecimento de IA é baseado em habilidades.
As funcionalidades integradas aproveitam os serviços de IA do Azure. Eles aplicam as seguintes transformações e processamento ao conteúdo bruto:
- Tradução e detecção de idioma para pesquisa multilíngue.
- Reconhecimento de entidade para extrair nomes de pessoas, locais e outras entidades de grandes partes do texto.
- Extração de termos-chave para identificar e produzir termos importantes.
- O OCR (reconhecimento óptico de caracteres) para reconhecer texto impresso e manuscrito em arquivos binários.
- Análise de imagem para descrever o conteúdo da imagem e gerar as descrições como campos de texto pesquisáveis.
- Inserções de texto por meio do Azure OpenAI para vetorização integrada.
- Incorporações multimodais através do Azure AI Vision para a vetorização de texto e imagem.
As habilidades personalizadas executam seu código externo. Você pode usar habilidades personalizadas para qualquer processamento personalizado que deseja incluir no pipeline.
O enriquecimento de IA é uma extensão de um pipeline de indexador que se conecta a fontes de dados do Azure. Um pipeline de enriquecimento tem todos os componentes de um pipeline de indexador (indexador, fonte de dados, índice) e um conjunto de habilidades que define etapas de enriquecimento atômicas.
O diagrama a seguir mostra a progressão do enriquecimento de IA:
A importação é a primeira etapa. Aqui, o indexador se conecta a uma fonte de dados e efetua pull do conteúdo (documentos) para o serviço de pesquisa. O Armazenamento de Blobs do Azure é o recurso mais comum usado em cenários de enriquecimento de IA, mas qualquer fonte de dados com suporte pode fornecer conteúdo.
Enriquecer e Indexar cobre a maior parte do pipeline de enriquecimento de IA:
O enriquecimento começa quando o indexador quebra documentos e extrai imagens e texto. O tipo de processamento que ocorre em seguida depende de seus dados e das habilidades que você adicionou a um conjunto de habilidades. As imagens podem ser encaminhadas para habilidades que executam o processamento de imagem. O conteúdo de texto está na fila para processamento de texto e linguagem natural. Internamente, as habilidades criam um documento enriquecido que coleta transformações conforme elas ocorrem.
O conteúdo enriquecido é gerado durante a execução do conjunto de habilidades e é temporário, a menos que você o salve. Você pode habilitar um cache de enriquecimento para persistir saídas de habilidades para reutilização em execuções futuras do conjunto de habilidades.
Para obter conteúdo em um índice de pesquisa, o indexador deve ter informações de mapeamento para enviar conteúdo enriquecido para o campo de destino. Mapeamentos de campo (explícitos ou implícitos) definem o caminho de dados dos dados de origem para um índice de pesquisa. Mapeamentos de campo de saída definem o caminho de dados de documentos enriquecidos para um índice.
A indexação é o processo em que o conteúdo bruto e enriquecido é ingerido nas estruturas de dados físicas em um índice de pesquisa (seus arquivos e pastas). A análise lexical e a tokenização ocorrem nesta etapa.
A exploração é a última etapa. A saída é sempre um índice de pesquisa que pode ser consultado de um aplicativo cliente. Opcionalmente, a saída pode ser um repositório de conhecimento que consiste em blobs e tabelas no Armazenamento do Microsoft Azure que são acessados pelas ferramentas de exploração de dados ou processos downstream. Se você estiver criando um repositório de conhecimento, as projeções determinarão o caminho de dados para conteúdo enriquecido. O mesmo conteúdo enriquecido pode aparecer em índices e repositórios de conhecimento.
Quando usar o enriquecimento de IA
O enriquecimento é útil se o conteúdo bruto for texto não estruturado, conteúdo de imagem ou conteúdo que precise de detecção e tradução de idioma. A aplicação da IA por meio das habilidades internas pode desbloquear esse conteúdo para aplicativos de pesquisa de texto completo e ciência de dados.
Você também pode criar habilidades personalizadas para fornecer processamento externo. É possível integrar código aberto, de terceiros ou interno ao pipeline como uma habilidade personalizada. Modelos de classificação que identificam características distintas de vários tipos de documento se enquadram nessa categoria, mas é possível usar qualquer pacote externo que adiciona valor ao conteúdo.
Casos de uso para habilidades internas
As habilidades internas são baseadas nas APIs dos serviços de IA do Azure: Pesquisa Visual Computacional de IA do Azure e do Serviço de linguagem. A menos que sua entrada de conteúdo seja pequena, espere anexar um recurso de IA do Azure Search faturável para executar cargas de trabalho maiores.
Um conjunto de habilidades composto de habilidades internas é adequado para os seguintes cenários de aplicativo:
As habilidades de processamento de imagens incluem Reconhecimento Óptico de Caracteres (OCR) e identificação de recursos visuais, como detecção facial, interpretação de imagem, reconhecimento da imagem (pessoas e lugares famosos) ou atributos como cores ou orientação da imagem. Essas habilidades criam representações de texto de conteúdo de imagem para pesquisa de texto completo no Azure AI Search.
A tradução automática é fornecida pela habilidade de tradução de texto, geralmente usada em conjunto com a detecção de idioma em soluções para vários idiomas.
O processamento de linguagem natural analisa partes do texto. As habilidades nessa categoria incluem Reconhecimento de Entidade, Detecção de Sentimento (incluindo mineração de opinião) e Detecção de Informações Identificáveis Pessoais. Com essas habilidades, o texto não estruturado pode ser mapeado como campos pesquisáveis e filtráveis em um índice.
Casos de uso para habilidades personalizadas
As habilidades personalizadas executam o código externo que você fornece e encapsulam na interface da Web de habilidades personalizadas. Vários exemplos de habilidades personalizadas podem ser encontrados no repositório GitHub azure-search-power-skills.
As habilidades personalizadas nem sempre são complexas. Por exemplo, se você tem um pacote que fornece correspondência de padrões ou um modelo de classificação de documentos, pode encapsulá-lo em uma habilidade personalizada.
Armazenando a saída
Na IA do Azure Search, um indexador salva a saída que criar. Uma única execução de indexador pode criar até três estruturas de dados com saída enriquecida e indexada.
| Armazenamento de dados | Required | Location | Description |
|---|---|---|---|
| índice pesquisável | Required | serviço Pesquisa | Usado para pesquisa de texto completo e outros formulários de consulta. A especificação de um índice é um requisito do indexador. O conteúdo do índice é preenchido a partir de saídas de habilidades, além de todos os campos de origem mapeados diretamente para os campos no índice. |
| repositório de conhecimento | Optional | Azure Storage | Usado para aplicativos downstream como mineração de conhecimento, ciência de dados e pesquisa multimodal. Um repositório de conhecimento é definido por um conjunto de qualificações. Essa definição determina se os documentos enriquecidos são projetados como tabelas ou objetos (arquivos ou blobs) no Armazenamento do Microsoft Azure. Para cenários de pesquisa multimodal, você pode salvar imagens extraídas no repositório de conhecimento e referenciá-las no momento da consulta, permitindo que as imagens sejam retornadas diretamente aos aplicativos cliente. |
| cache de enriquecimento | Optional | Azure Storage | Usado para enriquecimentos de cache para reutilização em execuções subsequentes do conjunto de habilidades. O cache armazena conteúdo importado e não processado (documentos decifrados). Ele também armazena os documentos enriquecidos criados durante a execução do conjunto de habilidades. O armazenamento em cache é útil quando você está usando análise de imagem ou OCR e que economizar o tempo e as despesas de reprocessamento de arquivos de imagem. |
Os índices e os repositórios de conhecimento são totalmente independentes entre si. Embora seja necessário anexar um índice para cumprir os requisitos do indexador, se o seu único objetivo for ter um repositório de conhecimento, você poderá ignorar esse índice depois que ele for preenchido.
Explorando o conteúdo
Depois de definir e carregar um índice de pesquisa ou repositório de conhecimento, você poderá explorar seus dados.
Consultar um índice de pesquisa
Execute consultas para acessar o conteúdo enriquecido gerado pelo pipeline. O índice é como qualquer outro item que você cria na IA do Azure Search: é possível complementar análises de texto com analisadores personalizados, invocar consultas de pesquisa difusa, adicionar filtros ou fazer experimentos com perfis de pontuação para ajustar a relevância da pesquisa.
Usar ferramentas de exploração de dados em um repositório de conhecimento
No Armazenamento do Microsoft Azure, um repositório de conhecimento pode assumir duas formas: um contêiner de blob de documento JSON, um contêiner de blob de objetos de imagem ou tabelas no Armazenamento de Tabelas. É possível usar o Gerenciador de Armazenamento, o Power BI ou qualquer aplicativo que se conecte ao Armazenamento do Azure para acessar seu conteúdo.
Um contêiner de blob captura documentos enriquecidos em sua totalidade, o que é útil se você estiver criando um feed em outros processos.
A tabela é útil se você precisar de fatias de documentos enriquecidos ou se quiser incluir ou excluir partes específicas da saída. Para análise no Power BI, as tabelas são a fonte de dados recomendada para exploração e visualização de dados.
Disponibilidade e preços
O enriquecimento de IA está disponível em regiões que oferecem serviços de IA do Azure. Para verificar a disponibilidade do enriquecimento de IA, consulte a lista de regiões.
A cobrança segue um modelo de preços Standard. Os custos associados às habilidades internas são cobrados quando você especifica um recurso de modelos do serviço OpenAI do Azure na Fábrica de IA do Azure ou uma chave de recurso multissserviço dos serviços de IA do Azure no conjunto de habilidades. Também há custos associados à extração de imagem, conforme o cálculo da IA do Azure Search. No entanto, as habilidades de extração de texto e habilidades práticas não são faturáveis. Para obter mais informações, consulte Como é cobrado o serviço de IA do Azure Search.
Lista de verificação: um fluxo de trabalho típico
Um pipeline de enriquecimento consiste em indexadores que têm habilidades. Após a indexação, você pode consultar um índice para validar seus resultados.
Comece com um subconjunto de dados em uma fonte de dados com suporte. O design de indexador e conjunto de habilidades é um processo iterativo. O trabalho é mais rápido com um pequeno conjunto de dados representativo.
Criar uma fonte de dados que especifique uma conexão com os seus dados.
Criar um conjunto de habilidades. A menos que seu projeto seja pequeno, você deve anexar um recurso de vários serviços de IA do Azure. Se você estiver criando um repositório de conhecimento, defina-o dentro do conjunto de habilidades.
Criar um esquema de índice que defina um índice de pesquisa.
Crie e execute o indexador para reunir todos os componentes anteriores. Esta etapa recupera os dados, executa o conjunto de habilidades e carrega o índice.
Um indexador também é onde você especifica mapeamentos de campo e mapeamentos de campo de saída que configuram o caminho de dados para um índice de pesquisa.
Opcionalmente, habilite o cache de enriquecimento na configuração do indexador. Esta etapa permite que os enriquecimentos existentes sejam reutilizados posteriormente.
Execute consultas para avaliar resultados ou iniciar uma sessão de depuração para resolver problemas de conjunto de habilidades.
Para repetir qualquer uma das etapas anteriores, redefina o indexador antes de executá-lo. Como alternativa, você pode excluir e recriar os objetos em cada execução (recomendado se você estiver usando a camada gratuita). Se você habilitou o cache, o indexador será retirado do cache se os dados de origem estiverem inalterados e se suas edições no pipeline não invalidarem o cache.