Partilhar via


Criar um índice na Pesquisa de IA do Azure

Neste artigo, aprenda as etapas para definir um esquema para um índice de pesquisa e enviá-lo por push para um serviço de pesquisa. A criação de um índice estabelece as estruturas de dados físicos no seu serviço de pesquisa. Quando o índice existir, carregue-o como uma tarefa separada.

Pré-requisitos

  • Escreva permissões como um Colaborador do Serviço de Pesquisa ou uma chave de API de administração para autenticação baseada em chave.

  • Uma compreensão dos dados que você deseja indexar. Um índice de pesquisa baseia-se no conteúdo externo que pretende tornar pesquisável. O conteúdo pesquisável é armazenado como campos em um índice. Você deve ter uma ideia clara de quais campos de origem deseja tornar pesquisáveis, recuperáveis, filtráveis, compatíveis e classificáveis (consulte a lista de verificação de esquema para obter orientação).

  • Você também deve ter um campo exclusivo nos dados de origem que possa ser usado como a chave do documento (ou ID) no índice.

  • Uma localização de índice estável. Não há suporte imediato para mover um índice existente para um serviço de pesquisa diferente. Reveja os requisitos da aplicação e certifique-se de que o serviço de pesquisa existente (capacidade e localização) é suficiente para as suas necessidades.

  • Finalmente, todas as camadas de serviço têm limites de índice para o número de objetos que você pode criar. Por exemplo, se estiver no escalão Gratuito, só poderá ter três índices. Dentro do próprio índice, há limites para vetores e limites de índice para o número de campos simples e complexos.

Chaves do documento

Um índice de pesquisa tem dois requisitos: deve ter um nome e uma chave de documento.

Uma chave de documento é o identificador exclusivo de um documento de pesquisa e um documento de pesquisa é uma coleção de campos que descreve completamente algo. Por exemplo, se você estiver indexando um conjunto de dados de filmes, um documento de pesquisa conterá o título, o gênero e a duração de um único filme.

No Azure AI Search, uma chave de documento deve ser uma cadeia de caracteres e deve ser originada de valores exclusivos na fonte de dados que está fornecendo o conteúdo a ser indexado. Um serviço de pesquisa não gera valores de chave, mas em alguns cenários (como o indexador de tabela do Azure) sintetiza valores existentes para criar uma chave exclusiva para os documentos que estão sendo indexados.

Durante a indexação incremental, onde o conteúdo novo e atualizado é indexado, os documentos de entrada com novas chaves são adicionados, enquanto os documentos de entrada com chaves existentes são mesclados ou substituídos, dependendo se os campos de índice são nulos ou preenchidos.

Lista de verificação do esquema

Utilize esta lista de verificação para ajudar nas decisões de design para o índice de pesquisa.

  1. Veja as convenções de nomenclatura para que os nomes de índices e campos estejam em conformidade com as regras de nomenclatura.

  2. Veja Tipos de dados suportados. O tipo de dados afeta a forma como o campo é utilizado. Por exemplo, o conteúdo numérico é filtrável, mas não pode ser pesquisado em texto completo. O tipo de dados mais comum é Edm.String para texto pesquisável, que é atomizado e consultado com o motor de pesquisa em texto completo. O tipo de dados mais comum para um campo vetorial é, Edm.Single mas você também pode usar outros tipos.

  3. Identifique uma chave de documento. Uma chave de documento é um requisito de índice. É um campo de cadeia única preenchido a partir de um campo de dados de origem com valores exclusivos. Por exemplo, se estiver a indexar a partir do Armazenamento de Blobs, o caminho de armazenamento de metadados é utilizado geralmente como a chave do documento, porque identifica exclusivamente cada blob no contentor.

  4. Identifique os campos na origem de dados que contribuem com conteúdo pesquisável no índice.

    O conteúdo não vetorial pesquisável inclui cadeias de caracteres curtas ou longas que são consultadas usando o mecanismo de pesquisa de texto completo. Se o conteúdo for verboso (frases pequenas ou partes maiores), experimente diferentes analisadores para ver como o texto é atomizado.

    O conteúdo vetorial pesquisável pode ser imagens ou texto (em qualquer idioma) que existe como uma representação matemática. Você pode usar tipos de dados estreitos ou compactação de vetor para tornar os campos vetoriais menores.

    As atribuições de atributos de campo determinam os comportamentos de pesquisa e a representação física do índice no serviço de pesquisa. Determinar como os campos devem ser especificados é um processo iterativo para muitos clientes. Para acelerar as iterações, comece com dados de exemplo para que possa excluir e reconstruir facilmente.

  5. Identifique os campos de origem que podem ser utilizados como filtros. Conteúdo numérico e campos de texto curtos, particularmente aqueles com valores repetidos, são boas escolhas. Ao trabalhar com filtros, lembre-se do seguinte:

    • Os filtros podem ser usados em consultas vetoriais e não vetoriais, mas o filtro em si é aplicado campos alfanuméricos (não vetoriais) em seu índice.

    • Opcionalmente, os campos filtráveis podem ser utilizados na navegação por facetas.

    • Os campos filtráveis são devolvidos por ordem arbitrária, por isso, torne-os ordenáveis também.

  6. Para campos vetoriais, especifique uma configuração de pesquisa vetorial e os algoritmos usados para criar caminhos de navegação e preencher o espaço de incorporação. Para obter mais informações, consulte Adicionar campos vetoriais.

    Os campos vetoriais têm propriedades extras que os campos não vetoriais não têm, como quais algoritmos usar e compactação vetorial.

    Os campos vetoriais omitem atributos que não são úteis em dados vetoriais, como classificação, filtragem e facetagem.

  7. Para campos não vetoriais, determine se deseja usar o analisador padrão ("analyzer": null) ou um analisador diferente. Os analisadores são utilizados para atomizar os campos de texto durante a indexação e a execução da consulta.

    Para cadeias multilíngues, considere um analisador de linguagem.

    Para cadeias hifenizadas ou de carateres especiais, considere analisadores especializados. Um exemplo é a palavra-chave que trata todo o conteúdo de um campo como um único token. Esse comportamento é útil para dados como códigos postais, IDs e alguns nomes de produtos. Para obter mais informações, veja Pesquisa parcial de termos e padrões com carateres especiais.

Nota

A pesquisa em texto completo é realizada com termos atomizados durante a indexação. Se suas consultas não retornarem os resultados esperados, teste a tokenização para verificar se a cadeia de caracteres que você está pesquisando realmente existe. Pode tentar diferentes analisadores em cadeias para ver como os tokens são produzidos para vários analisadores.

Criar um índice

Quando estiver pronto para criar o índice, use um cliente de pesquisa que possa enviar a solicitação. Você pode usar o portal do Azure ou APIs REST para desenvolvimento inicial e testes de prova de conceito, caso contrário, é comum usar os SDKs do Azure.

Durante o desenvolvimento, planeje reconstruções frequentes. Como as estruturas físicas são criadas no serviço, descartar e recriar índices é necessário para muitas modificações. Você pode considerar trabalhar com um subconjunto de seus dados para tornar as reconstruções mais rápidas.

O design de índice por meio do portal impõe requisitos e regras de esquema para tipos de dados específicos, como não permitir recursos de pesquisa de texto completo em campos numéricos.

  1. Inicie sessão no portal do Azure.

  2. Verifique se há espaço. Os serviços de pesquisa estão sujeitos a um número máximo de índices, variando de acordo com a camada de serviço. Certifique-se de que tem espaço para um segundo índice.

  3. Na página Visão geral do serviço de pesquisa, escolha uma das opções para criar um índice de pesquisa:

    • Adicionar índice, um editor incorporado para especificar um esquema de índice
    • Importar assistentes

    O assistente é um fluxo de trabalho de ponta a ponta que cria um indexador, uma fonte de dados e um índice concluído. Ele também carrega os dados. Se isso for mais do que o desejado, use Adicionar índice .

A captura de tela a seguir destaca onde Adicionar índice e Importar dados aparecem na barra de comandos. Depois que um índice é criado, você pode encontrá-lo novamente na guia Índices .

Comando Adicionar índice

Gorjeta

Depois de criar um índice no portal, você pode copiar a representação JSON e adicioná-la ao código do aplicativo.

Definir corsOptions para consultas de origem cruzada

Os esquemas de índice incluem uma seção para a configuração corsOptions. Por padrão, o JavaScript do lado do cliente não pode chamar nenhuma API porque os navegadores impedem todas as solicitações de origem cruzada. Para permitir consultas entre origens até o índice, habilite o CORS (Cross-Origin Resource Sharing) definindo o atributo corsOptions . Por motivos de segurança, apenas as APIs de consulta suportam CORS.

"corsOptions": {
  "allowedOrigins": [
    "*"
  ],
  "maxAgeInSeconds": 300

As seguintes propriedades podem ser definidas para CORS:

  • allowedOrigins (obrigatório): Esta é uma lista de origens que têm acesso permitido ao seu índice. O código JavaScript servido a partir dessas origens tem permissão para consultar seu índice (supondo que o chamador forneça uma chave válida ou tenha permissões). Cada origem é tipicamente da forma protocol://<fully-qualified-domain-name>:<port> , embora <port> muitas vezes seja omitida. Para obter mais informações, consulte Compartilhamento de recursos entre origens (Wikipedia).

    Se você quiser permitir o acesso a todas as origens, inclua * como um único item na matriz allowedOrigins . Essa não é uma prática recomendada para serviços de pesquisa de produção, mas geralmente é útil para desenvolvimento e depuração.

  • maxAgeInSeconds (opcional): Os navegadores usam esse valor para determinar a duração (em segundos) para armazenar em cache as respostas de comprovação do CORS. Este deve ser um número inteiro não negativo. Um período de cache mais longo oferece melhor desempenho, mas estende o tempo que uma política CORS precisa para entrar em vigor. Se esse valor não estiver definido, será usada uma duração padrão de cinco minutos.

Atualizações permitidas em índices existentes

Criar índice cria as estruturas de dados físicos (arquivos e índices invertidos) em seu serviço de pesquisa. Depois que o índice é criado, sua capacidade de efetuar alterações usando Criar ou Atualizar Índice depende se suas modificações invalidam essas estruturas físicas. A maioria dos atributos de campo não pode ser alterada depois que o campo é criado no índice.

Como alternativa, você pode criar um alias de índice que sirva como uma referência estável no código do aplicativo. Em vez de atualizar seu código, você pode atualizar um alias de índice para apontar para versões de índice mais recentes.

Para minimizar a rotatividade no processo de design, a tabela a seguir descreve quais elementos são fixos e flexíveis no esquema. A alteração de um elemento fixo requer uma reconstrução do índice, enquanto os elementos flexíveis podem ser alterados a qualquer momento sem afetar a implementação física.

Elemento Pode ser atualizado?
Nome Não
Chave Não
Nomes e tipos de campos Não
Atributos de campo (pesquisável, filtrável, facial, classificável) Não
Atributo de campo (recuperável) Sim
Armazenado (aplica-se a vetores) Não
Analisador Você pode adicionar e modificar analisadores personalizados no índice. Em relação às atribuições do analisador em campos de cadeia de caracteres, você só pode modificar searchAnalyzero . Todas as outras atribuições e modificações requerem uma reconstrução.
Perfis de classificação Sim
Sugestões Não
compartilhamento de recursos entre origens (CORS) Sim
Encriptação Sim

Próximos passos

Use os links a seguir para se familiarizar com o carregamento de um índice com dados ou a extensão de um índice com um mapa de sinônimos.