Alterar e eliminar a deteção utilizando indexadores para o Azure Storage em Azure Cognitive Search

Após a criação de um índice inicial de pesquisa, poderá querer que os trabalhos indexantes subsequentes apenas recolham documentos novos e alterados. Para conteúdos indexados originários do Azure Storage, a deteção de alterações ocorre automaticamente porque os indexantes acompanham a última atualização utilizando os cartões tempotamos incorporados em objetos e ficheiros no Azure Storage.

Embora a deteção de alterações seja um dado adquirido, a deteção de eliminação não é. Um indexante não rastreia a eliminação de objetos em fontes de dados. Para evitar ter documentos de pesquisa órfãos, pode implementar uma estratégia de "soft delete" que resulta na eliminação de documentos de pesquisa primeiro, com eliminação física no Azure Storage seguindo como segundo passo.

Existem duas formas de implementar uma estratégia de eliminação suave:

Pré-requisitos

  • Utilize um indexador de armazenamento Azure para armazenamento de blob, armazenamento de mesa, armazenamento de ficheiros ou Data Lake Storage Gen2

  • Utilize chaves de documento consistentes e estrutura de ficheiros. A alteração das chaves de documentos ou nomes e caminhos de diretório (aplica-se à ADLS Gen2) quebra a informação interna de rastreio utilizada pelos indexantes para saber qual o conteúdo indexado e quando foi indexado pela última vez.

Nota

A ADLS Gen2 permite que os diretórios sejam renomeados. Quando um diretório é renomeado, os tempos para as bolhas nesse diretório não são atualizados. Como resultado, o indexante não re-indexará essas bolhas. Se precisar que as bolhas de um diretório sejam reexexuadas após um rebatizador de diretório porque agora têm novos URLs, terá de atualizar a LastModified data de pontuação para todas as bolhas no diretório para que o indexante saiba re-indexá-los durante uma corrida futura. Os diretórios virtuais em Armazenamento de Blobs do Azure não podem ser alterados, pelo que não têm esta questão.

Exclusão macia de blob nativa (pré-visualização)

Para esta abordagem de deteção de eliminação, a Pesquisa Cognitiva depende da função de exclusão suave de blob nativa em Armazenamento de Blobs do Azure para determinar se as bolhas passaram para um estado suavemente eliminado. Quando as bolhas são detetadas neste estado, um indexante de pesquisa utiliza esta informação para remover o documento correspondente do índice.

Importante

O suporte para a eliminação suave de blob nativo está em pré-visualização nos Termos Complementares de Utilização. A versão REST API 2020-06-30-Preview fornece esta funcionalidade. Atualmente não existe suporte .NET SDK.

Requisitos para exclusão suave nativa

  • Ativar a eliminação suave para as bolhas.
  • As bolhas devem estar num recipiente Armazenamento de Blobs do Azure. A política de exclusão suave de blob nativo de Pesquisa Cognitiva não é suportada para bolhas na ADLS Gen2.
  • As chaves documentais para os documentos no seu índice devem ser mapeadas para serem uma propriedade blob ou metadados blob.
  • Tem de utilizar a pré-visualização DA API (api-version=2020-06-30-Preview) ou a configuração de Fonte de Dados do indexante no seu Serviço de Pesquisa Cognitiva a partir do portal do Azure, para configurar o suporte para eliminação suave.

Como configurar a deteção de eliminação utilizando a eliminação suave nativa

  1. No armazenamento Blob, ao permitir a eliminação suave, descreva a política de retenção para um valor muito superior ao seu calendário de intervalos indexante. Desta forma, se houver um problema a executar o indexante ou se tiver um grande número de documentos para indexar, há muito tempo para o indexer processar eventualmente as bolhas apagadas suaves. Azure Cognitive Search indexantes só apagarão um documento do índice se processar a bolha enquanto estiver em estado de eliminação suave.

  2. Em Pesquisa Cognitiva, detete uma política de deteção de eliminação suave de blob nativa na fonte de dados. Pode fazê-lo a partir do portal do Azure ou utilizando a pré-visualização REST API (api-version=2020-06-30-Preview).

  1. Inscreva-se na portal do Azure.

  2. Na página De Visão Geral do Serviço de pesquisa Cognitivo, aceda a New Data Source, um editor visual para especificar uma definição de fonte de dados.

    A imagem que se segue mostra onde pode encontrar esta funcionalidade no portal.

    Screenshot da fonte de dados do portal.

  3. No formulário New Data Source , preencha os campos necessários, selecione a caixa de verificação de eliminações de faixas e escolha a exclusão suave de blob nativo. Em seguida , acerte Guardar para ativar a funcionalidade na criação de Data Source.

    Screenshot da fonte de dados do portal eliminação suave nativa.