Como ingerir dados históricos no Azure Data Explorer

Artigo
02/23/2024

Um cenário comum ao integrar no Azure Data Explorer é ingerir dados históricos, por vezes denominado backfill. O processo envolve a ingestão de dados de um sistema de armazenamento existente numa tabela, que é uma coleção de extensões.

Recomendamos a ingestão de dados históricos com a propriedade creationTime ingestion para definir o tempo de criação de extensões para a hora em que os dados foram criados. Utilizar o tempo de criação, uma vez que o critério de criação de partições de ingestão pode envelhecer os seus dados de acordo com as políticas de cache e retenção e tornar os filtros de tempo mais eficientes.

Por predefinição, a hora de criação de extensões está definida para a hora em que os dados são ingeridos, o que pode não produzir o comportamento esperado. Por exemplo, suponha que tem uma tabela que tem um período de cache de 30 dias e um período de retenção de dois anos. No fluxo normal, os dados ingeridos à medida que são produzidos são colocados em cache durante 30 dias e, em seguida, movidos para o armazenamento a frio. Após dois anos, com base na hora de criação, os dados mais antigos são removidos um dia de cada vez. No entanto, se ingerir dois anos de dados históricos em que, por predefinição, os dados são marcados com o tempo de criação como a hora em que os dados são ingeridos. Isto pode não produzir o resultado pretendido porque:

Todos os dados são colocados em cache e permanecem lá durante 30 dias, com mais cache do que o previsto.
Os dados mais antigos não são removidos um dia de cada vez; por isso, os dados são retidos no cluster por mais tempo do que o necessário e, após dois anos, são todos removidos de uma só vez.
Os dados, anteriormente agrupados por data no sistema de origem, podem agora ser agrupados na mesma medida, o que leva a consultas ineficientes.

Diagrama a mostrar o resultado esperado versus o resultado real da ingestão de dados históricos com a hora de criação predefinida.

Neste artigo, vai aprender a particionar dados históricos:

Utilizar a creationTime propriedade ingestão durante a ingestão (recomendado)

Sempre que possível, ingira dados históricos com a creationTime propriedade ingestão, o que lhe permite definir a hora de criação das extensões ao extraí-la do caminho do ficheiro ou do blob. Se a sua estrutura de pastas não utilizar um padrão de data de criação, recomendamos que reestruture o caminho do ficheiro ou blob para refletir a hora de criação. Ao utilizar este método, os dados são ingeridos na tabela com o tempo de criação correto e os períodos de cache e retenção são aplicados corretamente.

Nota

Por predefinição, as extensões são particionadas por hora de criação (ingestão) e, na maioria dos casos, não é necessário definir uma política de criação de partições de dados.
Utilizar uma política de criação de partições após a ingestão

Se não conseguir utilizar a creationTime propriedade de ingestão, por exemplo, se estiver a ingerir dados com o conector do Azure Cosmos DB onde não consegue controlar a hora de criação ou se não conseguir reestruturar a estrutura de pastas, pode criar novas partições da tabela após a ingestão para obter o mesmo efeito com a política de criação de partições. No entanto, este método pode exigir algumas tentativas e erros para otimizar as propriedades da política e é menos eficiente do que a utilização da creationTime propriedade de ingestão. Apenas recomendamos este método quando a utilização da creationTime propriedade de ingestão não é possível.

Pré-requisitos

Uma conta Microsoft ou uma identidade de utilizador Microsoft Entra. Não é necessária uma subscrição do Azure.
Um cluster e uma base de dados do Azure Data Explorer. Criar um cluster e uma base de dados.
Uma conta de armazenamento.
Para o método recomendado de utilização da propriedade ingestão durante a creationTime ingestão, instale LightIngest.

Ingerir dados históricos

Recomendamos vivamente a criação de partições de dados históricos com a creationTime propriedade ingestão durante a ingestão. No entanto, se não conseguir utilizar este método, pode dividir novamente a tabela após a ingestão com uma política de criação de partições.

Durante a ingestão (recomendado)
Pós ingestão

O LightIngest pode ser útil para carregar dados históricos de um sistema de armazenamento existente para o Azure Data Explorer. Embora possa criar o seu próprio comando com a lista de argumentos da Linha de comandos, este artigo mostra-lhe como gerar automaticamente este comando através de um assistente de ingestão. Além de criar o comando, pode utilizar este processo para criar uma nova tabela e criar o mapeamento de esquema. Esta ferramenta infere o mapeamento de esquemas do conjunto de dados.

Destino

No Azure Data Explorer IU da Web, no menu esquerdo, selecione Consulta.
Clique com o botão direito do rato na base de dados na qual pretende ingerir os dados e, em seguida, selecione LightIngest.

A janela Ingerir dados é aberta com o separador Destino selecionado. Os campos Cluster e Base de Dados são preenchidos automaticamente.
Selecione uma tabela de destino. Se quiser ingerir dados numa nova tabela, selecione Nova tabela e, em seguida, introduza um nome de tabela.

Nota

Os nomes das tabelas podem ter até 1024 carateres, incluindo espaços, alfanuméricos, hífenes e carateres de sublinhado. Os carateres especiais não são suportados.
Selecione Seguinte: Origem.

Origem

Em Selecionar origem, selecione Adicionar URL ou Selecionar contentor.
- Ao adicionar um URL, em Ligar à origem, especifique a chave da conta ou o URL de SAS para um contentor. Pode criar o URL de SAS manual ou automaticamente.
- Ao selecionar um contentor a partir da sua conta de armazenamento, selecione a subscrição de Armazenamento, a Conta de armazenamento e o Contentor nos menus pendentes.
Nota

A ingestão suporta um tamanho máximo de ficheiros de 6 GB. A recomendação é ingerir ficheiros entre 100 MB e 1 GB.
Selecione Definições avançadas para definir definições adicionais para o processo de ingestão com LightIngest.

No painel Configuração avançada , defina as definições LightIngest de acordo com a tabela seguinte.

Captura de ecrã do painel de configuração avançado a mostrar as definições adicionais para o processamento da ingestão que envolve a ferramenta LightIngest.

Propriedade	Descrição
Padrão de tempo de criação	Especifique para substituir a propriedade de tempo de ingestão da extensão criada por um padrão, por exemplo, para aplicar uma data com base na estrutura de pastas do contentor. Veja também Padrão de tempo de criação.
Padrão de nome de blob	Especifique o padrão utilizado para identificar os ficheiros a ingerir. Ingerir todos os ficheiros que correspondem ao padrão de nome do blob no contentor especificado. Suporta carateres universais. Recomendamos incluir aspas duplas.
Tag	Uma etiqueta atribuída aos dados ingeridos. A etiqueta pode ser qualquer cadeia.
Limitar a quantidade de ficheiros	Especifique o número de ficheiros que podem ser ingeridos. Ingere os primeiros `n` ficheiros que correspondem ao padrão de nome do blob, até ao número especificado.
Não espere que a ingestão seja concluída	Se estiver definido, coloca em fila os blobs para ingestão sem monitorizar o processo de ingestão. Se não estiver definido, LightIngest continua a consultar o estado da ingestão até que a ingestão esteja concluída.
Apresentar apenas itens selecionados	Liste os ficheiros no contentor, mas não os ingere.

Selecione Concluído para regressar ao separador Origem .
1. Opcionalmente, selecione Filtros de Ficheiros para filtrar os dados para ingerir apenas ficheiros num caminho de pasta específico ou com uma extensão de ficheiro específica.
  
  Por predefinição, um dos ficheiros no contentor é selecionado aleatoriamente e utilizado para gerar o esquema da tabela.
2. Opcionalmente, em Ficheiro de definição de esquema, pode especificar o ficheiro a utilizar.
Selecione Seguinte: Esquema para ver e editar a configuração da coluna da tabela.

Esquema

O separador esquema fornece uma pré-visualização dos dados.

Para gerar o comando LightIngest, selecione Seguinte: Iniciar Ingestão.

Opcionalmente:

Altere o formato de Dados inferido automaticamente ao selecionar o formato pretendido no menu pendente.
Altere o nome do Mapeamento inferido automaticamente. Pode utilizar carateres alfanuméricos e carateres de sublinhado. Não são suportados espaços, carateres especiais e hífenes.
Ao utilizar uma tabela existente, pode Manter o esquema de tabela atual se o esquema da tabela corresponder ao formato selecionado.
Selecione Visualizador de comandos para ver e copiar os comandos automáticos gerados a partir das suas entradas.
Editar colunas. Em Pré-visualização de dados parciais, selecione os menus pendentes da coluna para alterar vários aspetos da tabela.

As alterações que pode fazer numa tabela dependem dos seguintes parâmetros:

O tipo de tabela é novo ou existente
O tipo de mapeamento é novo ou existente

Tipo de tabela	Tipo de mapeamento	Ajustes disponíveis
Nova tabela	Novo mapeamento	Alterar tipo de dados, Mudar o nome da coluna, Nova coluna, Eliminar coluna, Atualizar coluna, Ordenação ascendente, Ordenação descendente
Tabela existente	Novo mapeamento	Nova coluna (na qual pode alterar o tipo de dados, mudar o nome e atualizar), Coluna de atualização, Ordenação ascendente, Ordenação descendente
	Mapeamento existente	Ordenação ascendente, Ordenação descendente

Nota

Ao adicionar uma nova coluna ou atualizar uma coluna, pode alterar as transformações de mapeamento. Para obter mais informações, veja Mapping transformations (Mapear transformações)

Ingerir

Assim que a tabela, o mapeamento e o comando LightIngest estiverem marcados com marcas de verificação verdes, selecione o ícone de cópia no canto superior direito da caixa de comando Gerado para copiar o comando LightIngest gerado.

Nota

Se necessário, pode transferir a ferramenta LightIngest ao selecionar Transferir LightIngest.
Para concluir o processo de ingestão, tem de executar LightIngest com o comando copiado.

Passo 1: Preparar a criação de novas partições

Ajuste a política de retenção para permitir dados antigos. No exemplo seguinte, definiu a política de retenção para a tabela MyTable para 10 anos.
```
.alter-merge table MyTable policy retention softdelete = 3650d recoverability = enabled
```
Ajuste a política de colocação em cache para que todos os dados estejam em cache frequente para a criação de partições, uma vez que apenas os dados frequentes podem ser reparticionados após a ingestão. No exemplo seguinte, definiu a colocação em cache da tabela MyTable para 10 anos.
```
.alter table MyTable policy caching hot = 3650d
```
Importante

Aumentar a política de colocação em cache pode utilizar consideravelmente mais cache frequente do que em operações normais e pode resultar num aumento do custo.

Passo 2: iniciar a criação de novas partições

Crie uma política de criação de partições que particione os dados pela coluna com o nome Timestamp. No exemplo seguinte, vai definir a política de criação de partições para a tabela MyTable para particionar pela coluna com o nome Timestamp.
```
.alter table MyTable policy partitioning
```
{
  "EffectiveDateTime" : "1970-01-01T00:00:00",
  "PartitionKeys": [
    {
      "ColumnName": "Timestamp",
      "Kind": "UniformRange",
      "Properties": {
        "Reference": "1970-01-01T00:00:00",
        "RangeSize": "1.00:00:00",
        "OverrideCreationTime": true
      }
    }
  ]
}
```
```
Para obter informações sobre as propriedades da política de criação de partições, veja Propriedades da partição. Para a ingestão histórica, é importante definir as seguintes propriedades:
- A propriedade EffectiveDateTime tem de ser definida para uma data anterior ao início da ingestão para acionar a criação de novas partições.
- O RangeSize está definido como um dia para que os dados sejam repartidos em registos de um dia. No entanto, deve definir este valor para se alinhar com os seus dados. Por exemplo, se tiver menos de vários GBs de dados por dia, considere definir um valor maior.
- O OverrideCreationTime tem de ser definido como verdadeiro para que, depois de reparticionar os dados em registos diurnos, as extensões sejam marcadas com esse dia como a hora de criação.
Defina uma política de intercalação para permitir a intercalação de todas as extensões, incluindo extensões com mais de 14 dias. Definir esta política é importante porque o processo de criação de novas partições cria extensões com mais de 14 dias, que por predefinição são excluídas pelo processo de intercalação.
```
.alter table MyTable policy merge
```
{
  "Lookback": {
    "Kind": "HotCache"
  }
}
```
```
Monitorize o progresso da criação de partições com o comando estatísticas de criação de partições de extensões da base de dados .show . Nos resultados devolvidos, procure a tabela que está a criar novas partições e monitorize a coluna PartitionedRowPercentage . Quando o valor da coluna PartitionedRowPercentage for 100, a criação de novas partições é concluída.

Passo 3: Limpar pós-criação de partições

Depois de concluída a criação de novas partições, pode limpar as políticas que definiu nos passos anteriores.

Remova a política de criação de partições.
```
.delete table MyTable policy partitioning
```
Remova a política de intercalação.
```
.delete table MyTable policy merge
```

Remova ou defina a política de colocação em cache.

// Remove the caching policy
.delete table MyTable policy caching
// OR set the caching policy to your desired value
.alter table MyTable policy caching hot = 90d

Remova ou defina a política de retenção.

// Remove the retention policy
.delete table MyTable policy retention
// OR set the retention policy to your desired value
.alter-merge table MyTable policy retention softdelete = 30d recoverability = enabled

Consultar dados no Azure Data Explorer

Partilhar via