Como funciona o Azure Data Explorer

Artigo
01/10/2024

O Azure Data Explorer fornece um desempenho inigualável para ingerir e consultar dados de telemetria, registos, eventos, rastreios e séries de tempo. Inclui formatos de armazenamento otimizados, índices e utiliza estatísticas de dados avançadas para planeamento de consultas eficiente e execução de consultas just-in-time compiladas.

Armazenamento vs. computação

O Azure Data Explorer separa os recursos de armazenamento e computação. Os dados persistentes residem no Armazenamento de Blobs do Azure, enquanto os recursos de computação podem armazenar dados temporários ou agir como uma cache para armazenamento persistente.

Esta separação fornece as seguintes vantagens:

Aumento horizontal independente dos recursos de armazenamento e computação.
Acessibilidade a dados idênticos em vários clusters de computação. Para obter mais informações, veja Partilha de dados.
Otimização do SKU. Para obter mais informações, veja Selecionar um SKU para o cluster.

Armazenamento de dados

O Azure Data Explorer partições de todos os dados ingeridos em extensões ou partições horizontais da tabela de destino. Uma extensão pode começar tão pequena como um único registo. À medida que os dados se acumulam na tabela, o Azure Data Explorer intercala automaticamente extensões até crescerem para abranger milhões de registos. Cada extensão é codificada e indexada independentemente de outras extensões. Esta funcionalidade contribui para o dimensionamento linear no débito de ingestão.

As extensões são distribuídas uniformemente pelos nós de cluster, onde são colocadas em cache tanto no SSD local como na memória. Esta distribuição melhora a capacidade de preparar e executar consultas paralelas e altamente distribuídas.

Para obter mais informações sobre o armazenamento de dados, veja Descrição geral das extensões.

Nota

O Azure Data Explorer também retém metadados essenciais, como esquemas de tabela e objetos de política. Para obter uma lista de políticas, veja Descrição geral das políticas.

Cache de Dados

O Azure Data Explorer tem um sistema de cache de dados de várias hierarquias para garantir que os dados mais relevantes são colocados em cache o mais próximo possível da CPU. O sistema de cache depende da imutabilidade das extensões e funciona inteiramente com dados comprimidos. Para melhorar o desempenho das consultas, os dados permanecem comprimidos mesmo na RAM e só são descomprimidos quando necessário para uma consulta.

Para obter mais informações sobre a colocação em cache, veja Política de cache.

Indexação de texto

O Azure Data Explorer foi concebido para indexar eficientemente colunas de texto livre (cadeia) e JSON (dinâmicas) à medida que os dados são ingeridos. Os índices mantêm um nível de granularidade que permite a avaliação de partes da consulta com base no índice sem analisar os dados.

A otimização contínua em segundo plano das extensões através da intercalação melhora a compressão e a indexação, garantindo armazenamento eficiente e baixa latência de consulta. Assim que as extensões atingirem um determinado tamanho, apenas os índices são intercalados para melhorar o desempenho das consultas sem comprometer a eficiência.

Para obter mais informações sobre a intercalação de extensões e índices, veja Política de intercalação.

Arquivo de linhas

O Azure Data Explorer oferece uma solução de armazenamento intermédia chamada arquivo de linhas. O arquivo de linhas permite a entrada eficiente de pequenas porções de dados e garante que estes dados estão imediatamente disponíveis para consulta. Quando ativa a ingestão de transmissão em fluxo no cluster, os dados são inicialmente ingeridos no arquivo de linhas e, em seguida, movidos para extensões de arquivo de colunas.

Para obter mais informações, veja Batching vs. ingestão de transmissão em fluxo.

Compressão de colunas

O Azure Data Explorer mantém os dados num estado comprimido, reduzindo a quantidade de memória necessária para armazenar e processar dados. Este comportamento resulta num desempenho de consultas mais rápido e numa utilização mais eficiente dos recursos do sistema.

O Azure Data Explorer evita a compressão vertical, que envolve ordenar dados para melhorar a compressão, devido ao elevado custo da CPU em cenários de dados semiestruturados ou de texto livre. Em vez disso, pode especificar a sequência de ordenação de dados preferencial para cenários com padrões de consulta dominantes. Esta compensação dá prioridade à disponibilidade rápida de dados para consultas.

Para obter mais informações sobre como especificar a sequência de ordenação de dados, veja Política de ordenação de linhas.

Consulta de dados distribuídos

O Azure Data Explorer utiliza tecnologia de consulta de dados distribuídos destinada a análises ad hoc rápidas em grandes conjuntos de dados não estruturados. As principais funcionalidades desta tecnologia incluem:

Os dados temporários gerados por consultas são armazenados numa RAM agregada
As extensões relevantes são marcadas num plano de consulta, proporcionando isolamento de instantâneos
As consultas rápidas e eficientes são priorizadas com tempos limite predefinidos curtos
Suporte nativo para consultas entre clusters que minimiza a troca de dados entre clusters
As consultas são compiladas just-in-time em código de máquina altamente eficiente, com estatísticas de dados de todas as extensões e adaptadas às especificações da codificação de colunas

Nota

O Azure Data Explorer foi concebido para funcionar com o Linguagem de Pesquisa Kusto (KQL), personalizado para Data Explorer do Azure. Além disso, o T-SQL é suportado.

Criar um cluster e uma base de dados do Azure Data Explorer

Share via

Como funciona o Azure Data Explorer

Armazenamento vs. computação

Armazenamento de dados

Cache de Dados

Indexação de texto

Arquivo de linhas

Compressão de colunas

Consulta de dados distribuídos

Comentários

Comentários

Recursos adicionais

Share via

Como funciona o Azure Data Explorer

Armazenamento vs. computação

Armazenamento de dados

Cache de Dados

Indexação de texto

Arquivo de linhas

Compressão de colunas

Consulta de dados distribuídos

Conteúdo relacionado

Comentários

Comentários

Recursos adicionais