O que é Azure Synapse Data Explorer? (Visualização)

O Azure Synapse Data Explorer proporciona aos clientes uma experiência de consulta interativa para desbloquear insights dos dados telemétricos e de log. Para complementar os mecanismos de runtime de análise do SQL e do Apache Spark, o runtime de análise do Data Explorer é otimizado para uma análise de log eficiente usando a tecnologia de indexação avançada para indexar automaticamente os dados de texto livre e semiestruturados encontrados normalmente nos dados telemétricos.

Diagrama que mostra a arquitetura do Azure Synapse.

Para saber mais, assista ao seguinte vídeo:

O que torna o Azure Synapse Data Explorer único?

  • Fácil ingestão – O Data Explorer oferece integrações internas para ingestão de dados de alta taxa de transferência e sem código/de baixo código e dados de cache de fontes em tempo real. Os dados podem ser ingeridos de fontes como o Hubs de Eventos do Azure, o Kafka, o Azure Data Lake, agentes de software livre, como o Fluentd/Fluent Bit, e uma ampla variedade de fontes de dados locais e na nuvem.

  • Sem modelagem de dados complexos. Com o Data Explorer, não há necessidade de criar modelos de dados complexos nem há necessidade de scripts complexos para transformar os dados antes que sejam consumidos.

  • Sem manutenção de índice. Não há necessidade de tarefas de manutenção para otimizar os dados do desempenho de consulta nem há necessidade de manutenção de índice. Com o Data Explorer, todos os dados brutos estão disponíveis imediatamente, permitindo que você execute consultas de alto desempenho e alta simultaneidade nos dados persistentes e de streaming. Você pode usar essas consultas para criar painéis e alertas quase em tempo real e conectar dados de análise operacional com o restante da plataforma de análise de dados.

  • Democratização da análise de dados – O Data Explorer democratiza o autoatendimento, a análise de Big Data com o KQL (Linguagem de Consulta Kusto) intuitivo que fornece a expressividade e eficácia do SQL com a simplicidade do Excel. O KQL é altamente otimizado para explorar os dados de série temporal e de telemetria bruta, aproveitando a melhor tecnologia de indexação de texto da classe do Data Explorer para uma pesquisa eficiente de texto livre e regex, além de recursos abrangentes de análise para consultar dados de texto/rastreamentos e dados semiestruturados JSON, incluindo matrizes e estruturas aninhadas. O KQL oferece suporte avançado à série temporal para criar, manipular e analisar várias séries temporais com suporte de execução a Python no mecanismo para pontuação de modelo.

  • Tecnologia comprovada em escala de petabytes. O Data Explorer é um sistema distribuído com recursos de computação e armazenamento que pode ser dimensionado de forma independente, permitindo a análise de gigabytes ou petabytes de dados.

  • Integrado – O Azure Synapse Analytics fornece interoperabilidade em todos os dados entre os mecanismos do Data Explorer, do Apache Spark e do SQL capacitando engenheiros de dados, cientistas de dados e analistas de dados para acessar e colaborar de maneira fácil e segura com os mesmos dados no data lake.

Quando usar o Azure Synapse Data Explorer?

Use o Data Explorer como plataforma de dados para criar soluções de análise de log e análise de IoT quase em tempo real para:

  • Consolidar e correlacionar os dados de eventos e de logs entre as fontes de dados locais, de nuvem e de terceiros.

  • Estimular a jornada de operações de IA (reconhecimento de padrões, detecção de anomalias, previsão e muito mais).

  • Substituir soluções de pesquisa de log baseadas em infraestrutura para poupar custos e aumentar a produtividade.

  • Criar soluções de análise de IoT para os dados de IoT.

  • Criar soluções de SaaS de análise para oferecer serviços aos clientes internos e externos.

Arquitetura do pool do Data Explorer

Os pools do Data Explorer implementam uma arquitetura de expansão, separando os recursos de computação e armazenamento. Isso permite que você dimensione cada recurso de forma independente e, por exemplo, execute várias computações somente leitura nos mesmos dados. Os pools do Data Explorer consistem em um conjunto de recursos de computação que executam o mecanismo responsável por indexar, compactar, armazenar em cache e fornecer consultas distribuídas automaticamente. Eles também têm um segundo conjunto de recursos de computação que executam o serviço de gerenciamento de dados responsável pelos trabalhos do sistema em segundo plano e a ingestão de dados gerenciada e enfileirada. Todos os dados são mantidos nas contas de armazenamento de blobs gerenciadas usando um formato colunar compactado.

Os pools do Data Explorer dão suporte a um ecossistema avançado para ingerir dados usando conectores, SDKs, APIs REST e outros recursos gerenciados. Ele oferece várias maneiras de consumir dados para consultas ad hoc, relatórios, painéis, alertas, APIs REST e SDKs.

Arquitetura de pools do Data Explorer

Existem muitos recursos exclusivos que tornam o Data Explorer o melhor mecanismo analítico para análise de logs e de série temporal no Azure.

As seções a seguir destacam os principais diferenciais.

A indexação de dados semiestruturados e de texto livre permite consultas de alto desempenho e alta simultaneidade quase em tempo real

O Data Explorer indexa dados semiestruturados (JSON) e dados não estruturados (texto livre) que tornam a execução de consultas nesse tipo de dados muito eficaz. Por padrão, cada campo é indexado durante a ingestão de dados com a opção de usar uma política de codificação de nível baixo para ajustar ou desabilitar o índice de campos específicos. O escopo do índice é um único fragmento de dados.

A implementação do índice depende do tipo do campo da seguinte maneira:

Tipo de campo Indexação da implementação
Cadeia de caracteres O mecanismo cria um índice de termo invertido para os valores de coluna de cadeia de caracteres. Cada valor da cadeia de caracteres é analisado e dividido em termos normalizados e uma lista ordenada de posições lógicas contendo ordinais de registro é registrada para cada termo. A lista de termos classificada resultante e suas posições associadas são armazenadas como árvore B imutável.
Numérica
DateTime
TimeSpan
O mecanismo cria um índice de encaminhamento simples baseado em intervalos. O índice registra os valores mínimo/máximo de cada bloco, de um grupo de blocos e da coluna inteira no fragmento de dados.
Dinâmico O processo de ingestão enumera todos os elementos "atômicos" no valor dinâmico, como nomes de propriedade, valores e elementos de matriz, e os encaminha para o construtor de índice. Os campos dinâmicos têm o mesmo índice de termo invertido que os campos de cadeia de caracteres.

Esses recursos eficientes de indexação permitem que o Data Explorer disponibilize os dados quase em tempo real para consultas de alto desempenho e de alta simultaneidade. O sistema otimiza automaticamente os fragmentos de dados para melhorar ainda mais o desempenho.

Linguagem de Consulta Kusto

A KQL tem uma grande comunidade em crescimento com a adoção rápida do Application Insights e da Análise de logs do Azure Monitor, do Microsoft Sentinel, do Azure Data Explorer e de outras ofertas da Microsoft. A linguagem é bem projetada com uma sintaxe fácil de ler e fornece uma transição suave de consultas de uma linha simples para consultas complexas de processamento de dados. Isso permite que o Data Explorer forneça suporte avançado do Intellisense e um conjunto avançado de construtores de linguagem e de funcionalidades internas para agregações, série temporal e análise de usuários que não estão disponíveis em SQL para exploração rápida de dados telemétricos.

Próximas etapas