O que é o Azure Synapse Data Explorer? (versão prévia)

Importante

O Azure Synapse Analytics Data Explorer (versão prévia) será desativado em 7 de outubro de 2025. Após essa data, as cargas de trabalho em execução no Synapse Data Explorer serão excluídas e os dados do aplicativo associado serão perdidos. É altamente recomendável migrar para o Eventhouse no Microsoft Fabric.

O programa CMF (Microsoft Cloud Migration Factory) foi projetado para ajudar os clientes na migração para o Fabric. O programa oferece recursos práticos de teclado sem custo para o cliente. Esses recursos são atribuídos por um período de 6 a 8 semanas, com um escopo predefinido e acordado. As nomeações de clientes são aceitas da equipe de conta da Microsoft ou diretamente enviando uma solicitação de ajuda à equipe do CMF.

O Azure Synapse Data Explorer fornece aos clientes uma experiência de consulta interativa para desbloquear insights de dados de log e telemetria. Para complementar os mecanismos de runtime de análise existentes do SQL e do Apache Spark, o runtime de análise do Data Explorer é otimizado para análise de log eficiente usando uma poderosa tecnologia de indexação para indexar automaticamente dados semiestruturados e de texto livre comumente encontrados em dados de telemetria.

Diagrama mostrando a arquitetura do Azure Synapse.

Para saber mais, confira o seguinte vídeo:

O que torna o Azure Synapse Data Explorer exclusivo?

Ingestão fácil – o Data Explorer oferece integrações integradas para sem código/baixo código, ingestão de dados de alta taxa de transferência e armazenamento em cache de dados de fontes em tempo real. Os dados podem ser ingeridos de fontes como Hubs de Eventos do Azure, Kafka, Azure Data Lake, agentes de software livre, como Fluentd/Fluent Bit, e uma ampla variedade de fontes de dados locais e de nuvem.
Sem modelagem de dados complexa – com o Data Explorer, não há necessidade de criar modelos de dados complexos e não há necessidade de scripts complexos para transformar dados antes que eles sejam consumidos.
Sem manutenção de índice – não há necessidade de tarefas de manutenção otimizar os dados para o desempenho da consulta e não há necessidade de manutenção do índice. Com o Data Explorer, todos os dados brutos estão disponíveis imediatamente, permitindo que você execute consultas de alto desempenho e alta simultaneidade em seu streaming e dados persistentes. Você pode usar essas consultas para criar dashboards e alertas quase em tempo real e conectar dados de análise operacional com o restante da plataforma de análise de dados.
Democratizando a análise de dados – O Data Explorer democratiza o autoatendimento, a análise de Big Data com a intuitiva KQL (Linguagem de Consulta Kusto) que fornece a expressividade e o poder do SQL com a simplicidade do Excel. O KQL é altamente otimizado para explorar dados brutos de telemetria e de séries temporais, aproveitando a tecnologia de indexação de texto de classe superior do Data Explorer para pesquisas eficientes de texto livre e de regex, além de oferecer capacidades abrangentes de análise para consultas de rastreamentos e dados de texto, bem como dados semiestruturados JSON, incluindo matrizes e estruturas aninhadas. O KQL oferece suporte avançado para séries temporais, permitindo criar, manipular e analisar múltiplas séries temporais, com suporte para execução de Python no próprio mecanismo para avaliação dos modelos.
Tecnologia comprovada em escala petabyte – o Data Explorer é um sistema distribuído com recursos de computação e armazenamento que pode ser dimensionado de forma independente, habilitando a análise em gigabytes ou petabytes de dados.
Integrado – O Azure Synapse Analytics fornece interoperabilidade entre dados entre o Data Explorer, o Apache Spark e os mecanismos SQL, capacitando engenheiros de dados, cientistas de dados e analistas de dados a acessar e colaborar com facilidade e segurança nos mesmos dados no data lake.

Quando usar o Azure Synapse Data Explorer?

Use o Data Explorer como uma plataforma de dados para criar soluções de análise de log quase em tempo real e análise de IoT para:

Consolide e correlacione seus dados de logs e eventos entre fontes de dados locais, de nuvem e de terceiros.
Acelere sua jornada de Operações de IA (reconhecimento de padrões, detecção de anomalias, previsão e muito mais).
Substitua as soluções de pesquisa de log baseadas em infraestrutura para economizar custos e aumentar a produtividade.
Crie soluções de análise de IoT para seus dados de IoT.
Crie soluções SaaS de análise para oferecer serviços aos seus clientes internos e externos.

Arquitetura do pool do Data Explorer

Os pools do Data Explorer implementam uma arquitetura de expansão separando os recursos de computação e armazenamento. Isso permite que você dimensione cada recurso de forma independente e, por exemplo, execute várias computações somente-leitura nos mesmos dados. Os pools do Data Explorer consistem em um conjunto de recursos de computação executando o mecanismo responsável pela indexação automática, compactação, cache e serviço de consultas distribuídas. Eles também têm um segundo conjunto de recursos de computação executando o gerenciamento de dados responsável por tarefas em segundo plano do sistema e ingestão de dados organizada e enfileirada. Todos os dados são mantidos em contas de armazenamento de blobs gerenciados usando um formato columnar compactado.

Os pools do Data Explorer dão suporte a um ecossistema avançado para ingerir dados usando conectores, SDKs, APIs REST e outros recursos gerenciados. Ele oferece várias maneiras de consumir dados para consultas ad hoc, relatórios, dashboards, alertas, APIs REST e SDKs.

Arquitetura de pools do Data Explorer

Há muitos recursos exclusivos que fazem do Data Explore o melhor mecanismo analítico para análise de logs e séries temporais no Azure.

As seções a seguir realçam os principais diferenciadores.

A indexação de dados de texto livre e semiestruturados permite consultas de alto desempenho quase em tempo real e altamente simultâneas

O Data Explorer indexa dados semiestruturados (JSON) e dados não estruturados (texto livre), o que faz com que as consultas em execução sejam bem executadas nesse tipo de dados. Por padrão, cada campo é indexado durante a ingestão de dados com a opção de usar uma política de codificação de baixo nível para ajustar ou desabilitar o índice para campos específicos. O escopo do índice é um único fragmento de dados.

A implementação do índice depende do tipo do campo, da seguinte maneira:

Tipo de campo	Implementação de indexação
Cadeia de caracteres	O mecanismo cria um índice de termos invertido para valores de coluna de texto. Cada valor de cadeia de caracteres é analisado e dividido em termos normalizados e uma lista ordenada de posições lógicas, contendo ordinais de registro, é registrada para cada termo. A lista classificada resultante de termos e suas posições associadas é armazenada como uma árvore B imutável.
Numérica DateTime TimeSpan	O mecanismo cria um índice direto simples baseado em faixa. O índice registra os valores mínimo/máximo para cada bloco, para um grupo de blocos e para toda a coluna dentro do fragmento de dados.
Dinâmico	O processo de ingestão enumera todos os elementos "atômicos" dentro do valor dinâmico, como nomes de propriedade, valores e elementos de matriz, e os encaminha para o construtor de índices. Os campos dinâmicos têm o mesmo índice de termo invertido que os campos de cadeia de caracteres.

Esses recursos eficientes de indexação permitem que o Data Explore disponibilize os dados quase em tempo real para consultas de alto desempenho e alta simultaneidade. O sistema otimiza automaticamente os fragmentos de dados para aumentar ainda mais o desempenho.

Linguagem de Consulta Kusto

O KQL tem uma comunidade grande e crescente com a rápida adoção do Azure Monitor Log Analytics e Application Insights, Microsoft Sentinel, Azure Data Explorer e outras ofertas da Microsoft. A linguagem é bem projetada, com uma sintaxe fácil de ler, e fornece uma transição suave de uma linha única simples para consultas complexas de processamento de dados. Isso permite que o Data Explorer forneça suporte avançado ao Intellisense e um conjunto avançado de constructos de linguagem e recursos internos para agregações, séries temporais e análise de usuário que não estão disponíveis no SQL para exploração rápida de dados de telemetria.

Próximas etapas

Last updated on 2025-03-24

Compartilhar via