Descubra dados em streaming no Real-Time hub

Concluído

Na unidade anterior, aprendeste a encontrar e ligar dados em lote armazenados em casas de lago e armazéns. Mas os dados nem sempre chegam em lotes – por vezes fluem continuamente. Os níveis de inventário mudam à medida que os produtos são vendidos, as transações chegam de clientes online e sensores IoT enviam leituras de temperatura a cada poucos segundos.

Antes de poder incorporar dados em streaming na sua solução, precisa de encontrar os dados certos usando o hub Real-Time.

Descubra dados de streaming

O Real-Time hub é o catálogo centralizado para descobrir e gerir dados em streaming através do Microsoft Fabric. Enquanto o catálogo OneLake mostra dados em lote armazenados em casas de lago e armazéns, o hub Real-Time exibe eventstreams e tabelas KQL que estão a correr ativamente na sua organização.

Eventstreams são fluxos contínuos de dados provenientes de fontes como Azure Event Hubs, dispositivos IoT, Apache Kafka, captura de dados de alterações de base de dados (CDC) ou aplicações personalizadas. Cada stream transporta eventos à medida que acontecem, como um cliente a completar uma compra ou um sensor a detetar uma alteração de temperatura.

Os dados em streaming frequentemente fluem para eventhouses, que são contentores que contêm uma ou mais bases de dados KQL. Estas bases de dados armazenam eventos baseados em tempo ou eventos e suportam consultas rápidas utilizando a Linguagem de Consulta Kusto (KQL). Os dados são automaticamente indexados e particionados pelo tempo de ingestão, permitindo uma análise rápida mesmo durante a ingestão contínua de dados.

Tal como navega pelo catálogo da OneLake para encontrar casas no lago, navega pelo Real-Time hub para descobrir fontes de dados em streaming que outras equipas já criaram. Esta etapa de descoberta ajuda-o a determinar se os fluxos existentes satisfazem as suas necessidades. Se um fluxo já capta os dados que queres, podes trabalhar diretamente com ele em vez de criar pipelines de dados duplicados.

Explore dados em streaming

Para aceder Real-Time hub, selecione Tempo Real na navegação da esquerda no Fabric. O hub abre-se na página de dados de streaming , que mostra eventstreams recentemente criados e tabelas KQL a que tem acesso.

Pode navegar pelos fluxos por espaço de trabalho, filtrar por tipo de fonte ou procurar nomes específicos de fluxos. Quando seleciona um fluxo, vê os seus detalhes, incluindo:

  • Nome do fluxo e item de origem (base de dados eventstream ou KQL)
  • Proprietário do item e localização do espaço de trabalho
  • Estado de endosso
  • Rótulos de sensibilidade

Captura de ecrã que mostra a página principal do hub Real-Time com dados em streaming e opções para adicionar novas fontes de dados.

Os detalhes do stream também mostram informações sobre atividades. Pode verificar se um stream está a receber dados ativamente e quando foi atualizado pela última vez. Esta informação ajuda-o a avaliar se um fluxo é fiável para uso em produção.

Sugestão

Antes de usar um fluxo de dados, reveja o seu esquema e dados de amostra para verificar se contém os campos necessários para o seu trabalho analítico.

Utilizar os cursos de água descobertos

Depois de descobrir um fluxo que contém dados úteis, tem várias opções dependendo se é um fluxo de eventos ou uma tabela KQL:

Para fluxos de eventos:

  • Consulte as propriedades e o perfil de dados do fluxo
  • Defina alertas usando o Fabric Activator para ativar ações quando ocorrerem condições específicas
  • Crie atalhos caso o eventstream envie dados para um lakehouse.

Para tabelas KQL:

  • Consulte os dados diretamente usando um conjunto de consultas KQL para análise em tempo real
  • Crie visualizações em dashboards Real-Time
  • Definir alertas sobre os resultados das consultas

Também podes criar um novo fluxo de eventos a partir dos dados que encontrares, para poderes transformá-los e pousá-los conforme necessário. Esta abordagem permite-lhe adicionar a sua própria lógica de negócio e transformações sem modificar o fluxo original.

Os dados em tempo real podem fluir para lakehouses através de fluxos de eventos, criando uma ponte entre o streaming e as análises em batch. Esta arquitetura permite-lhe construir relatórios que combinam dados em tempo real e históricos.

Adicionar novas fontes de streaming

Enquanto a página de dados de streaming ajuda a descobrir fluxos existentes, Real-Time hub também oferece a experiência de adicionar dados para ligar novas fontes externas. Esta opção é útil quando precisas de trazer dados que ainda não existem no Fabric.

Selecionar Adicionar dados aos conectores de acesso para:

  • Fontes Microsoft: Azure Event Hubs, Azure IoT Hub, bases de dados CDC feeds
  • Eventos Fabric: Alterações nos itens do espaço de trabalho, operações de ficheiros OneLake
  • Azure events: Azure Blob Storage events
  • Fontes externas: Apache Kafka, Amazon Kinesis, Google Cloud Pub/Sub

Observação

Ligar e transformar novas fontes de streaming envolve uma configuração mais avançada do que a abordada neste módulo. Para mais informações sobre como trabalhar com eventstreams, consulte a Visão Geral dos eventstreams do Microsoft Fabric.