Fluxos de dados de streaming (versão prévia)

2024-10-07

As organizações querem trabalhar com os dados conforme eles surgem, não depois de dias ou semanas. A visão do Power BI é simples: as distinções atuais entre lote, tempo real e streaming desaparecerão. Os usuários devem ser capazes de trabalhar com todos os dados assim que eles estiverem disponíveis. Os analistas normalmente precisam de ajuda técnica para lidar com as fontes de dados de streaming, com a preparação de dados, com operações complexas baseadas em tempo e com a visualização de dados em tempo real. Os departamentos de TI geralmente contam com sistemas personalizados e com uma combinação de tecnologias de vários fornecedores para executar análises sobre os dados em tempo hábil. Sem essa complexidade, eles não são capazes de fornecer aos tomadores de decisão informações quase em tempo real.

Os fluxos de dados de streaming permitem que os autores se conectem, ingiram, combinem, modelem e criem relatórios com base em streaming, dados quase em tempo real diretamente no serviço do Power BI. O serviço habilita as experiências de arrastar e soltar, sem código. Se você precisar, pode misturar e combinar dados de streaming com dados de lote por meio de uma interface de usuário (UI) que inclui um exibição de diagrama para combinar os dados facilmente. O item final produzido é um fluxo de dados, que pode ser consumido em tempo real para criar relatórios altamente interativos, praticamente em tempo real. Todos os recursos de visualização de dados no Power BI funcionam com dados de streaming, assim como fazem com dados do lote.

Importante

Os fluxos de dados de streaming foram desativados e não estão mais disponíveis. O Azure Stream Analytics incorporou a funcionalidade de fluxos de dados de streaming. Para obter mais informações sobre a desativação dos fluxos de dados de streaming, confira o comunicado de desativação. Diagrama mostrando um exemplo de streaming misto e dados em lote em um fluxo de trabalho simples que cria relatórios em tempo real no Power BI. Os usuários podem executar operações de preparação de dados, como junções e filtros. Eles também podem executar agregações de janela de tempo (como em cascata, salto e janelas de sessão) para operações ordenadas por grupo. Os fluxos de dados de streaming do Power BI permitem que as organizações:

Tomem decisões confiantes quase em tempo real. As organizações podem ser mais ágeis e realizem ações significativas com base nos insights mais atualizados.
Democratizem os dados de streaming. As organizações podem tornar os dados mais acessíveis e fáceis de interpretar com uma solução sem código, além de essa acessibilidade reduzir os recursos de TI.
Acelere o tempo de insights usando uma solução de análise de streaming de ponta a ponta com armazenamento de dados integrados e business intelligence.

Os fluxos de dados de streaming são compatíveis com o DirectQuery e com a detecção automática de atualização/mudança de página. Esse suporte permite que os usuários criem relatórios que são atualizados quase em tempo real, até mesmo a cada segundo, usando qualquer visual disponível no Power BI.

Requisitos

Antes de criar seu primeiro fluxo de transmissão de streaming, confirme se atende a todos os requisitos a seguir:

Para criar e executar um fluxo de dados de streaming, você precisa de um workspace que faça parte de uma licença de capacidade Premium ou PPU (Premium por Usuário) .

Importante

Se você estiver usando uma licença do PPU e quiser que outros usuários consumam relatórios criados com fluxos de dados de streaming que são atualizados em tempo real, eles também precisarão de uma licença do PPU. Em seguida, eles podem consumir os relatórios com a mesma frequência de atualização que você configurou, se essa atualização for mais rápida do que a cada 30 minutos.
Habilite fluxos de dados para o seu locatário. Para saber mais, confira Habilitar os fluxos de dados do Power BI Premium.
Para garantir que os fluxos de dados de streaming funcionem em sua capacidade Premium, o mecanismo de computação aprimorada precisa ser ativado. O mecanismo é ativado por padrão, mas os administradores de capacidade do Power BI podem desativá-lo. Se necessário, entre em contato com o administrador para ativá-lo.

O mecanismo de computação aprimorado está disponível apenas em Embedded A3, Premium P e capacidades maiores. Para usar fluxos de dados de streaming, você precisa de PPU, uma capacidade Premium P de qualquer tamanho ou uma Embedded A3, ou uma capacidade maior. Para obter mais informações sobre SKUs Premium e suas especificações, confira Capacidade e SKUs na análise integrada do Power BI.
Para criar relatórios que são atualizados em tempo real, verifique se seu administrador (capacidade ou Power BI para PPU) habilitou a atualização de página automática. Além disso, verifique se o administrador permitiu um intervalo de atualização mínimo que corresponda às suas necessidades. Para obter mais informações, confira Atualização automática de página no Power BI.

Criar um fluxo de dados de streaming

Um fluxo de dados de streaming, como seu relativo de fluxo de dados, é uma coleção de entidades (tabelas) criadas e gerenciadas em workspaces no serviço do Power BI. Uma tabela é um conjunto de campos usados para armazenar dados de maneira semelhante a uma tabela em um banco de dados.

É possível adicionar e editar tabelas no fluxo de dados de streaming diretamente no workspace em que o fluxo de dados foi criado. A principal diferença com fluxos de dados regulares é que você não precisa se preocupar com atualizações ou frequência. Devido à natureza dos dados de streaming, há um fluxo contínuo de entrada. A atualização é constante ou infinita, a menos que você a interrompa.

Observação

Você só pode ter um tipo de fluxo de dados por workspace. Se você já tiver um fluxo de dados regular em seu workspace Premium, não poderá criar um fluxo de dados de streaming (e vice-versa).

Para criar um fluxo de dados de streaming:

Abra o serviço do Power BI em um navegador e, em seguida, selecione um espaço de trabalho habilitado para Premium. (Os fluxos de dados de streaming, como os fluxos de dados regulares, não ficam disponíveis no Meu Workspace.)
Selecione o menu suspenso Novo e escolha Fluxo de dados de streaming.
No painel lateral que é aberto, você deve nomear o fluxo de dados de streaming. Insira um nome na caixa Nome (1) e, em seguida, selecione Criar (2).

A exibição de diagrama vazio para fluxos de dados de streaming é exibida.

A captura de tela a seguir mostra um fluxo de dados concluído. Ele realça todas as seções disponíveis para a criação na interface do usuário do fluxo de dados de streaming.

Faixa de Opções: na faixa de opções, as seções seguem a ordem de um processo de análise “clássico”: entradas (também conhecidas como fontes de dados), transformações (operações de ETL de streaming), saídas e um botão para salvar seu progresso.
Exibição de diagrama: este modo de exibição é uma representação gráfica do fluxo de dados, de entradas para operações e para saídas.
Painel lateral: dependendo de qual componente você selecionar na exibição de diagrama, você terá configurações para modificar cada entrada, transformação ou saída.
Guias para visualização de dados, erros de criação e erros de runtime: para cada cartão mostrado, a visualização de dados mostra os resultados dessa etapa (ao vivo para entradas e sob demanda para transformações e saídas).

Esta seção também resume todos os erros de criação ou os avisos que você poderá ter em seus fluxos de dados. Selecionar cada erro ou aviso seleciona essa transformação. Além disso, você terá acesso a erros de runtime depois que o fluxo de dados for executado, como mensagens descartadas.

Você sempre pode minimizar esta seção de fluxos de dados de streaming selecionando a seta no canto superior direito.

Um fluxo de dados de streaming é criado em três componentes principais: entradas de streaming, transformações e saídas. Você pode ter quantos componentes quiser, incluindo várias entradas, ramificações paralelas com várias transformações e várias saídas.

Adicionar uma entrada de streaming

Para adicionar uma entrada de streaming, selecione o ícone na faixa de opções e forneça as informações necessárias no painel lateral para defini-la. A partir de julho de 2021, a versão prévia dos fluxos de dados de streaming dá suporte aos Hubs de Eventos do Azure e ao Hub IoT do Azure como entradas.

Os serviços Hubs de Eventos do Azure e Hub IoT do Azure foram criados em uma arquitetura comum para facilitar a ingestão e o consumo de eventos rápidos e escalonáveis. Em particular, o Hub IoT é ajustado para comunicações bidirecionais entre um aplicativo de IoT e os dispositivos anexados a eles.

Hubs de eventos do Azure

Os Hubs de Eventos do Azure são uma plataforma de streaming de Big Data e um serviço de ingestão de eventos. Ele pode receber e processar milhões de eventos por segundo. Os dados enviados para um hub de eventos podem ser transformados e armazenados usando qualquer provedor de análise em tempo real ou você pode usar adaptadores de envio em lote ou armazenamento.

Para configurar um hub de eventos como uma entrada para fluxos de dados de streaming, selecione o ícone Hub de Eventos. Um cartão aparece no modo de exibição de diagrama, incluindo um painel lateral para sua configuração.

Captura de tela que mostra o cartão do hub de eventos e o painel de configuração na exibição de diagrama.

Você tem a opção de colar a cadeia de conexão dos Hubs de Eventos do Azure. Fluxos de dados de streaming preenchem todas as informações necessárias, incluindo o grupo de consumidores opcional (que, por padrão, é $Default). Se você quiser inserir todos os campos manualmente, poderá habilitar a alternância de entrada manual para exibi-los. Para saber mais, consulte Obter uma cadeia de conexão dos Hubs de Eventos.

Depois de configurar suas credenciais dos Hubs de Eventos e selecionar Conectar, você poderá adicionar campos manualmente usando + Adicionar campo se souber os nomes de campo. Em vez disso, você pode detectar campos e tipos de dados automaticamente com base em uma amostra das mensagens de entrada, selecione Campos de detecção automática. Selecionar o ícone de engrenagem permite editar as credenciais, se necessário.

Captura de tela que mostra as opções de dados de entrada, a Data de entrada é selecionada com a dica de ferramenta de mais opções exibida.

Quando os fluxos de dados de streaming detectam os campos, você pode vê-los na lista. Há também uma visualização ao vivo das mensagens de entrada na tabela Pré-visualização de dados na exibição de diagrama.

Você sempre pode editar os nomes de campo, remover ou alterar o tipo de dados selecionando mais opções (...) ao lado de cada campo. Você também pode expandir, selecionar e editar todos os campos aninhados das mensagens de entrada, conforme mostrado na imagem a seguir.

Captura de tela que mostra as opções de remoção, renomeação e tipo de dados para dados de entrada.

Hub IoT do Azure

O Hub IoT é um serviço gerenciado hospedado na nuvem. Ele atua como um hub de mensagens central para comunicações bidirecionais entre um aplicativo de IoT e os dispositivos anexados a eles. Você pode conectar milhões de dispositivos e suas soluções de back-end de maneira confiável e segura. Quase todos os dispositivos podem ser conectados a um hub IoT.

A configuração do Hub IoT é semelhante à configuração dos Hubs de Eventos devido à sua arquitetura em comum. Mas há algumas diferenças, incluindo onde encontrar a cadeia de conexão compatível com os Hubs de Eventos para o ponto de extremidade integrado. Para saber mais, confira Ler mensagens dispositivo para nuvem do ponto de extremidade interno.

Captura de tela que mostra o cartão do Hub IOT e o painel de configuração na exibição de diagrama

Depois de colar a cadeia de conexão para o ponto de extremidade interno, todas as funcionalidades para selecionar, adicionar, detectar automaticamente e editar campos provenientes do Hub IoT são as mesmas que nos Hubs de Eventos. Você também pode editar as credenciais selecionando o ícone de engrenagem.

Dica

Se você tiver acesso aos Hubs de Eventos ou ao Hub IoT no portal do Azure da sua organização e quiser usá-lo como uma entrada para o fluxo de dados de streaming, poderá encontrar as cadeias de conexão nos seguintes locais:

Para Hubs de Eventos:

Na seção Análise, selecione os Serviços>Hubs de Eventos.
Selecione Namespace de Hubs de Eventos>Entidades/Hubs de Eventos e, em seguida, selecione o nome do hub de eventos.
Na lista Políticas de Acesso Compartilhado, selecione uma política.
Selecione Copiar para a área de transferência ao lado do campo Chave primária da cadeia de conexão.

Para o Hub IoT:

Na seção Internet das Coisas, selecione Todos os Serviços>Hubs IoT.
Selecione o hub IoT ao que você deseja se conectar e, em seguida, selecione Pontos de extremidade internos.
Selecione Copiar para a área de transferência ao lado do ponto de extremidade compatível com os Hubs de Eventos.

Ao usar os dados de stream provenientes de Hubs de Eventos ou de um Hub IoT, você poderá acessar alguns campos de metadados em seu fluxo de dados de streaming:

EventProcessedUtcTime: a data e a hora em que o evento foi processado.
EventEnqueuedUtcTime: a data e a hora em que o evento foi recebido.

Nenhum desses campos aparece na pré-visualização de entrada. Você precisará adicioná-los manualmente.

Armazenamento de blob

O Armazenamento de Blobs do Azure é uma solução de armazenamento de objetos da Microsoft para a nuvem. O armazenamento de Blobs é otimizado para armazenar grandes quantidades de dados não estruturados. Dados não estruturados são dados que não estão de acordo com uma definição ou um modelo de dados específico, como texto ou dados binários.

Você pode usar blobs do Azure como uma entrada de streaming/ ou eferência. Os blobs de streaming são verificados a cada segundo para obter atualizações. Ao contrário de um Blob de streaming, um Blob de referência só é carregado no início da atualização. São dados estáticos que não devem ser alterados e o limite recomendado para dados estáticos é de 50 MB ou menos.

O Power BI espera que os blobs de referência sejam usados junto com fontes de streaming, por exemplo, por meio de um JOIN. Portanto, um fluxo de dados de streaming com um blob de referência também deve ter uma fonte de streaming.

A configuração para Blobs do Azure é ligeiramente diferente da configuração de um nó do Hubs de Eventos do Azure. Para localizar a cadeia de conexão do Blob do Azure, confira Exibir chaves de acesso da conta.

Captura de tela que mostra o cartão do Blob de streaming e o painel de configuração na exibição de diagrama

Depois de inserir a cadeia de conexão do Blob, você precisa fornecer o nome do contêiner. Também precisa inserir o padrão de caminho em seu diretório para acessar os arquivos que deseja definir como fonte para seu fluxo de dados.

Para blobs de streaming, espera-se que o padrão de caminho de diretório seja um valor dinâmico. A data deve fazer parte do caminho do arquivo para o blob – referenciado como {date}. Além disso, não haverá suporte para um asterisco (*) no padrão de caminho, como {date}/{time}/*.json, não é compatível.

Por exemplo, se você tiver um blob chamado ExampleContainer no qual você está armazenando arquivos .json aninhado, em que o primeiro nível é a data de criação e o segundo nível é a hora de criação (aaaa-mm-dd/hh), então sua entrada de contêiner seria "ExampleContainer". O padrão Caminho do diretório seria "{date}/{time}" onde você poderia modificar o padrão de data e hora.

Captura de tela que mostra as caixas de entrada do blob de fluxo usadas para configurar o contêiner de exemplo.

Depois que o Blob é conectado ao ponto de extremidade, todas as funcionalidades para selecionar, adicionar, detectar automaticamente e editar campos provenientes do Blob do Azure são as mesmas que nos Hubs de Eventos. Você também pode editar as credenciais selecionando o ícone de engrenagem.

Muitas vezes, ao trabalhar com dados em tempo real, os dados são condensados e os identificadores são usados para representar o objeto. Um possível caso de uso para blobs também pode ser como dados de referência para suas fontes de streaming. Os dados de referência permitem que você junte dados estáticos a dados de streaming a fim de enriquecer seus fluxos para análise. Um exemplo rápido de quando esse recurso seria útil seria se você estivesse instalando sensores em diferentes lojas de departamento para medir quantas pessoas estão entrando na loja em um determinado momento. Normalmente, a ID do sensor precisa ser unida a uma tabela estática para indicar em qual repositório de departamentos e em qual local o sensor está localizado. Agora, com os dados de referência, é possível unir esses dados durante a fase de ingestão para facilitar a visualização de qual repositório tem a maior saída de usuários.

Observação

Um trabalho dos Fluxo de Dados de Streaming extrai dados de entrada do armazenamento de Blobs do Azure ou ADLS Gen2 cada segundo se o arquivo de blob estiver disponível. Se o arquivo de blob não estiver disponível, não há uma retirada exponencial com um atraso de tempo máximo de 90 segundos.

Tipos de dados

Os tipos de dados disponíveis para os campos dos fluxos de dados de streaming incluem:

DateTime: campo de data e hora no formato ISO
Float: número decimal
Int: número inteiro
Registro: objeto aninhado com vários registros
Cadeia de caracteres: texto

Importante

Os tipos de dados selecionados para uma entrada de streaming têm implicações importantes no downstream do seu fluxo de dados de streaming. Selecione o tipo de dados o mais cedo possível em seu fluxo de dados para evitar ter que interrompê-lo posteriormente para edições.

Adicionar uma transformação aos dados de streaming

As transformações de dados de streaming são inerentemente diferentes das transformações de dados em lote. Quase todos os dados de streaming têm um componente de tempo que afeta todas as tarefas de preparação de dados envolvidas.

Para adicionar uma transformação de dados de streaming ao seu fluxo de dados, selecione o ícone de transformação na faixa de opções para essa transformação. O respectivo cartão aparece na exibição de diagrama. Depois de selecioná-lo, você verá o painel lateral dessa transformação para configurá-lo.

Desde julho de 2021, os fluxos de dados de streaming dão suporte às seguintes transformações de streaming.

Filtrar

Use a transformação de Filtro para filtrar eventos com base no valor de um campo na entrada. Dependendo do tipo de dados (número ou texto), a transformação mantém os valores que correspondem à condição selecionada.

Captura de tela que mostra as caixas de entrada do Filtro usadas para configurar o contêiner de exemplo.

Observação

Dentro de cada cartão, você verá informações sobre o que mais será necessário para que a transformação esteja pronta. Por exemplo, ao adicionar um novo cartão, você verá uma mensagem de “Configuração necessária”. Se não tiver um conector de nó, você verá uma mensagem de “Erro” ou de “Aviso”.

Gerenciar campos

A transformação Gerenciar campos permite adicionar, remover ou renomear campos provenientes de uma entrada ou outra transformação. As configurações do painel lateral oferecem a opção de adicionar um novo selecionando Adicionar campo ou adicionando todos os campos de uma só vez.

Captura de tela que mostra a configuração da transformação de Gerenciar campos.

Dica

Depois de configurar um cartão, o modo de exibição de diagrama oferece uma visão das configurações no próprio cartão. Por exemplo, na área Gerenciar campos da imagem anterior, você pode ver os três primeiros campos sendo gerenciados e os novos nomes atribuídos a eles. Cada cartão tem informações relevantes a eles.

Agregado

Você pode usar a transformação de Agregação para calcular uma agregação (Soma, Mínimo, Máximo ou Média) sempre que um novo evento ocorre por um período de tempo. Essa operação também permite filtrar ou segmentar a agregação com base em outras dimensões em seus dados. Você pode ter uma ou mais agregações na mesma transformação.

Para adicionar uma agregação, clique no ícone de transformação. Em seguida, conecte uma entrada, selecione as agregações, adicione as dimensões de filtro ou fatia e escolha o período de tempo em que deseja calcular a agregação. Este exemplo calcula a soma do valor de tarifa pelo estado de origem do veículo dos últimos 10 segundos.

Captura de tela de um cartão agregado com uma função agregada existente. O painel agregado mostra os detalhes do cálculo.

Para adicionar outra agregação à mesma transformação, selecione Adicionar função de agregação. Tenha em mente que o filtro ou fatia se aplica a todas as agregações na transformação.

Join

Use a transformação de Junção para combinar eventos de duas entradas com base nos pares de campos que você selecionou. Se você não selecionar um par de campos, a junção será baseada no tempo por padrão. O padrão é o que torna essa transformação diferente da de um lote.

Como com as junções regulares, você tem opções diferentes para a lógica de junção:

Junção interna: inclua somente registros de ambas as tabelas nas quais o par corresponde. Neste exemplo, é onde a placa de licença corresponde às duas entradas.
Junção externa esquerda: inclua todos os registros da tabela esquerda (primeiro) e somente os registros do segundo que correspondam ao par de campos. Se não houver correspondência, os campos da segunda entrada ficam em branco.

Para selecionar o tipo de junção, selecione o ícone do tipo preferencial no painel lateral.

Por fim, selecione em que período de tempo você deseja que a junção seja calculada. Neste exemplo, a junção examina os últimos dez segundos. Tenha em mente que, quanto mais tempo, a saída é menos frequente – e mais recursos de processamento serão usados para a transformação.

Por padrão, todos os campos de ambas as tabelas são incluídos. Os prefixos à esquerda (primeiro nó) e à direita (segundo nó) na saída ajudam você a diferenciar a fonte.

Captura de tela do hub de eventos e dos cartões de ingresso com o painel de configuração de junção aberto.

Agrupar por

Use a transformação de Agrupar por para calcular as agregações em todos os eventos dentro de uma determinada janela de tempo. Você pode agrupar pelos valores em um ou mais campos. É semelhante à transformação de Agregação, mas fornece mais opções para agregações. Ele também inclui opções de janela de tempo mais complexas. Também semelhante à Agregação, você pode adicionar mais de uma agregação por transformação.

As agregações disponíveis nessa transformação são: Média, Contagem, Máximo, Mínimo, Percentual (contínua e discreta), Desvio Padrão, Soma e Variação.

Para configurar essa transformação:

Selecione a agregação preferida.
Escolha o campo no qual você deseja agregar.
Selecione um campo agrupar por opcional se quiser obter o cálculo agregado sobre outra dimensão ou categoria (por exemplo, Estado).
Escolha sua função para janelas de tempo.

Para adicionar outra agregação à mesma transformação, selecione Adicionar função de agregação. Tenha em mente o campo Agrupar por e a função de janela se aplicam a todas as agregações na transformação.

Captura de tela da opção Agrupar por cartão com o painel de configuração aberto.

Um carimbo de data/hora para o fim do tempo da janela de tempo é fornecido como parte da saída da transformação para referência.

Uma seção mais adiante neste artigo explica cada tipo de janela de tempo disponível para essa transformação.

Union

Use a transformação União para conectar duas ou mais entradas para adicionar eventos com campos compartilhados (com o mesmo nome e tipo de dados) em uma tabela. Os campos que não correspondem serão removidos e não incluídos na saída.

Configurar funções de janela de tempo de atividade

As janelas de tempo são um dos conceitos mais complexos no streaming de dados. Este conceito está no centro das análises de streaming.

Com fluxos de dados de streaming, você pode configurar janelas de tempo de atividade quando estiver agregando um dado como uma opção para a transformação Agrupar por.

Observação

Tenha em mente que todos os resultados de saída de operações de janela são calculados no final da janela de tempo. A saída da janela será um evento único baseado na função agregada. O evento de saída terá o carimbo de data/hora do término da janela e todas as funções de janela serão definidas com um comprimento fixo.

Diagrama que mostra três janelas de tempo em um grafo.

Há cinco tipos de tempo que as janelas podem escolher: em cascata, salto, deslizante, sessão e instantâneo.

Janela em Cascata

Em cascata é o tipo mais comum de janela de tempo. As principais características das janelas em cascata são que elas se repetem, têm o mesmo comprimento de tempo e não se sobrepõem. Um evento não pode pertencer a mais de uma janela em cascata.

Diagrama que mostra uma janela em cascata de 10 segundos.

Ao configurar uma janela em cascata em fluxos de transmissão de fluxo de mídia, você precisa fornecer a duração da janela (o mesmo para todas as janelas nesse caso). Você também pode fornecer um deslocamento opcional. Por padrão, as janelas em cascata incluem o final da janela e excluem o início. Você pode usar esse parâmetro para alterar esse comportamento e incluir os eventos no início da janela e excluir aqueles que ocorreram no final.

Captura de tela que mostra as configurações de duração e deslocamento de uma janela de tempo em cascata.

Janela de Salto

As janelas de salto "saltam" adiante no tempo por um período fixo. Você pode imaginá-las como janelas em cascata que podem se sobrepor e ser emitidas com mais frequência do que o tamanho da janela. Os eventos podem pertencer a mais de um conjunto de resultados da janela de salto. Para criar uma janela de salto da mesma forma que uma Janela em cascata, basta especificar o tamanho do salto para ser do mesmo tamanho da janela.

Diagrama que mostra uma janela de salto de 10 segundos.

Ao configurar uma janela de salto em fluxos de transmissão de fluxo de mídia, você precisa fornecer a duração da janela (o mesmo que com as janelas em cascata). Você também precisa fornecer o tamanho do salto, que informa ao fluxo de transmissão com que frequência você deseja que a agregação seja calculada para a duração definida.

O parâmetro offset também está disponível em janelas de salto pelo mesmo motivo que em janelas em cascata. O parâmetro define a lógica para incluir e excluir eventos do início e do fim da janela de salto.

Captura de tela que mostra as configurações de tamanho de salto, duração e deslocamento de uma janela de tempo de salto.

Janela Deslizante

Janelas deslizantes, ao contrário das janelas em cascata ou de salto, calculam a agregação somente para pontos no tempo em que o conteúdo da janela realmente muda. Quando um evento entra ou sai da janela, a agregação é calculada. Portanto, cada janela tem pelo menos um evento. Como nas janelas de salto, os eventos podem pertencer a mais de uma janela deslizante.

Diagrama que mostra uma janela deslizante de 10 segundos.

O único parâmetro de que você precisa para uma janela deslizante é a duração, uma vez que os próprios eventos definem quando a janela é iniciada. Nenhuma lógica de deslocamento é necessária.

Captura de tela que mostra a configuração de duração de uma janela de tempo deslizante.

Janela de sessão

As janelas de sessão são o tipo mais complexo. Elas agrupam os eventos que chegam em momentos semelhantes, ao filtrar períodos de tempo em que não há nenhum dado. Para esta janela, é necessário fornecer:

Um tempo limite: quanto tempo esperar se não houver dados novos.
Duração máxima: a hora mais longa em que a agregação calcula se os dados forem recebidos.

Você também pode definir uma partição, se desejar.

Diagrama que mostra as janelas de sessão com um tempo limite de cinco minutos.

Você configura uma janela de sessão diretamente no painel lateral da transformação. Se você fornecer a partição, a agregação só agrupará eventos para a mesma chave.

Captura de tela que mostra a duração, o tempo limite e as configurações de partição para uma janela de tempo de sessão.

Janela de instantâneo

Janelas de instantâneos agrupam eventos que têm o mesmo carimbo de data/hora. Ao contrário de outras janelas, um instantâneo não requer parâmetros porque ele usa a hora do sistema.

Diagrama que mostra uma janela de instantâneo em uma linha do tempo de 35 minutos.

Definir saídas

Depois de configurar as entradas e transformações, é hora de definir uma ou mais saídas. Desde julho de 2021m os fluxos de dados de streaming oferecem suporte a tabelas do Power BI como o único tipo de saída.

Essa saída é uma tabela de fluxo de dados (ou seja, uma entidade) que você pode usar para criar relatórios no Power BI Desktop. Você também precisa unir os nós da etapa anterior com a saída que você está criando para fazer isso funcionar. Depois disso, nomeie a tabela.

Captura de tela que mostra o cartão da tabela de saída e o painel de configuração da tabela de saída.

Depois que você se conectar ao fluxo de dados, essa tabela estará disponível para que você crie visuais que são atualizados em tempo real para seus relatórios.

Visualização de dados e erros

Os fluxos de dados de streaming fornecem ferramentas para ajudá-lo a criar, solucionar problemas e avaliar o desempenho do pipeline de análise para dados de streaming.

Visualização dos dados ao vivo para entradas

Quando você está se conectando a um hub de eventos ou Hub IoT e selecionando seu cartão no modo de exibição de diagrama (a guia Visualização de dados), obtém uma visualização dinâmica dos dados recebidos se todos os itens a seguir forem verdadeiros:

Os dados estão sendo carregados.
A entrada é configurada corretamente.
Os campos foram adicionados.

Conforme mostrado na captura de tela a seguir, se você quiser ver ou fazer uma busca detalhada em algo específico, poderá pausar a pré-visualização (1). Ou você pode iniciá-la novamente se tiver terminado.

Você também pode ver os detalhes de um registro específico (uma "célula" na tabela) selecionando-o e selecionando Mostrar detalhes ou Ocultar detalhes (2). A captura de tela mostra a exibição detalhada de um objeto aninhado em um registro.

Captura de tela que mostra uma visualização de dados ao vivo com as opções de pausar e mostrar ou ocultar realçadas.

Visualização estática para transformações e saídas

Depois de adicionar e configurar as etapas no modo de exibição de diagrama, você pode testar o comportamento selecionando o botão de dados estáticos.

Depois de fazer isso, os fluxos de mídia de streaming avaliam todas as transformações e saídas configuradas corretamente. Os fluxos de dados de streaming exibem os resultados na visualização de dados estáticos, conforme mostrado na imagem a seguir.

Captura de tela que mostra uma pré-visualização de dados estáticos com as opções atualizar e ocultar realçadas.

Você pode atualizar a visualização selecionando Atualizar pré-visualização estática (1). Quando você faz isso, os fluxos de dados de streaming obtêm novos dados da entrada e avaliam todas as transformações e saídas novamente com as atualizações que você pode executar. A opção Mostrar ou Ocultar detalhes também está disponível (2).

Erros de criação

Se você tiver erros ou avisos de criação, a guia Erros de criação (1) os listará, conforme mostrado na captura de tela a seguir. A lista inclui detalhes do erro ou aviso, o tipo de cartão (entrada, transformação ou saída), o nível de erro e uma descrição do erro ou aviso (2). Quando você selecionar qualquer um dos erros ou avisos, o respectivo cartão é selecionado e o painel ao lado da configuração é aberto para que você faça as alterações necessárias.

Erros em runtime

A última guia disponível na visualização são \Erros de runtime (1), conforme mostrado na captura de tela a seguir. Essa guia lista todos os erros no processo de ingestão e análise do fluxo de dados de streaming depois de iniciá-lo. Por exemplo, você poderá obter um erro de tempo de execução se uma mensagem tiver sido corrompida e o fluxo de mensagens não puder ingerir e executar as transformações definidas.

Como os fluxos de dados podem ser executados por um longo período de tempo, essa guia oferece a opção de filtrar por intervalo de tempo e para baixar a lista de erros e atualizá-la se necessário (2).

Captura de tela que mostra a guia para erros de tempo de execução, juntamente com opções para filtragem, download e atualização.

Modificar configurações para fluxos de dados de streaming

Assim como acontece com os fluxos de dados regulares, as configurações de fluxo de dados de streaming podem ser modificadas dependendo das necessidades dos proprietários e dos autores. As configurações a seguir são exclusivas para fluxos de dados de streaming. Para o restante das configurações, por causa da infraestrutura de compartilhamento entre os dois tipos de fluxo de dados, você pode assumir que o uso é o mesmo.

Captura de tela que mostra as configurações de um fluxo de dados de streaming.

Histórico de atualização: como fluxos de dados de streaming são executados continuamente, o histórico de atualização mostra apenas informações sobre quando o fluxo de dados é iniciado, cancelado ou falha (com detalhes e códigos de erro quando aplicável). Essas informações são semelhantes ao que aparece para fluxos de dados regulares. Você pode usar essas informações para solucionar problemas ou para fornecer suporte Power BI com os detalhes solicitados.
Credenciais da fonte de dados: ela mostra as entradas que foram configuradas para o fluxo de dados de streaming específico.
Configurações avançadas do mecanismo de computação: os fluxos de dados de streaming precisam do mecanismo de computação aprimorada para fornecer visuais em tempo real, de modo que essa configuração seja ativada por padrão e não possa ser alterada.
Duração da retenção: essa configuração é específica para os fluxos de dados de streaming. Aqui você pode definir por quanto tempo deseja manter os dados em tempo real para visualizar os relatórios. Os dados históricos são salvos por padrão no Armazenamento de Blobs do Azure. Essa configuração é específica para o lado em tempo real dos seus dados (camada de armazenamento frequente). O valor mínimo é de 1 dia ou 24 horas.

Importante

A quantidade de dados de acesso frequente armazenados por essa duração de retenção influencia diretamente o desempenho de seus visuais em tempo real quando você cria relatórios sobre esses dados. Quanto mais retenção você tiver aqui, mais seus visuais em tempo real em relatórios podem ser afetados pelo baixo desempenho. Se você precisar executar a análise histórica, você deve usar o armazenamento frio fornecido para streaming de fluxo de dados.

Executar e editar um fluxo de dados de streaming

Depois de salvar e configurar o fluxo de dados de streaming, tudo estará pronto para que você o execute. Em seguida, você pode começar a ingerir dados do Power BI com a lógica de análise de streaming que você definiu.

Executar o fluxo de dados de streaming

Para iniciar o fluxo de dados de streaming, primeiro salve o fluxo de dados e vá para o workspace no qual você o criou. Passe o mouse sobre o fluxo de dados de streaming e selecione o botão reproduzir que será exibido. Uma mensagem pop-up informa que o fluxo de dados de streaming está sendo iniciado.

Captura de tela que mostra o botão reproduzir para iniciar um fluxo de dados de streaming.

Observação

Pode levar até cinco minutos para que os dados comecem a ser ingeridos e para que você veja os dados que chegam para criar relatórios e painéis no Power BI Desktop.

Editar o fluxo de dados de streaming

Enquanto um fluxo de dados de streaming está em execução, ele não pode ser editado. Mas você pode entrar em um fluxo de dados de streaming que está em um estado de execução e ver a lógica de análise na qual o fluxo de dados é criado.

Quando você entrar em um fluxo de dados de streaming em execução, todas as opções de edição estarão desabilitadas e uma mensagem será exibida: “o fluxo de dados não pode ser editado enquanto estiver em execução. Pare o fluxo de dados se você quiser continuar." A visualização de dados também está desabilitada.

Para editar seu fluxo de dados de streaming, você deve pará-lo. Um fluxo de dados interrompido resulta em dados ausentes.

A única experiência disponível durante a execução de um fluxo de dados de streaming é a guia Erros de runtime, em que os usuários podem monitorar o comportamento do seu fluxo de dados para qualquer mensagem descartada e situações semelhantes.

Captura de tela que mostra a visualização de dados desabilitada quando um fluxo de dados de streaming está em execução.

Considere o armazenamento de dados ao editar seu fluxo de dados

Ao editar um fluxo de dados, você precisa ter em conta outras considerações. Tal como para qualquer alteração no esquema feita em fluxos de dados regulares, se você fizer alterações em uma tabela de saída, perderá os dados que já foram enviados por push e salvo no Power BI. A interface fornece informações claras sobre as consequências de qualquer uma dessas alterações no fluxo de dados de streaming, juntamente com opções para alterações feitas antes de salvar.

Essa experiência é demonstrada melhor com um exemplo. A captura de tela a seguir mostra a mensagem que você recebe quando adiciona uma coluna a uma tabela, altera o nome de uma segunda tabela e deixa uma terceira como estava antes.

Nesse exemplo, os dados já salvos em ambas as tabelas que tiveram alterações de esquema e nome são excluídos se você salvar as alterações. Para a tabela que permanece a mesma, você obtém a opção de excluir dados antigos e começar do zero ou salvá-los para análise posterior, junto com novos dados que são fornecidos.

Lembre-se dessas nuances ao editar o fluxo de dados de streaming, especialmente se você precisar de dados históricos disponíveis posteriormente para análise posterior.

Consumir um fluxo de dados de streaming

Depois que o fluxo de dados de streaming estiver em execução, você estará pronto para começar a criar conteúdo sobre seus dados de streaming. Não há alterações estruturais em comparação com o que você precisa fazer para criar relatórios que são atualizados em tempo real. Existem algumas nuances e atualizações a considerar para que você possa aproveitar esse novo tipo de preparação de dados para streaming de dados.

Configurar o armazenamento de dados

Como mencionamos anteriormente, os fluxos de dados de streaming salvam os dados nos dois locais a seguir. O uso dessas fontes depende do tipo de análise que você está tentando fazer.

Armazenamento frequente (análise em tempo real): à medida que os dados chegam ao Power BI por meio dos fluxos de dados de streaming, os dados são armazenados em um local quente para você acessar com visuais em tempo real. A quantidade de dados salvas nesse armazenamento depende dos valores que você definiu para a Duração de retenção nas configurações de fluxo de dados de streaming. O padrão (e mínimo) é de 24 horas.
Armazenamento frio (análise histórica) : qualquer período de tempo que não se enquadra no período que você definiu para Duração de retenção é salvo em armazenamento cold (blobs) no Power BI para você consumir, se necessário.

Observação

Há sobreposição entre esses dois locais de armazenamento de dados. Se você precisar usar ambos os locais em conjunto (por exemplo, alteração de percentual dia a dia), talvez seja necessário duplicar seus registros. Isso depende dos cálculos de inteligência de tempo que você está fazendo e da política de retenção.

Conectar-se aos fluxos de dados de streaming por meio do Power BI Desktop

O Power BI Desktop oferece um conector chamado Fluxos de dados para você usar. Como parte desse conector para os fluxos de dados de streaming, você verá duas tabelas que corresponderão ao armazenamento de dados descrito anteriormente.

Para se conectar aos seus dados para fluxos de dados de streaming:

Acesse Obter Dados, selecione Power Platform e, em seguida, selecione o conector Fluxos de dados.
Entre com as suas credenciais do Power BI.
Selecione workspaces. Procure aquele que contém o fluxo de dados de streaming e selecione esse fluxo de dados. (Neste exemplo, o fluxo de dados de streaming é chamado de Pedágio.)
Observe que você verá todas as tabelas de saída exibidas duas vezes: uma para os dados de streaming (frequentes) e outra para os dados arquivados (frio). Você pode diferenciá-los pelos rótulos adicionados após os nomes de tabela e pelos ícones.
Conexão aos dados de streaming. O caso de dados arquivados é o mesmo, disponível apenas no modo de importação. Selecione as tabelas que incluem os rótulos Streaming e Frequente e, em seguida, selecione Carregar.
Quando solicitado a escolher um Modo de Armazenamento, selecione DirectQuery se a sua meta for criar visuais em tempo real.

Agora você pode criar visuais, medidas e muito mais, usando os recursos disponíveis no Power BI Desktop.

Observação

O conector de fluxo de dados regular do Power BI está disponível e funcionará com fluxos de dados de streaming com duas advertências:

Ele só permite que você se conecte ao armazenamento quente.
A visualização de dados no conector não funciona com fluxos de dados de streaming.

Ative a atualização automática de página para visuais em tempo real

Depois que o relatório estiver pronto e você tiver adicionado todo o conteúdo que deseja compartilhar, a única etapa que resta é fazer com que seus visuais se atualizem em tempo real. Você pode usar um recurso chamado atualização automática de página. Esse recurso permite que você atualize visuais de uma fonte do DirectQuery com a frequência de um segundo.

Para obter mais informações sobre o recurso, confira Atualização automática de página no Power BI. O artigo inclui informações sobre como usá-lo, como defini-lo e como entrar em contato com seu administrador se você estiver tendo problemas. A seguir estão as noções básicas sobre como configurar:

Vá para a página de relatórios, na qual você deseja que os visuais atualizem em tempo real.
Limpe qualquer visual na página. Se possível, selecione o plano de fundo da página.
Vá para o painel de formato (1) e ative a Atualização de página (2).
Configure a frequência desejada (até cada segundo se o administrador tiver permitido).
Para compartilhar um relatório em tempo real, primeiro publique novamente o serviço do Power BI. Em seguida, você pode configurar suas credenciais de fluxo de dados para o modelo semântico e compartilhar.

Dica

Se o relatório não for atualizado tão rápido quanto você precisar ou em tempo real, verifique a documentação da atualização de página automática. Siga as perguntas frequentes e as instruções de solução de problemas para descobrir por que esse problema pode estar acontecendo.

Considerações e limitações

Limitações gerais

Uma assinatura do Power BI Premium (capacidade ou PPU) é necessária para criar e executar os fluxos de dados de streaming.
Somente um tipo de fluxo de dados é permitido por workspace.
Não é possível vincular fluxos de dados regulares aos de streaming.
Capacidades menores que A3 não permitem o uso de fluxos de dados de streaming.
Se os fluxos de dados ou o mecanismo de cálculo aprimorado não estiver habilitado em um locatário, você não poderá criar ou executar fluxos de dados de streaming.
Não há suporte para workspaces conectados a uma conta de armazenamento.
Cada fluxo de dados de streaming pode fornecer até 1 MB por segundo de taxa de transferência.

Disponibilidade

A pré-visualização dos fluxos de dados de streaming não está disponível nas seguintes regiões:

Índia Central
Norte da Alemanha
Leste da Noruega
Oeste da Noruega
EAU Central
Norte da África do Sul
Oeste da África do Sul
Norte da Suíça
Oeste da Suíça
Sudeste do Brasil

Licenças

O número de fluxos de dados de streaming permitidos por locatário depende da licença que está sendo usada:

Para capacidades regulares, use a fórmula a seguir para calcular o número máximo de fluxos de dados de streaming permitidos em uma capacidade:

Número máximo de fluxos de dados de streaming por capacidade = vCores na capacidade x 5

Por exemplo, P1 tem 8 vCores: 8 * 5 = 40 fluxos de dados de streaming.
Para Premium por Usuário, um fluxo de dados de streaming é permitido por usuário. Se outro usuário quiser consumir um fluxo de dados de streaming em um workspace PPU, ele também precisará de uma licença PPU.

Criação de fluxo de dados

Ao criar fluxos de dados de streaming, esteja atento às seguintes considerações:

O proprietário dos fluxos de dados de streaming só pode fazer modificações se o fluxo de dados não estiver em execução.
Os fluxos de dados de streaming não ficam disponíveis em Meu Workspace.

Conectar-se por meio do Power BI Desktop

O armazenamento frio só pode ser acessado usando o conector Fluxos de dados, disponível a partir da atualização do Power BI Desktop de julho de 2021. O conector de fluxo de dados anterior do Power BI permite apenas conexões com o armazenamento de dados de streaming (frequente). A pré-visualização de dados do conector não funciona.

Este artigo forneceu uma visão geral do autoatendimento da preparação de dados de streaming usando fluxos de dados de streaming. Os artigos a seguir fornecem informações sobre como testar essa funcionalidade e o uso de outros recursos de dados de streaming no Power BI:

Compartilhar via

Fluxos de dados de streaming (versão prévia)

Requisitos

Criar um fluxo de dados de streaming

Adicionar uma entrada de streaming

Hubs de eventos do Azure

Hub IoT do Azure

Armazenamento de blob

Tipos de dados

Adicionar uma transformação aos dados de streaming

Filtrar

Gerenciar campos

Agregado

Join

Agrupar por

Union

Configurar funções de janela de tempo de atividade

Janela em Cascata

Janela de Salto

Janela Deslizante

Janela de sessão

Janela de instantâneo

Definir saídas

Visualização de dados e erros

Visualização dos dados ao vivo para entradas

Visualização estática para transformações e saídas

Erros de criação

Erros em runtime

Modificar configurações para fluxos de dados de streaming

Executar e editar um fluxo de dados de streaming

Executar o fluxo de dados de streaming

Editar o fluxo de dados de streaming

Considere o armazenamento de dados ao editar seu fluxo de dados

Consumir um fluxo de dados de streaming

Configurar o armazenamento de dados

Conectar-se aos fluxos de dados de streaming por meio do Power BI Desktop

Ative a atualização automática de página para visuais em tempo real

Considerações e limitações

Limitações gerais

Disponibilidade

Licenças

Criação de fluxo de dados

Conectar-se por meio do Power BI Desktop

Conteúdo relacionado

Comentários

Recursos adicionais