Partilhar via


Amostragem de linha de alta densidade no Power BI

O algoritmo de amostragem no Power BI melhora os elementos visuais que amostram dados de alta densidade. Por exemplo, você pode criar um gráfico de linhas a partir dos resultados de vendas de suas lojas de varejo, cada loja tem mais de 10.000 recibos de vendas por ano. Um gráfico de linhas dessas informações de vendas faria uma amostra dos dados dos dados de cada loja e criaria um gráfico de linhas multissérie que, assim, representaria os dados subjacentes. Certifique-se de selecionar uma representação significativa desses dados para ilustrar como as vendas variam ao longo do tempo. Essa prática é comum na visualização de dados de alta densidade. Os detalhes da amostragem de dados de alta densidade são descritos neste artigo.

Screenshot of line charts, showing the high-density sampling data.

Nota

O algoritmo de amostragem de alta densidade descrito neste artigo está disponível no Power BI Desktop e no serviço Power BI.

Como funciona a amostragem de linha de alta densidade

Anteriormente, o Power BI selecionava uma coleção de pontos de dados de exemplo em toda a gama de dados subjacentes de forma determinística. Por exemplo, com dados de alta densidade em um visual abrangendo um ano civil, pode haver 350 pontos de dados de amostra exibidos no visual, cada um dos quais foi selecionado para garantir que toda a gama de dados fosse representada no visual. Para ajudar a entender como isso acontece, imagine plotar o preço de uma ação durante um período de um ano e selecionar 365 pontos de dados para criar um gráfico de linhas visual. Isso é um ponto de dados para cada dia.

Nessa situação, há muitos valores para o preço de uma ação dentro de cada dia. Claro, há uma alta e baixa diária, mas isso pode ocorrer a qualquer momento durante o dia, quando o mercado de ações estiver aberto. Para amostragem de linha de alta densidade, se a amostra de dados subjacentes fosse obtida às 10h30 e às 12h00 todos os dias, você obteria um instantâneo representativo dos dados subjacentes, como o preço às 10h30 e às 12h00. No entanto, o instantâneo pode não capturar a alta e a baixa reais do preço da ação para esse ponto de dados representativo naquele dia. Nessa situação e em outras, a amostragem é representativa dos dados subjacentes, mas nem sempre captura pontos importantes, que neste caso seriam altas e baixas diárias do preço das ações.

Por definição, os dados de alta densidade são amostrados para criar visualizações razoavelmente rápidas que respondem à interatividade. Demasiados pontos de dados num visual podem atrapalhá-lo e prejudicar a visibilidade das tendências. Como os dados são amostrados é o que impulsiona a criação do algoritmo de amostragem para fornecer a melhor experiência de visualização. No Power BI Desktop, o algoritmo fornece a melhor combinação de capacidade de resposta, representação e preservação clara de pontos importantes em cada fatia de tempo.

Como funciona o novo algoritmo de amostragem de linha

O algoritmo para amostragem de linhas de alta densidade está disponível para gráficos de linhas e gráficos de área com um eixo x contínuo.

Para um visual de alta densidade, o Power BI divide seus dados de forma inteligente em blocos de alta resolução e, em seguida, seleciona pontos importantes para representar cada bloco. Esse processo de fatiamento de dados de alta resolução é ajustado para garantir que o gráfico resultante seja visualmente indistinguível da renderização de todos os pontos de dados subjacentes, mas seja mais rápido e interativo.

Valores mínimos e máximos para imagens de linha de alta densidade

Para qualquer visualização, aplicam-se as seguintes limitações:

  • 3.500 é o número máximo de pontos de dados exibidos na maioria dos elementos visuais, independentemente do número de pontos de dados subjacentes ou séries, consulte exceções na lista a seguir. Por exemplo, se você tiver 10 séries com 350 pontos de dados cada, o visual atingiu seu limite máximo geral de pontos de dados. Se você tiver uma série, ela pode ter até 3.500 pontos de dados se o algoritmo considerar a melhor amostragem para os dados subjacentes.

  • Há um máximo de 60 séries para qualquer visual. Se tiver mais de 60 séries, divida os dados e crie vários elementos visuais com 60 ou menos séries cada. É uma boa prática usar uma segmentação de dados para mostrar apenas segmentos dos dados, mas apenas para determinadas séries. Por exemplo, se você estiver exibindo todas as subcategorias na legenda, poderá usar uma segmentação de dados para filtrar pela categoria geral na mesma página de relatório.

O número máximo de limites de dados é maior para os seguintes tipos visuais, que são exceções ao limite de 3.500 pontos de dados:

  • Máximo de 150.000 pontos de dados para visuais R.
  • 30.000 pontos de dados para visuais do Mapa do Azure.
  • 10.000 pontos de dados para algumas configurações de gráficos de dispersão (gráficos de dispersão padrão para 3500).
  • 3.500 para todos os outros elementos visuais que utilizam amostragem de alta densidade. Alguns outros elementos visuais podem visualizar mais dados, mas não usarão amostragem.

Esses parâmetros garantem que os elementos visuais no Power BI Desktop sejam renderizados rapidamente, respondam à interação com os usuários e não resultem em sobrecarga computacional indevida no computador que renderiza o visual.

Avalie pontos de dados representativos para visuais de linha de alta densidade

Quando o número de pontos de dados subjacentes excede o máximo de pontos de dados que podem ser representados no visual, um processo chamado binning começa. A vinculação fragmenta os dados subjacentes em grupos chamados compartimentos e, em seguida, refina iterativamente esses compartimentos .

O algoritmo cria o maior número possível de compartimentos para criar a maior granularidade para o visual. Dentro de cada compartimento, o algoritmo encontra o valor mínimo e máximo de dados para garantir que valores importantes e significativos, como valores atípicos, sejam capturados e exibidos no visual. Com base nos resultados da vinculação e na avaliação subsequente dos dados pelo Power BI, a resolução mínima para o eixo x para o visual é determinada para garantir a granularidade máxima para o visual.

Como mencionado anteriormente, a granularidade mínima para cada série é de 350 pontos, e a máxima é de 3.500 para a maioria dos visuais. As exceções são enumeradas nos parágrafos anteriores.

Cada compartimento é representado por dois pontos de dados, que se tornam os pontos de dados representativos do compartimento no visual. Os pontos de dados são o valor alto e baixo para esse compartimento. Ao selecionar o alto e o baixo, o processo de encadernação garante que qualquer valor alto importante ou baixo significativo seja capturado e renderizado no visual.

Se isso soa como muita análise para garantir que o outlier ocasional seja capturado e exibido corretamente no visual, você está correto. Essa é a razão exata para o algoritmo e o processo de binning.

Dicas de ferramentas e amostragem de linha de alta densidade

É importante observar que esse processo de vinculação, que resulta no valor mínimo e máximo em um determinado compartimento sendo capturado e exibido, pode afetar como as dicas de ferramentas exibem dados quando você passa o mouse sobre os pontos de dados. Para explicar como e por que isso ocorre, vamos revisitar nosso exemplo sobre os preços das ações.

Digamos que você está criando um visual com base no preço das ações e está comparando duas ações diferentes, ambas usando amostragem de alta densidade. Os dados subjacentes para cada série têm muitos pontos de dados. Por exemplo, talvez você capture o preço das ações a cada segundo do dia. O algoritmo de amostragem de linha de alta densidade executa binning para cada série independentemente da outra.

Agora digamos que a primeira ação salta de preço às 12:02 e, em seguida, volta rapidamente a cair 10 segundos depois. Esse é um dado importante. Quando ocorre encadernação para esse estoque, a alta às 12:02 é um ponto de dados representativo para esse compartimento.

No entanto, para a segunda ação, 12:02 não foi uma alta nem uma baixa no compartimento que incluiu esse tempo. Talvez o alto e o baixo para o caixote que inclui 12:02 tenha ocorrido três minutos depois. Nessa situação, quando o gráfico de linhas é criado e você passa o mouse sobre 12:02, você verá um valor na dica de ferramenta para o primeiro estoque. Isso ocorre porque ele saltou em 12:02 e esse valor foi selecionado como o ponto de dados alto desse compartimento. No entanto, você não verá nenhum valor na dica de ferramenta às 12:02 para o segundo estoque. Isso porque a segunda ação não teve uma alta ou uma baixa para a lixeira que incluía 12:02. Portanto, não há dados para mostrar para o segundo estoque às 12:02 e, portanto, nenhum dado de dica de ferramenta é exibido.

Esta situação acontecerá frequentemente com dicas de ferramentas. Os valores altos e baixos para um compartimento específico provavelmente não corresponderão perfeitamente aos pontos de valor do eixo x dimensionados uniformemente, e a dica de ferramenta não exibe o valor.

Como ativar a amostragem de linha de alta densidade

Por padrão, o algoritmo é Ativado. Para alterar essa configuração, vá para o painel Formatação, no cartão Geral, e ao longo da parte inferior, você verá o controle deslizante de amostragem de alta densidade. Selecione o controle deslizante para ativar ou desativar.

Screenshot of a high-density line sampling, showing pointers to the Formatting pane, General, and High Density Sampling.

Considerações e limitações

O algoritmo para amostragem de linha de alta densidade é uma melhoria importante para o Power BI, mas há algumas considerações que você precisa saber ao trabalhar com valores e dados de alta densidade.

  • Devido ao aumento da granularidade e do processo de vinculação, as Dicas de Ferramentas só podem mostrar um valor se os dados representativos estiverem alinhados com o cursor. Para obter mais informações, consulte a seção Dicas de ferramentas e amostragem de linha de alta densidade neste artigo.

  • Quando o tamanho de uma fonte de dados geral é muito grande, o algoritmo elimina séries (elementos de legenda) para acomodar a restrição máxima de importação de dados.

    • Nessa situação, o algoritmo ordena as séries de legendas em ordem alfabética, iniciando a lista de elementos de legenda em ordem alfabética até que o máximo de importação de dados seja atingido e não importe mais séries.
  • Quando um conjunto de dados subjacente tem mais de 60 séries, o número máximo de séries, o algoritmo ordena a série alfabeticamente e elimina as séries além da 60ª série ordenada alfabeticamente.

  • Se os valores nos dados não forem do tipo numérico ou data/hora, o Power BI não usará o algoritmo e reverterá para o algoritmo de amostragem anterior não de alta densidade.

  • A configuração Mostrar itens sem dados não é suportada com o algoritmo.

  • Não há suporte para o algoritmo ao usar uma conexão em tempo real com um modelo hospedado no SQL Server Analysis Services versão 2016 ou anterior. Ele é suportado em modelos hospedados no Power BI ou no Azure Analysis Services.