Partilhar via


Amostragem de alta densidade em gráficos de dispersão do Power BI

O algoritmo de amostragem do Power BI melhora a forma como os gráficos de dispersão representam dados de alta densidade.

Por exemplo, você pode criar um gráfico de dispersão a partir da atividade de vendas da sua organização, com cada loja tendo dezenas de milhares de pontos de dados por ano. Um gráfico de dispersão dessas informações agregaria dados de uma representação significativa desses dados para ilustrar como as vendas ocorreram ao longo do tempo. Os detalhes da amostragem de dados de alta densidade são descritos neste artigo.

Screenshot of a scatter chart, showing the high-density sampling data.

Nota

O algoritmo de amostragem de alta densidade descrito neste artigo está disponível nos gráficos de dispersão para o Power BI Desktop e o serviço do Power BI.

Como funcionam os gráficos de dispersão de alta densidade

Anteriormente, o Power BI selecionava uma coleção de pontos de dados de exemplo em toda a gama de dados subjacentes de forma determinística para criar um gráfico de dispersão. Especificamente, o Power BI selecionaria a primeira e a última linhas de dados na série de gráficos de dispersão e, em seguida, dividiria as linhas restantes uniformemente para que 3.500 pontos de dados fossem plotados no gráfico de dispersão. Por exemplo, se a amostra tivesse 35.000 linhas, a primeira e a última linhas seriam selecionadas para plotagem, então cada décima linha também seria plotada (35.000 / 10 = cada décima linha = 3.500 pontos de dados). Também anteriormente, valores nulos ou pontos que não podiam ser plotados, como valores de texto, em séries de dados não eram mostrados e, portanto, não eram considerados ao gerar o visual. Com essa amostragem, a densidade percebida do gráfico de dispersão também foi baseada nos pontos de dados representativos, de modo que a densidade visual implícita foi uma circunstância dos pontos amostrados, não a coleta completa dos dados subjacentes.

Quando você habilita a amostragem de alta densidade, o Power BI implementa um algoritmo que elimina pontos sobrepostos e garante que os pontos no visual possam ser alcançados ao interagir com o visual. O algoritmo também garante que todos os pontos do conjunto de dados sejam representados no visual, fornecendo contexto para o significado dos pontos selecionados, em vez de apenas plotar uma amostra representativa.

Por definição, os dados de alta densidade são amostrados para criar visualizações que respondem à interatividade. Demasiados pontos de dados num visual podem atrasá-lo e prejudicar a visibilidade das tendências. A forma como os dados são amostrados impulsiona a criação do algoritmo de amostragem para fornecer a melhor experiência de visualização e garantir que todos os dados sejam representados. No Power BI, o algoritmo é aprimorado para fornecer a melhor combinação de capacidade de resposta, representação e preservação clara de pontos importantes no conjunto de dados geral.

Nota

Os gráficos de dispersão usando o algoritmo de amostragem de alta densidade são melhor plotados em visuais quadrados, como acontece com todos os gráficos de dispersão.

Como funciona o algoritmo de amostragem do gráfico de dispersão

O algoritmo para amostragem de alta densidade para gráficos de dispersão emprega métodos que capturam e representam os dados subjacentes de forma mais eficaz e eliminam pontos sobrepostos. O algoritmo começa com um pequeno raio para cada ponto de dados, que é o tamanho do círculo visual para um determinado ponto na visualização. Em seguida, aumenta o raio de todos os pontos de dados. Quando dois ou mais pontos de dados se sobrepõem, um único círculo do tamanho do raio aumentado representa esses pontos de dados sobrepostos. O algoritmo continua a aumentar o raio dos pontos de dados até que esse valor de raio resulte em um número razoável de pontos de dados (3.500) sendo exibidos no gráfico de dispersão.

Os métodos neste algoritmo garantem que os valores atípicos sejam representados no visual resultante. O algoritmo também respeita a escala ao determinar a sobreposição, de modo que as escalas exponenciais são visualizadas com fidelidade aos pontos visualizados subjacentes.

O algoritmo também preserva a forma geral do gráfico de dispersão.

Nota

Ao usar o algoritmo de amostragem de alta densidade para gráficos de dispersão, a distribuição precisa dos dados é o objetivo, não a densidade visual implícita. Por exemplo, você pode ver um gráfico de dispersão com muitos círculos que se sobrepõem (densidade) em uma determinada área e imaginar que muitos pontos de dados devem ser agrupados lá. Como o algoritmo de amostragem de alta densidade pode usar um círculo para representar muitos pontos de dados, essa densidade visual implícita ou "clustering" não aparecerá. Para obter mais detalhes em uma determinada área, você pode usar segmentações de dados para aumentar o zoom.

Além disso, os pontos de dados que não podem ser plotados, como nulos ou valores de texto, são ignorados, portanto, outro valor que pode ser plotado é selecionado. Isso garante ainda mais que a verdadeira forma do gráfico de dispersão seja mantida.

Quando o algoritmo padrão para gráficos de dispersão é usado

Há circunstâncias em que a amostragem de alta densidade não pode ser aplicada a um gráfico de dispersão e o algoritmo original é usado. Essas circunstâncias são as seguintes:

  • Se você clicar com o botão direito do mouse em um valor em Valores e defini-lo como Mostrar itens sem dados no menu, o gráfico de dispersão será revertido para o algoritmo original.

    Screenshot of the Visualization menu, showing the Values pane with Show items with no data selection.

  • Quaisquer valores no campo Eixo de Reprodução resultarão na reversão do gráfico de dispersão para o algoritmo original.

  • Se os eixos X e Y estiverem ausentes em um gráfico de dispersão, o gráfico será revertido para o algoritmo original.

  • O uso de uma linha Proporção no painel Análise resulta na reversão do gráfico para o algoritmo original.

    Screenshot of the Visualization menu, showing a pointer to the Analytics pane and Ratio line.

Como ativar a amostragem de alta densidade para um gráfico de dispersão

Para alternar a amostragem de alta densidade para Ativado, selecione um gráfico de dispersão, vá para o painel visual Formatar, expanda o cartão Geral e, perto da parte inferior desse cartão, deslize o controle deslizante de alternância de amostragem de alta densidade para Ativado.

Screenshot of the Visualization menu, showing a pointer to the Format visual pane, General card, and High Density Sampling toggle slider.

Nota

Depois que o switch for ativado, o Power BI tentará usar o algoritmo de amostragem de alta densidade sempre que possível. Quando o algoritmo não pode ser usado, como quando você coloca um valor no eixo Reproduzir , a opção permanece ativada mesmo que o gráfico tenha revertido para o algoritmo padrão. Se você remover um valor do eixo Reproduzir ou se as condições mudarem para habilitar o uso do algoritmo de amostragem de alta densidade, o gráfico usará automaticamente a amostragem de alta densidade para esse gráfico porque o recurso está ativo.

Nota

Os pontos de dados são agrupados ou selecionados pelo índice. Ter uma legenda não afeta a amostragem para o algoritmo. Afeta apenas a ordenação do visual.

Considerações e limitações

O algoritmo de amostragem de alta densidade é uma melhoria importante para o Power BI. No entanto, o algoritmo de amostragem de alta densidade só funciona com conexões em tempo real com modelos baseados em serviço do Power BI, modelos importados ou DirectQuery.