Dados de perfil no Power BI

Concluído

A análise para otimização dos dados estuda as nuances dos dados: detetar anomalias, examinar e desenvolver as estruturas de dados subjacentes e consultar dados estatísticos, tais como contagens de linhas, distribuição de valores, valores máximos e mínimos, médias, entre outros. Este conceito é importante uma vez que permite moldar e organizar os dados, de modo que a interação com os dados e a identificação da distribuição dos dados é simples, o que ajuda a facilitar o processamento dos dados de front-end para desenvolver elementos de relatório.

Imagine que está a desenvolver relatórios para a equipa de vendas da sua organização.  Não tem a certeza de como estão estruturados nem quais são os conteúdos dos dados das tabelas, pelo que pretende analisar os dados antes de começar a desenvolver os elementos visuais.  O Power BI tem uma funcionalidade inerente que faz com que estas tarefas sejam de utilização fácil.

Analisar estruturas de dados

Antes de começar a analisar os dados no Editor do Power Query, deve aprender primeiro as estruturas dos dados subjacentes em que os dados estão organizados. Pode ver o modelo semântico atual no separador Modelo no Power BI Desktop.

exemplo de estrutura de dados e barra do friso

No separador Modelo, pode editar propriedades específicas de colunas e tabelas ao selecionar uma tabela ou colunas e pode transformar os dados com o botão Transformar Dados, que o leva a Editor do Power Query. Além disso, pode gerir, criar, editar e eliminar relações entre tabelas diferentes ao utilizar Gerir Relações, que se encontra no friso.

Localizar anomalias e estatísticas de dados

Após criar uma ligação a uma origem de dados e selecionar Transformar Dados, será aberto o Editor do Power Query, onde poderá verificar se existem anomalias nos dados.  As anomalias dos dados são valores atípicos nos seus dados. Detetar quais são essas anomalias pode ajudá-lo a identificar qual é a distribuição normal dos seus dados e que pontos de dados específicos existem que precisam de mais investigação. Editor do Power Query determina anomalias de dados com a funcionalidade Distribuição de Colunas.

Selecione Ver no friso e, em Pré-visualização de Dados, pode escolher entre algumas opções. Para compreender as anomalias e estatísticas de dados, selecione as opções Distribuição de Colunas, Qualidade da Coluna e Perfil de Coluna .  A figura seguinte mostra as estatísticas apresentadas.

A qualidade das colunas e a Distribuição de colunas são apresentadas nos gráficos acima das colunas de dados. A qualidade das colunas mostra-lhe as percentagens de dados válidos, com erros e vazios. O ideal seria que 100% dos dados fossem válidos.

anomalias e estatísticas de dados para uma coluna de dados

Nota

Por predefinição, Power Query examina as primeiras 1000 linhas do conjunto de dados. Para alterar esta definição, selecione o estado da criação de perfis na barra de estado e selecione Criação de perfis da coluna com base no conjunto de dados completo. ]

A Distribuição de Colunas mostra-lhe a distribuição dos dados na coluna e faz a contagem de valores distintos ou exclusivos, que lhe podem indicar detalhes acerca das contagens de dados. Os valores distintos são todos os diferentes valores numa coluna, incluindo valores duplicados e nulos, enquanto os valores exclusivos não incluem duplicados ou nulos. Por conseguinte, distinct nesta tabela indica-lhe a contagem total de quantos valores estão presentes, ao passo que exclusivo indica quantos desses valores só aparecem uma vez.

O perfil de coluna dá-lhe uma visão mais aprofundada das estatísticas nas colunas das primeiras 1000 linhas de dados. Esta coluna indica vários valores diferentes, incluindo a contagem de linhas, que é importante quando verifica se a importação dos seus dados foi bem sucedida. Por exemplo, se a sua base de dados original tiver 100 linhas, pode utilizar esta contagem de linhas para verificar se as 100 linhas foram importadas corretamente. Além disso, esta contagem de linhas mostrará o número de linhas que o Power BI considerou serem valores atípicos, linhas e cadeias vazias e o mínimo e o máximo, o que lhe indicará o menor e maior valor numa coluna, respetivamente. Esta distinção é particularmente importante no caso dos dados numéricos, pois irá notificá-lo imediatamente se tiver um valor máximo que ultrapasse o que a sua empresa identifica como um "máximo". Este valor chama a sua atenção para estes valores, o que significa que pode concentrar os seus esforços ao aprofundar os dados.  No caso dos dados estarem na coluna de texto, como mostra a imagem anterior, o valor mínimo é o primeiro valor e o valor máximo é o último valor, quando em ordem alfabética.

Além disso, o gráfico Distribuição de valores indica-lhe as contagens para cada valor distinto nessa coluna específica. Ao observar o gráfico na imagem anterior, repare que a distribuição de valores indica que "Anthony Gross" aparece o maior número de vezes na coluna Vendedor e que "Lily Code" aparece com o menor número de vezes. Esta informação é particularmente importante porque identifica valores atípicos.  Se um valor aparecer muito mais vezes do que outros valores numa coluna, a funcionalidade Distribuição de valores permite identificar um local para iniciar a sua investigação.

Numa coluna numérica, as Estatísticas de Coluna também incluirão quantos zeros e valores nulos existem, juntamente com o valor médio na coluna, o desvio padrão dos valores na coluna e quantos valores pares e ímpares estão na coluna. Essas estatísticas dão-lhe uma ideia da distribuição dos dados dentro da coluna e são importantes porque resumem os dados na coluna e servem como ponto de partida para determinar quais são os valores atípicos.

Por exemplo, ao analisar os dados da fatura, repara que o gráfico Distribuição de valores mostra que alguns vendedores na coluna Vendedor aparecem o mesmo número de vezes nos dados. Além disso, nota que a mesma situação ocorreu na coluna Lucro e em algumas outras tabelas. Durante a sua investigação, descobre que os dados que estava a utilizar eram incorretos e precisavam ser atualizados, pelo que os atualiza imediatamente. Sem visualizar este gráfico, podia não ter visto este erro tão rapidamente e, por esse motivo, a distribuição de valores é essencial.

Depois de concluir as suas edições no Editor do Power Query e estar pronto para começar a criar elementos visuais, regresse a Base no friso Editor do Power Query. Selecione Fechar & Aplicar, o que irá devolver-lhe Power BI Desktop e todas as edições/transformações de colunas também serão aplicadas.

Agora, determinou os elementos que compõem a criação de perfis de dados no Power BI, que incluem o carregamento de dados no Power BI, interrogar as propriedades das colunas para obter mais clareza e fazer mais edições ao tipo e formato dos dados nas colunas, encontrar anomalias de dados e ver estatísticas de dados no Editor do Power Query. Com estas informações, pode incluir no seu conjunto de ferramentas a capacidade de estudar os seus dados de maneira eficiente e eficaz.