Exercício: realize práticas comuns de limpeza de dados

Concluído

Preparação de dados

Nesta seção, exploraremos métodos para transformar dados. A transformação dos dados por meio de renomeação de tabelas, atualização de tipos de dados e acréscimo de tabelas em conjunto garante que os dados estejam prontos para serem usados para relatórios. Em alguns casos, isso significa limpar os dados, de modo que conjuntos de dados semelhantes possam ser combinados. Em outros casos, os grupos de dados são renomeados para que sejam mais facilmente reconhecidos pelos usuários finais e para que a escrita de relatórios seja simplificada.

Seção 1: Renomear tabelas

  1. No painel Consultas, minimize a pasta chamada Transformar Arquivos de InternationalSales.

  2. Em seguida, renomeie as consultas listadas no painel Consultas. Usando o campo de texto na seção Propriedades do painel Configurações de Consulta, use os novos nomes listados aqui para alterar o nome de cada uma das consultas listadas. Depois de inserir o novo nome no campo de texto, pressione Enter no teclado para salvar o novo nome da consulta.

    Nome Inicial Nome Final
    Sales Sales
    geo Geography
    manufacturer Manufacturer
    Product_Table Product
    InternationalSales International Sales

    A janela do Editor de Consultas deve ser exibida, conforme mostrado aqui:

    Observação

    É uma prática recomendada fornecer nomes de consulta e de coluna descritivos. Esses nomes são usados nos visuais e na seção de P e R do Power BI, que será abordada em um módulo posterior.

Seção 2: Preencher valores vazios

Em nosso cenário, alguns dos dados fornecidos não estão no formato correto. O Power BI fornece funcionalidades de transformação abrangentes para limpar e preparar os dados de acordo com as suas necessidades. Vamos começar selecionando a consulta Product no painel Consultas.

  1. Observe que a coluna Category tem vários valores nulos. Focalize a barra verde/cinza (conhecida como barra de qualidade) abaixo do cabeçalho de coluna. Isso permite identificar facilmente erros e valores vazios nas visualizações de dados. Parece que há valores na coluna Category somente quando o valor é alterado. Precisamos fornecer dados a essa coluna para que todas as linhas sejam preenchidas com valores.

  2. Com a consulta Product selecionada no painel Consultas, selecione a coluna Category.

  3. Na faixa de opções, selecione a guia Transformar.

  4. Escolha a lista suspensa Preencher e selecione a opção Para baixo.

    Observe como todos os valores nulos são preenchidos com os valores apropriados de Category.

    Observação

    A operação de preenchimento ocupa uma coluna e percorre os valores nela para preencher qualquer valor nulo nas linhas seguintes até encontrar um novo valor. Esse processo continua linha a linha até que não haja mais valores nessa coluna.

Seção 3: Dividir colunas

Na consulta Product, observe a coluna Product. O nome e o segmento do produto estão concatenados em um único campo com um separador de barra vertical (|). Vamos dividi-los em duas colunas. Isso é útil quando criarmos visuais, para que possamos fazer a análise com base em ambos os campos.

  1. No painel Consultas à esquerda, verifique se a consulta Product está selecionada.

  2. Selecione a coluna Product na tabela de consultas.

  3. Na faixa de opções, selecione a guia Transformar.

  4. Expanda o menu suspenso Dividir Coluna.

  5. Em seguida, selecione Por Delimitador. A caixa de diálogo Dividir Coluna por Delimitador é aberta.

  6. Na caixa de diálogo, verifique se a opção Personalizado está selecionada no menu suspenso Selecione ou insira o delimitador.

    Observação

    O menu suspenso Selecionar ou inserir delimitador tem alguns delimitadores padrão como vírgula, dois pontos e assim por diante.

  7. Observe que, na caixa de texto, há um hífen (-). O Power BI supõe que desejamos fazer a divisão por hífen. Remova o símbolo de hífen e insira o símbolo de barra vertical (|). Em seguida, escolha o Delimitador mais à esquerda em Dividir em e selecione OK.

    Observação

    Se o delimitador ocorrer várias vezes, a seção Dividir em fornecerá a opção de divisão única (mais à esquerda ou mais à direita) ou a opção de dividir a coluna em cada ocorrência do delimitador. Neste cenário, o delimitador ocorre apenas uma vez, portanto, a coluna Product é dividida em duas.

Seção 4: Renomear colunas

Vamos renomear as colunas agora para algo mais amigável.

  1. Selecione a coluna Product.1 e depois clique com o botão direito do mouse ao lado do nome da coluna.

  2. Escolha Renomear... no menu de opções.

  3. Renomeie o campo como Product.

  4. Use as mesmas etapas para renomear Product.2 como Segment.

Seção 5: Usar coluna de exemplos para dividir colunas

Na consulta Product, observe que a coluna Price tem o preço e a moeda concatenados (combinados) em um único campo. Para fazer cálculos, precisamos apenas do valor numérico. Portanto, será útil dividir esse campo em duas colunas. Podemos usar o recurso de divisão como anteriormente ou o recurso Coluna de Exemplos. O recurso Coluna de Exemplos é útil em cenários em que o padrão é mais complexo do que um delimitador.

  1. No painel Consultas à esquerda da tela, verifique se a consulta Product está selecionada.

  2. Na faixa de opções na parte superior da tela, selecione a guia Adicionar Coluna.

  3. Escolha a lista suspensa Coluna de Exemplos e, em seguida, selecione De Todas as Colunas.

  4. Na primeira linha da Column1 recém-adicionada, insira o primeiro valor de Price, 412.13.

  5. Pressione Enter no teclado.

    Observe que após pressionar Enter, o Power BI reconhece que você deseja dividir a coluna Price. A fórmula que o Power BI usa também é exibida.

    Observação

    Um erro comum que pode ocorrer aqui é o recurso Coluna de Exemplo pode tentar digitar automaticamente USD 412,13 com o recurso IntelliSense. NÃO aceite este valor digitado automaticamente.

  6. Clique duas vezes no cabeçalho da coluna recém-adicionada na tabela de consultas.

  7. Renomeie a coluna para MSRP e selecione OK para aplicar as alterações.

    Observe que o campo MSRP tem um Tipo de dados de Texto. O tipo de dados que precisa ser é decimal fixo. Vamos alterá-lo.

  8. Selecione o ícone ABC à esquerda do cabeçalho de coluna MSRP.

  9. No menu, selecione Número Decimal Fixo. Observe que todas as etapas que executamos na consulta Product estão sendo registradas em ETAPAS APLICADAS no painel direito.

    Agora vamos criar uma coluna Currency da mesma forma.

  10. Com a consulta Product selecionada, na faixa de opções, selecione a guia Adicionar Coluna.

  11. Escolha o menu suspenso Coluna de Exemplos.

  12. Em seguida, selecione De Todas as Colunas.

  13. Na primeira linha da Column1 adicionada recentemente, insira o primeiro valor de Currency como USD e pressione Enter no teclado.

  14. Renomeie o cabeçalho de coluna de Column1 para Currency.

  15. Selecione OK para aplicar as alterações.

    Observe que depois que você pressiona Enter, o Power BI reconhece que você deseja dividir a coluna Price. A fórmula que ele usa também é exibida acima.

    Agora que dividimos a coluna Price nas colunas MSRP e Currency, não precisamos mais da coluna original Price. Vamos removê-la.

  16. Verifique se você ainda está exibindo a consulta Product. Clique com o botão direito do mouse na coluna Price.

  17. Selecione Remover no menu de opções.

Seção 6: Remover linhas indesejadas

Na consulta Geography, observe que as duas primeiras linhas são informativas. Elas não fazem parte dos dados. Da mesma forma, na consulta Manufacturer, as duas últimas linhas não fazem parte dos dados. Vamos removê-las para podermos trabalhar com um conjunto de dados limpo.

  1. No painel Consultas à esquerda da tela, selecione a consulta Geography.

  2. Na faixa de opções, selecione a guia Página Inicial.

  3. Escolha o menu suspenso Remover Linhas.

  4. Em seguida, selecione Remover Linhas Superiores.

  5. A caixa de diálogo Remover Linhas Superiores será aberta. Insira 2 na caixa de texto, pois desejamos remover 2 linhas, a primeira linha de dados informativos e a segunda linha em branco.

  6. Em seguida, selecione OK.

    Observe que a primeira linha da consulta Geography contém os cabeçalhos de coluna. Vamos movê-los para a posição do cabeçalho de coluna.

  7. Verifique se a consulta Geography ainda está selecionada no painel Consultas. Na faixa de opções na parte superior da tela, selecione a guia Página Inicial.

  8. Em seguida, escolha Usar Primeira Linha Como Cabeçalhos.

    O Power BI prevê o tipo de dados de cada campo novamente. Observe que a coluna Zip foi alterada para o tipo de dados Número inteiro. Vamos alterá-lo para Texto como fizemos anteriormente. Caso contrário, veremos erros ao carregar os dados.

  9. Selecione o ícone tipo de dados à esquerda do cabeçalho de coluna Zip.

  10. No menu de opções, selecione Texto.

  11. Selecione Substituir Atual na caixa de diálogo Alterar Tipo de Coluna.

  12. No painel Consultas, selecione a consulta Manufacturer. Observe que as três últimas linhas não fazem parte dos dados. Vamos removê-las.

  13. Na faixa de opções, selecione a guia Página Inicial.

  14. Escolha o menu suspenso Remover Linhas.

  15. Em seguida, selecione Remover Linhas Inferiores.

  16. A caixa de diálogo Remover Linhas Inferiores será aberta. Insira 3 na caixa de texto Número de linhas.

  17. Em seguida, selecione OK.

Seção 7: Transpor dados

  1. No painel Consultas à esquerda da tela, selecione a consulta Manufacturer. Observe que os dados de ManufacturerID, Manufacturer e Logo estão dispostos em linhas. Observe também que o cabeçalho não é útil. Precisamos transpor a tabela para atender às nossas necessidades. A transposição de uma tabela trata as linhas como colunas e colunas como linhas, invertendo efetivamente o layout de uma tabela.

  2. Na faixa de opções na parte superior da tela, selecione a guia Transformar e escolha Transpor.

    Observe que isso transpõe os dados em colunas. Agora precisamos que a primeira linha seja o cabeçalho.

  3. Na faixa de opções na parte superior da tela, selecione a guia Página Inicial e escolha o botão Usar a Primeira Linha como Cabeçalhos.

Observe que agora a tabela Manufacturer está disposta da forma como precisamos dela, com um cabeçalho e valores ao longo de colunas.

Observe também que, com o painel Configurações de consulta à direita, em ETAPAS APLICADAS, você verá a lista de transformações e etapas que foram aplicadas. Você pode navegar por cada alteração feita nos dados selecionando a etapa. As etapas também podem ser excluídas por meio da escolha do X exibido à esquerda delas. As propriedades de cada etapa podem ser examinadas por meio da seleção da engrenagem à direita da etapa.

Seção 8: Acrescentar consultas

Para analisar as vendas de todos os países, é conveniente ter uma única tabela Sales. Para isso, é necessário usar o recurso Acrescentar Consultas. Com esse recurso, podemos adicionar todas as linhas da consulta International Sales à consulta Sales.

  1. No painel Consultas à esquerda da tela, selecione a consulta Sales.

  2. Na faixa de opções na parte superior da tela, selecione a guia Página Inicial e escolha o botão Acrescentar Consultas.

  3. A caixa de diálogo Acrescentar será aberta. É possível acrescentar Duas tabelas ou Três ou mais tabelas. Deixe Duas tabelas selecionada, pois estamos acrescentando apenas duas tabelas.

  4. Na lista suspensa Tabela para acrescentar, selecione International Sales.

  5. Em seguida, selecione OK.

    Agora, você verá uma nova coluna na tabela Sales chamada Country. Como a consulta International Sales tinha a coluna adicional Country, o Editor do Power Query adicionou essa coluna Country à tabela Sales recém-atualizada quando carregou os valores da consulta International Sales.

    Você também pode observar que há valores nulos na coluna Country por padrão para as linhas da tabela Sales. Isso ocorre porque essa coluna não existia para a tabela com dados USA. Agora adicionaremos o valor USA como uma operação de modelagem de dados.

  6. Na faixa de opções na parte superior da tela, selecione a guia Adicionar Coluna e escolha o botão Coluna Condicional.

  7. Na caixa de diálogo Adicionar Coluna Condicional, insira o nome da coluna como CountryName.

  8. Selecione Country no menu suspenso Nome da Coluna.

  9. Escolha igual a no menu suspenso Operador.

  10. Insira null na caixa de texto Valor.

  11. Insira USA na caixa de texto Saída.

  12. Selecione o menu suspenso do valor em Outro e depois escolha a opção Selecionar uma coluna.

  13. Escolha Country no menu suspenso da coluna.

  14. Em seguida, selecione OK.

    Lê-se: se o valor atual de Country for igual a nulo, o valor deverá retornar USA; caso contrário, se o valor não for nulo, use o valor atual de Country.

    Observação

    Um erro comum na etapa anterior é que o Else pode não estar definido corretamente. Verifique duas vezes se a parte Else da coluna condicional corresponde à captura de tela acima.

  15. Você verá a coluna CountryName na janela do Editor de Consultas. Observe que, na lista ETAPAS APLICADAS, foi adicionada à lista a ação que você concluiu.

    A coluna Country original que contém os valores nulos não é mais necessária e pode ser removida da tabela final para análise.

  16. Na consulta Sales, clique com o botão direito do mouse na coluna Country.

  17. Selecione Remover no menu de opções.

    Com essa coluna agora removida, podemos renomear a coluna CountryName para Country.

  18. Clique com o botão direito do mouse na coluna CountryName e renomeie-a como Country.

  19. Selecione o ícone Tipo de Dados à esquerda do cabeçalho da coluna Country e altere o Tipo de Dados para Texto.

  20. Em seguida, selecione o ícone de Tipo de Dados à esquerda do cabeçalho da coluna Revenue.

  21. Altere o Tipo de Dados para Número decimal fixo. Fazemos isso porque é um campo de moeda.

    Observação

    A diferença entre um Número decimal fixo e um Número decimal está relacionada ao comprimento e à precisão das casas decimais. Para obter mais informações, consulte Tipo de número.

    Quando os dados forem atualizados, eles processarão todas as ETAPAS APLICADAS que você criou.

    A recém-nomeada coluna Country tem os nomes de todos os países, incluindo USA. Você pode validar isso selecionando no menu suspenso ao lado da coluna Country para ver os valores exclusivos.

  22. Inicialmente, você verá somente os dados de USA. Selecione a seta suspensa à direita do cabeçalho da coluna Country. Selecione Carregar mais para validar seus dados de todos os sete países.

  23. Selecione Cancelar para fechar esse filtro. Não é necessário aplicar esse filtro aos dados.

    Agora que os dados de International Sales foram acrescentados à consulta Sales, não precisamos que a tabela International Sales seja carregada no modelo de dados.

  24. No painel Consultas à esquerda da tela, selecione a consulta International Sales.

  25. Clique com o botão direito do mouse na consulta International Sales e, em seguida, escolha Habilitar Carga para anular a seleção dessa configuração. Isso desabilita o carregamento da consulta International Sales no modelo de dados.

    Você deve ver o nome dessa consulta se tornar itálico no painel Consultas depois de desmarcar a opção Habilitar carregamento.

    Observação

    Os dados apropriados da tabela International Sales serão carregados na tabela Sales sempre que o modelo for atualizado. Ao remover a tabela International Sales, estamos impedindo que dados duplicados sejam carregados no modelo, aumentando o tamanho do arquivo. Em alguns casos, o armazenamento de grandes quantidades de dados afeta o desempenho do modelo de dados.

  26. Você pode receber uma mensagem sobre Aviso de Possível Perda de Dados. Nesse caso, selecione Continuar quando esse aviso aparecer.

  27. Em seguida, enquanto a consulta International Sales ainda está selecionada, escolha a guia Exibir na faixa de opções.

  28. Selecione o botão Dependências de Consulta.

    Isso abrirá a caixa de diálogo Dependências de Consulta. A caixa de diálogo mostra a origem de cada consulta e suas dependências. Por exemplo, vemos que a consulta Sales tem uma origem de arquivo CSV e uma dependência da consulta International Sales. Essas são informações úteis para compartilhar com os membros da sua equipe.

  29. Selecione Fechar na parte inferior da caixa de diálogo.

    Observação

    Você pode ampliar e reduzir a exibição de Dependências de Consulta conforme necessário.

    Agora você concluiu com êxito as operações de importação e modelagem de dados e está pronto para carregá-los no modelo de dados do Power BI Desktop, que permite a visualização deles.

  30. Na faixa de opções na parte superior da tela, selecione a guia Arquivo e escolha Fechar e Aplicar. Isso fecha a janela Power Query e aplica todas as alterações.

    Todos os dados são carregados na memória no Power BI Desktop. Você verá a caixa de diálogo de progresso com o número de linhas sendo carregadas em cada tabela, conforme mostrado na figura. Depois que o carregamento for concluído, os resultados desse arquivo do Power BI Desktop serão usados no Módulo 3.

    Observação

    Pode levar alguns minutos para carregar todas as tabelas.

  31. Após o carregamento dos dados, selecione a guia Arquivo na faixa de opções na parte superior da tela.

  32. Depois, no menu de opções à esquerda, selecione Salvar para salvar o arquivo.

  33. Nomeie o arquivo como MyFirstPowerBIModel. Salve o arquivo na pasta DIAD Reports (DIADReports).

No painel de navegação à esquerda da tela, selecione o ícone Dados para exibir os dados que foram carregados. Se você precisar retornar ao editor do Power Query, navegue até Página Inicial>Transformar dados>Transformar dados