Formação
Módulo
Introdução aos modelos de agrupamento usando R e tidymodels - Training
Introdução aos modelos de agrupamento usando R e tidymodels.
Este browser já não é suportado.
Atualize para o Microsoft Edge para tirar partido das mais recentes funcionalidades, atualizações de segurança e de suporte técnico.
Os valores de cluster criam automaticamente grupos com valores semelhantes usando um algoritmo de correspondência difusa e, em seguida, mapeiam o valor de cada coluna para o grupo com melhor correspondência. Essa transformação é útil quando você está trabalhando com dados que têm muitas variações diferentes do mesmo valor e você precisa combinar valores em grupos consistentes.
Considere uma tabela de exemplo com uma coluna id que contém um conjunto de IDs e uma coluna Person contendo um conjunto de versões com várias letras escritas e maiúsculas dos nomes Miguel, Mike, William e Bill.
Neste exemplo, o resultado que você está procurando é uma tabela com uma nova coluna que mostra os grupos corretos de valores da coluna Pessoa e não todas as diferentes variações das mesmas palavras.
Nota
A funcionalidade Valores de cluster está disponível apenas para o Power Query Online.
Para agrupar valores, primeiro selecione a coluna Pessoa, vá para a guia Adicionar coluna na faixa de opções e selecione a opção Valores de cluster.
Na caixa de diálogo Valores de cluster, confirme a coluna a partir da qual pretende utilizar para criar os clusters e introduza o novo nome da coluna. Nesse caso, nomeie essa nova coluna como Cluster.
O resultado dessa operação é mostrado na imagem a seguir.
Nota
Para cada cluster de valores, o Power Query seleciona a instância mais frequente da coluna selecionada como a instância "canónica". Se ocorrerem várias instâncias com a mesma frequência, o Power Query selecionará a primeira.
As seguintes opções estão disponíveis para valores de agrupamento em uma nova coluna:
Neste exemplo, uma nova tabela de transformação com o nome My transform table é usada para demonstrar como os valores podem ser mapeados. Esta tabela de transformação tem duas colunas:
Importante
É importante que a tabela de transformação tenha as mesmas colunas e nomes de coluna mostrados na imagem anterior (têm de ser denominados "De" e "Para"), caso contrário o Power Query não reconhecerá esta tabela como uma tabela de transformação e não ocorrerá qualquer transformação.
Usando a consulta criada anteriormente, clique duas vezes na etapa Valores agrupados e, em seguida, na caixa de diálogo Valores de cluster, expanda Opções de cluster difuso. Em Opções de cluster difuso, habilite a opção Mostrar pontuações de similaridade. Para Tabela de transformação (opcional), selecione a consulta que tem a tabela de transformação.
Depois de selecionar a tabela de transformação e ativar a opção Mostrar pontuações de semelhança, selecione OK. O resultado dessa operação fornece uma tabela que contém as mesmas colunas id e Person que a tabela original, mas também inclui duas novas colunas chamadas Cluster e Person_Cluster_Similarity. A coluna Cluster contém as versões corretamente escritas e em maiúsculas dos nomes Miguel para as versões de Miguel e Mike, e William para as versões de Bill, Billy e William. A coluna Person_Cluster_Similarity contém as pontuações de semelhança para cada um dos nomes.
Você pode notar que a tabela de transformação na seção anterior parecia indicar que as instâncias de Mike são alteradas para Miguel e as instâncias de William são alteradas para Bill. No entanto, na tabela resultante, as instâncias de Bill e "billy" foram alteradas para William. Na tabela de transformação, em vez de ser um caminho direto de De para Para , a tabela de transformação é simétrica durante o agrupamento, o que significa que "mike" é equivalente a "Miguel" e vice-versa. O resultado dos equivalentes indicados no quadro de transformação depende das seguintes regras:
Por exemplo, na tabela original usada neste artigo, as versões de Miguel (tanto "miguel" quanto Miguel) na coluna Pessoa compõem a maioria das ocorrências do nome Miguel e Mike. Além disso, o nome Miguel com maiúsculas iniciais compõe a maioria do nome Miguel. Assim, associar Miguel e seus derivados e Mike e seus derivados na tabela de transformação resulta no nome Miguel sendo usado na coluna Cluster .
No entanto, para os nomes William, Bill e "billy", não há maioria de valores, uma vez que todos os três são únicos. Como William aparece primeiro, William é usado na coluna Cluster . Se "billy" tivesse aparecido primeiro na tabela, então "billy" seria usado na coluna Cluster . Além disso, como não há maioria de valores, o caso usado pelos nomes individuais é usado. Ou seja, se William é o primeiro, William com um "W" maiúsculo é usado como valor de resultado; Se "billy" for o primeiro, "billy" com um "b" minúsculo é usado.
Formação
Módulo
Introdução aos modelos de agrupamento usando R e tidymodels - Training
Introdução aos modelos de agrupamento usando R e tidymodels.