Valores de cluster

2024-06-04

Os valores de cluster criam automaticamente grupos com valores semelhantes usando um algoritmo de correspondência difusa e, em seguida, mapeiam o valor de cada coluna para o grupo com melhor correspondência. Essa transformação é útil quando você está trabalhando com dados que têm muitas variações diferentes do mesmo valor e você precisa combinar valores em grupos consistentes.

Considere uma tabela de exemplo com uma coluna id que contém um conjunto de IDs e uma coluna Person contendo um conjunto de versões com várias letras escritas e maiúsculas dos nomes Miguel, Mike, William e Bill.

Captura de ecrã da tabela com nove linhas de entradas que contêm várias grafias e maiúsculas do nome Miguel e Guilherme.

Neste exemplo, o resultado que você está procurando é uma tabela com uma nova coluna que mostra os grupos corretos de valores da coluna Pessoa e não todas as diferentes variações das mesmas palavras.

Captura de tela dos valores agrupados como uma nova coluna chamada Cluster na tabela inicial.

Nota

A funcionalidade Valores de cluster está disponível apenas para o Power Query Online.

Criar uma coluna de cluster

Para agrupar valores, primeiro selecione a coluna Pessoa, vá para a guia Adicionar coluna na faixa de opções e selecione a opção Valores de cluster.

Na caixa de diálogo Valores de cluster, confirme a coluna a partir da qual pretende utilizar para criar os clusters e introduza o novo nome da coluna. Nesse caso, nomeie essa nova coluna como Cluster.

Captura de ecrã da janela de valores do cluster com a coluna Pessoa selecionada e a coluna Novo denominada Cluster.

O resultado dessa operação é mostrado na imagem a seguir.

Captura de tela dos valores agrupados como uma nova coluna chamada Cluster na tabela inicial.

Nota

Para cada cluster de valores, o Power Query seleciona a instância mais frequente da coluna selecionada como a instância "canónica". Se ocorrerem várias instâncias com a mesma frequência, o Power Query selecionará a primeira.

Usando as opções de cluster difuso

As seguintes opções estão disponíveis para valores de agrupamento em uma nova coluna:

Limiar de semelhança (opcional): Esta opção indica como dois valores semelhantes devem ser agrupados. A configuração mínima de zero (0) faz com que todos os valores sejam agrupados. A configuração máxima de 1 só permite que os valores que correspondem exatamente sejam agrupados. O padrão é 0.8.
Ignorar maiúsculas e minúsculas: Quando as cadeias de texto são comparadas, maiúsculas e minúsculas são ignoradas. Por predefinição, esta opção encontra-se ativada.
Agrupar combinando partes de texto: o algoritmo tenta combinar partes de texto (como combinar Micro e soft na Microsoft) para agrupar valores.
Mostrar pontuações de similaridade: Mostra pontuações de semelhança entre os valores de entrada e os valores representativos calculados após o agrupamento difuso.
Tabela de transformação (opcional): você pode selecionar uma tabela de transformação que mapeie valores (como mapeamento de MSFT para a Microsoft) para agrupá-los.

Neste exemplo, uma nova tabela de transformação com o nome My transform table é usada para demonstrar como os valores podem ser mapeados. Esta tabela de transformação tem duas colunas:

De: A cadeia de texto a procurar na tabela.
Para: A cadeia de caracteres de texto a ser usada para substituir a cadeia de texto na coluna De .

Captura de tela da tabela mostrando De valores de Mike e William, e Para valores de Miguel e Bill.

Importante

É importante que a tabela de transformação tenha as mesmas colunas e nomes de coluna mostrados na imagem anterior (têm de ser denominados "De" e "Para"), caso contrário o Power Query não reconhecerá esta tabela como uma tabela de transformação e não ocorrerá qualquer transformação.

Usando a consulta criada anteriormente, clique duas vezes na etapa Valores agrupados e, em seguida, na caixa de diálogo Valores de cluster, expanda Opções de cluster difuso. Em Opções de cluster difuso, habilite a opção Mostrar pontuações de similaridade. Para Tabela de transformação (opcional), selecione a consulta que tem a tabela de transformação.

Captura de tela das opções de cluster difuso com o menu suspenso da tabela de transformação definido para a tabela de transformação de exemplo.

Depois de selecionar a tabela de transformação e ativar a opção Mostrar pontuações de semelhança, selecione OK. O resultado dessa operação fornece uma tabela que contém as mesmas colunas id e Person que a tabela original, mas também inclui duas novas colunas chamadas Cluster e Person_Cluster_Similarity. A coluna Cluster contém as versões corretamente escritas e em maiúsculas dos nomes Miguel para as versões de Miguel e Mike, e William para as versões de Bill, Billy e William. A coluna Person_Cluster_Similarity contém as pontuações de semelhança para cada um dos nomes.

Captura de ecrã da tabela que contém as novas colunas Cluster e Person_Cluster_Similarity.

Preceitos da tabela de transformação

Você pode notar que a tabela de transformação na seção anterior parecia indicar que as instâncias de Mike são alteradas para Miguel e as instâncias de William são alteradas para Bill. No entanto, na tabela resultante, as instâncias de Bill e "billy" foram alteradas para William. Na tabela de transformação, em vez de ser um caminho direto de De para Para , a tabela de transformação é simétrica durante o agrupamento, o que significa que "mike" é equivalente a "Miguel" e vice-versa. O resultado dos equivalentes indicados no quadro de transformação depende das seguintes regras:

Se houver uma maioria de valores idênticos, esses valores terão precedência sobre valores não idênticos.
Se não houver a maioria dos valores, o valor que aparece primeiro tem precedência.

Por exemplo, na tabela original usada neste artigo, as versões de Miguel (tanto "miguel" quanto Miguel) na coluna Pessoa compõem a maioria das ocorrências do nome Miguel e Mike. Além disso, o nome Miguel com maiúsculas iniciais compõe a maioria do nome Miguel. Assim, associar Miguel e seus derivados e Mike e seus derivados na tabela de transformação resulta no nome Miguel sendo usado na coluna Cluster .

No entanto, para os nomes William, Bill e "billy", não há maioria de valores, uma vez que todos os três são únicos. Como William aparece primeiro, William é usado na coluna Cluster . Se "billy" tivesse aparecido primeiro na tabela, então "billy" seria usado na coluna Cluster . Além disso, como não há maioria de valores, o caso usado pelos nomes individuais é usado. Ou seja, se William é o primeiro, William com um "W" maiúsculo é usado como valor de resultado; Se "billy" for o primeiro, "billy" com um "b" minúsculo é usado.

Partilhar via

Valores de cluster

Criar uma coluna de cluster

Usando as opções de cluster difuso

Preceitos da tabela de transformação

Conteúdos relacionados

Comentários

Recursos adicionais