Valores do cluster
Os valores de cluster criam grupos automaticamente com valores semelhantes usando um algoritmo de correspondência difusa e mapeia o valor de cada coluna para o grupo mais bem correspondido. Essa transformação é útil quando você está trabalhando com dados que têm muitas variações diferentes do mesmo valor e você precisa combinar valores em grupos consistentes.
Considere uma tabela de exemplo com uma coluna de ID que contém um conjunto de IDs e uma coluna Pessoa contendo um conjunto de versões ortográficas e maiúsculas dos nomes Miguel, Mike, William e Bill.
Neste exemplo, o resultado que você está procurando é uma tabela com uma nova coluna que mostra os grupos corretos de valores da coluna Pessoa e não todas as diferentes variações das mesmas palavras.
Observação
O recurso valores de cluster está disponível apenas para o Power Query Online.
Para valores de cluster, primeiro selecione a coluna Pessoa, vá para a guia Adicionar coluna na faixa de opções e selecione a opção Valores do Cluster.
Na caixa de diálogo Valores do Cluster, confirme a coluna da qual você deseja usar para criar os clusters e insira o novo nome da coluna. Para esse caso, nomeie este novo cluster de colunas.
O resultado dessa operação produzirá é mostrada na imagem a seguir.
Observação
Para cada cluster de valores, Power Query escolhe a instância mais frequente da coluna selecionada como a instância "canônica". Se várias instâncias ocorrerem com a mesma frequência, o Power Query escolherá a primeira.
As seguintes opções estão disponíveis para valores de clustering em uma nova coluna:
- Limite de similaridade (opcional): indica a semelhança que dois valores precisam ter para serem agrupados. A configuração mínima de zero (0) faz com que todos os valores sejam agrupados. A configuração máxima de 1 só permite que os valores que correspondem exatamente sejam agrupados. O padrão é 0,8.
- Ignorar maiúsculas e minúsculas: maiúsculas e minúsculas serão ignoradas quando cadeias de caracteres de texto são comparadas. Por padrão, essa opção é ativada.
- Agrupar combinando partes de texto: O algoritmo tenta combinar partes de texto (como combinar Micro e soft em Microsoft) para agrupar valores.
- Mostrar pontuações de similaridade: mostra as pontuações de similaridade entre os valores de entrada e os valores representantes calculados após o agrupamento difuso.
- Tabela de transformação (opcional): Você pode selecionar uma tabela de transformação que mapeia valores (como mapear MSFT para Microsoft) para agrupá-los.
Para este exemplo, uma nova tabela de transformação com o nome Minha tabela de transformação é usada para demonstrar como os valores podem ser mapeados. Esta tabela de transformação tem duas colunas:
- De: a cadeia de caracteres de texto a ser pesquisada na tabela.
- Para: a cadeia de caracteres de texto a ser usada para substituir a cadeia de caracteres de texto na coluna De.
Importante
É importante que a tabela de transformação tenha as mesmas colunas e nomes de colunas, conforme mostrado na imagem anterior (eles precisam ser nomeados como "De" e "Para"), caso contrário, o Power Query não reconhecerá essa tabela como uma tabela de transformação e nenhuma transformação ocorrerá.
Usando a consulta criada anteriormente, clique duas vezes na etapa Valores agrupados e, na caixa de diálogo Valores do Cluster, expanda as opções de Cluster Difuso. Em Opções de cluster difuso, habilite a opção Mostrar pontuações de similaridade. Para a tabela Transformação (opcional), selecione a consulta que tem a tabela de transformação.
Depois de selecionar sua tabela de transformação e habilitar a opção Mostrar pontuações de similaridade, selecione OK. O resultado dessa operação dá a você uma tabela que contém as mesmas colunas ID e Pessoa que a tabela original, mas também inclui duas novas colunas chamadas Cluster e Person_Cluster_Similarity. A coluna Cluster contém as versões corretamente ortográficas e maiúsculas dos nomes Miguel para versões de Miguel e Mike, e William para versões de Bill, Billy e William. A coluna Person_Cluster_Similarity contém as pontuações de similaridade para cada um dos nomes.
Você pode notar que a tabela de transformação na seção anterior parecia indicar que as instâncias de Mike são alteradas para Miguel e as instâncias de William são alteradas para Bill. No entanto, na tabela resultante, as instâncias de Bill e "billy" foram alteradas para William. Na tabela de transformação, em vez de ser um caminho direto de De para Para, a tabela de transformação é simétrica durante o clustering, o que significa que "mike" é equivalente a "Miguel" e vice-versa. O resultado dos equivalentes indicados na tabela de transformação depende das seguintes regras:
- Se houver uma maioria de valores idênticos, esses valores terão precedência sobre valores não idênticos.
- Se não houver a maioria dos valores, o valor que aparecer primeiro terá precedência.
Por exemplo, na tabela original usada neste artigo, as versões de Miguel (tanto "miguel" quanto Miguel) na coluna Pessoa compõem a maioria das instâncias do nome Miguel e Mike. Além disso, o nome Miguel com inicial maiúscula compõe a maioria do nome Miguel. Assim, associar Miguel e seus derivados e Mike e seus derivados na tabela de transformação resulta no nome Miguel sendo usado na coluna Cluster.
No entanto, para os nomes William, Bill e "billy", não há maioria de valores, já que todos os três são únicos. Como William aparece primeiro, William é usado na coluna Cluster. Se "billy" tivesse aparecido primeiro na tabela, então "billy" seria usado na coluna Cluster. Além disso, como não há a maioria dos valores, maiúsculas e minúsculas usadas pelos nomes individuais são usadas. Ou seja, se William é o primeiro, William com um "W" maiúsculo é usado como o valor do resultado; Se "billy" é o primeiro, "billy" com um "b" minúsculo é usado.