Ler em inglês

Compartilhar via


Valores do cluster

Os valores de cluster criam grupos automaticamente com valores semelhantes usando um algoritmo de correspondência difusa e mapeia o valor de cada coluna para o grupo mais bem correspondido. Essa transformação é útil quando você está trabalhando com dados que têm muitas variações diferentes do mesmo valor e você precisa combinar valores em grupos consistentes.

Considere uma tabela de exemplo com uma coluna de ID que contém um conjunto de IDs e uma coluna Pessoa contendo um conjunto de versões ortográficas e maiúsculas dos nomes Miguel, Mike, William e Bill.

Captura de tela da tabela com nove linhas de verbetes que contêm várias grafias e capitalizações do nome Miguel e William.

Neste exemplo, o resultado que você está procurando é uma tabela com uma nova coluna que mostra os grupos corretos de valores da coluna Pessoa e não todas as diferentes variações das mesmas palavras.

Captura de tela dos valores agrupados como uma nova coluna chamada Cluster na tabela inicial.

Observação

O recurso valores de cluster está disponível apenas para o Power Query Online.

Criar uma coluna cluster

Para valores de cluster, primeiro selecione a coluna Pessoa, vá para a guia Adicionar coluna na faixa de opções e selecione a opção Valores do Cluster.

Captura de tela do ícone de valores de cluster na guia Adicionar coluna na faixa de opções online do Power Query.

Na caixa de diálogo Valores do Cluster, confirme a coluna da qual você deseja usar para criar os clusters e insira o novo nome da coluna. Para esse caso, nomeie este novo cluster de colunas.

Captura de tela da janela de valores de cluster com a coluna Pessoa selecionada e a nova coluna denominada Cluster.

O resultado dessa operação produzirá é mostrada na imagem a seguir.

Captura de tela dos valores agrupados como uma nova coluna chamada Cluster na tabela inicial.

Observação

Para cada cluster de valores, Power Query escolhe a instância mais frequente da coluna selecionada como a instância "canônica". Se várias instâncias ocorrerem com a mesma frequência, o Power Query escolherá a primeira.

Usar as opções de cluster difusas

As seguintes opções estão disponíveis para valores de clustering em uma nova coluna:

  • Limite de similaridade (opcional): indica a semelhança que dois valores precisam ter para serem agrupados. A configuração mínima de zero (0) faz com que todos os valores sejam agrupados. A configuração máxima de 1 só permite que os valores que correspondem exatamente sejam agrupados. O padrão é 0,8.
  • Ignorar maiúsculas e minúsculas: maiúsculas e minúsculas serão ignoradas quando cadeias de caracteres de texto são comparadas. Por padrão, essa opção é ativada.
  • Agrupar combinando partes de texto: O algoritmo tenta combinar partes de texto (como combinar Micro e soft em Microsoft) para agrupar valores.
  • Mostrar pontuações de similaridade: mostra as pontuações de similaridade entre os valores de entrada e os valores representantes calculados após o agrupamento difuso.
  • Tabela de transformação (opcional): Você pode selecionar uma tabela de transformação que mapeia valores (como mapear MSFT para Microsoft) para agrupá-los.

Para este exemplo, uma nova tabela de transformação com o nome Minha tabela de transformação é usada para demonstrar como os valores podem ser mapeados. Esta tabela de transformação tem duas colunas:

  • De: a cadeia de caracteres de texto a ser pesquisada na tabela.
  • Para: a cadeia de caracteres de texto a ser usada para substituir a cadeia de caracteres de texto na coluna De.

Captura de tela da tabela mostrando valores De Mike e William, e valores Até Miguel e Bill.

Importante

É importante que a tabela de transformação tenha as mesmas colunas e nomes de colunas, conforme mostrado na imagem anterior (eles precisam ser nomeados como "De" e "Para"), caso contrário, o Power Query não reconhecerá essa tabela como uma tabela de transformação e nenhuma transformação ocorrerá.

Usando a consulta criada anteriormente, clique duas vezes na etapa Valores agrupados e, na caixa de diálogo Valores do Cluster, expanda as opções de Cluster Difuso. Em Opções de cluster difuso, habilite a opção Mostrar pontuações de similaridade. Para a tabela Transformação (opcional), selecione a consulta que tem a tabela de transformação.

Captura de tela das opções de cluster difuso com o menu suspenso da tabela de transformação definido para a tabela de transformação de exemplo.

Depois de selecionar sua tabela de transformação e habilitar a opção Mostrar pontuações de similaridade, selecione OK. O resultado dessa operação dá a você uma tabela que contém as mesmas colunas ID e Pessoa que a tabela original, mas também inclui duas novas colunas chamadas Cluster e Person_Cluster_Similarity. A coluna Cluster contém as versões corretamente ortográficas e maiúsculas dos nomes Miguel para versões de Miguel e Mike, e William para versões de Bill, Billy e William. A coluna Person_Cluster_Similarity contém as pontuações de similaridade para cada um dos nomes.

Captura de tela da tabela contendo as novas colunas Cluster e Person_Cluster_Similarity.

Preceitos da tabela de transformação

Você pode notar que a tabela de transformação na seção anterior parecia indicar que as instâncias de Mike são alteradas para Miguel e as instâncias de William são alteradas para Bill. No entanto, na tabela resultante, as instâncias de Bill e "billy" foram alteradas para William. Na tabela de transformação, em vez de ser um caminho direto de De para Para, a tabela de transformação é simétrica durante o clustering, o que significa que "mike" é equivalente a "Miguel" e vice-versa. O resultado dos equivalentes indicados na tabela de transformação depende das seguintes regras:

  • Se houver uma maioria de valores idênticos, esses valores terão precedência sobre valores não idênticos.
  • Se não houver a maioria dos valores, o valor que aparecer primeiro terá precedência.

Por exemplo, na tabela original usada neste artigo, as versões de Miguel (tanto "miguel" quanto Miguel) na coluna Pessoa compõem a maioria das instâncias do nome Miguel e Mike. Além disso, o nome Miguel com inicial maiúscula compõe a maioria do nome Miguel. Assim, associar Miguel e seus derivados e Mike e seus derivados na tabela de transformação resulta no nome Miguel sendo usado na coluna Cluster.

No entanto, para os nomes William, Bill e "billy", não há maioria de valores, já que todos os três são únicos. Como William aparece primeiro, William é usado na coluna Cluster. Se "billy" tivesse aparecido primeiro na tabela, então "billy" seria usado na coluna Cluster. Além disso, como não há a maioria dos valores, maiúsculas e minúsculas usadas pelos nomes individuais são usadas. Ou seja, se William é o primeiro, William com um "W" maiúsculo é usado como o valor do resultado; Se "billy" é o primeiro, "billy" com um "b" minúsculo é usado.