Fusão difusa
A mesclagem difusa é um recurso inteligente de preparação de dados que você pode usar para aplicar algoritmos de correspondência difusa ao comparar colunas. Esses algoritmos tentam encontrar correspondências nas tabelas que estão sendo mescladas.
Você pode habilitar a correspondência difusa na parte inferior da caixa de diálogo Mesclar selecionando o botão de opção Usar correspondência difusa para executar a mesclagem . Para obter mais informações: Visão geral das operações de mesclagem
Nota
A correspondência difusa só é suportada em operações de mesclagem em colunas de texto. O Power Query utiliza o algoritmo de semelhança Jaccard para medir a semelhança entre pares de instâncias.
Cenário de exemplo
Um caso de uso comum para correspondência difusa é com campos de texto de forma livre, como em uma pesquisa. Para este artigo, a tabela de amostra foi retirada diretamente de uma pesquisa on-line enviada a um grupo com apenas uma pergunta: Qual é sua fruta favorita?
Os resultados desse inquérito são apresentados na imagem seguinte.
Captura de ecrã da tabela de resultados do inquérito por amostragem que contém o gráfico de distribuição de colunas que mostra nove respostas distintas com todas as respostas únicas e as respostas ao inquérito com todos os erros de digitação, plurais ou singulares, e problemas de caso.
Os nove registos refletem as submissões do inquérito. O problema com os envios da pesquisa é que alguns têm erros de digitação, alguns são plurais, alguns são singulares, alguns são maiúsculos e alguns são minúsculos.
Para ajudar a padronizar esses valores, neste exemplo você tem uma tabela de referência de Frutas .
Captura de tela da tabela de referência Frutas contendo gráfico de distribuição de colunas mostrando quatro frutas distintas com todas as frutas únicas, e a lista de frutas: maçã, abacaxi, melancia e banana.
Nota
Para simplificar, esta tabela de referência de Frutas inclui apenas o nome das frutas que serão necessárias para este cenário. Sua tabela de referência pode ter quantas linhas você precisar.
O objetivo é criar uma tabela como a seguinte, onde você padronizou todos esses valores para que possa fazer mais análises.
Captura de ecrã da tabela de resultados do inquérito por exemplo com a coluna Pergunta que contém o gráfico de distribuição de colunas. O gráfico mostra nove respostas distintas com todas as respostas únicas. As respostas à pesquisa contêm todos os erros de digitação, plurais ou singulares, e problemas de caso. A tabela de saída também contém a coluna Fruit. Esta coluna contém o gráfico de distribuição de colunas mostrando quatro respostas distintas com uma resposta única. Ele também lista todos os frutos corretamente escritos, singulares e maiúsculas e minúsculas.
Operação de fusão difusa
Para fazer a mesclagem difusa, você começa fazendo uma mesclagem. Neste caso, você usa uma junção externa esquerda, onde a tabela esquerda é a da pesquisa e a tabela direita é a tabela de referência Frutas . Na parte inferior da caixa de diálogo, marque a caixa de seleção Usar correspondência difusa para executar a mesclagem .
Depois de selecionar OK, você pode ver uma nova coluna na tabela devido a essa operação de mesclagem. Se você expandi-lo, há uma linha que não tem nenhum valor nele. Isso é exatamente o que a mensagem da caixa de diálogo na imagem anterior afirmava quando dizia "A seleção corresponde a 8 de 9 linhas da primeira tabela".
Captura de tela da coluna de frutas adicionada à tabela Pesquisa. Todas as linhas na coluna Pergunta são expandidas, exceto a linha 9, que não pôde ser expandida e a coluna Fruit contém null.
Opções de correspondência difusa
Você pode modificar as opções de correspondência difusa para ajustar como a correspondência aproximada deve ser feita. Primeiro, selecione o comando Mesclar consultas e, em seguida, na caixa de diálogo Mesclar, expanda Opções de correspondência difusa.
As opções disponíveis são:
- Limiar de similaridade (opcional): um valor entre 0,00 e 1,00 que fornece a capacidade de corresponder registros acima de uma determinada pontuação de similaridade. Um limite de 1,00 é o mesmo que especificar um critério de correspondência exato. Por exemplo, Uvas corresponde a Graes (faltando a letra p) somente se o limite for definido como inferior a 0,90. Por padrão, esse valor é definido como 0,80.
- Ignorar maiúsculas e minúsculas: permite a correspondência de registros, independentemente do caso do texto.
- Corresponder combinando partes de texto: Permite combinar partes de texto para encontrar correspondências. Por exemplo, o Micro soft é compatível com a Microsoft se esta opção estiver ativada.
- Mostrar pontuações de similaridade: mostra pontuações de semelhança entre a entrada e os valores correspondentes após a correspondência difusa.
- Número de correspondências (opcional): Especifica o número máximo de linhas correspondentes que podem ser retornadas para cada linha de entrada.
- Tabela de transformação (opcional): Permite a correspondência de registros com base em mapeamentos de valores personalizados. Por exemplo, uvas são combinadas com passas se uma tabela de transformação é fornecida onde a coluna De contém uvas e a coluna Para contém passas.
Tabela de transformação
Para o exemplo neste artigo, você pode usar uma tabela de transformação para mapear o valor que tem um par ausente. Esse valor é apls, que precisa ser mapeado para a Apple. A tabela de transformação tem duas colunas:
- De contém os valores a serem encontrados.
- Para contém os valores que são usados para substituir os valores encontrados usando a coluna De .
Para este artigo, a tabela de transformação tem a seguinte aparência:
De | Para |
---|---|
APLs | Apple |
Você pode voltar para a caixa de diálogo Mesclar e, em Opções de correspondência difusa, em Número de correspondências, digite 1. Habilite a opção Mostrar pontuações de semelhança e, em Tabela de transformação, selecione Transformar tabela no menu suspenso.
Depois de selecionar OK, você pode ir para a etapa de mesclagem. Quando você expande a coluna com valores de tabela, além do campo Fruta, você também vê o campo Pontuação de similaridade. Selecione ambos e expanda-os sem adicionar um prefixo.
Depois de expandir esses dois campos, eles serão adicionados à sua tabela. Observe os valores obtidos para as pontuações de semelhança de cada valor. Essas pontuações podem ajudá-lo com outras transformações, se necessário, para determinar se você deve reduzir ou aumentar seu limite de similaridade.
Neste exemplo, a pontuação de Similaridade serve apenas como informações adicionais e não é necessária na saída desta consulta, para que você possa removê-la. Observe como o exemplo começou com nove valores distintos, mas após a mesclagem difusa, há apenas quatro valores distintos.
Captura de tela da tabela de saída da pesquisa de mesclagem difusa com a coluna Pergunta contendo o gráfico de distribuição de colunas mostrando nove respostas distintas com todas as respostas exclusivas e as respostas à pesquisa com todos os erros de digitação, plurais ou singulares, e problemas de caso. Também contém a coluna Fruit com o gráfico de distribuição de colunas mostrando quatro respostas distintas com uma resposta única e lista todas as frutas corretamente escritas, singulares e maiúsculas e minúsculas.
Para obter mais informações sobre como as tabelas de transformação funcionam, vá para Preceitos da tabela de transformação.