Fusão difusa

2024-06-04

A mesclagem difusa é um recurso inteligente de preparação de dados que você pode usar para aplicar algoritmos de correspondência difusa ao comparar colunas. Esses algoritmos tentam encontrar correspondências nas tabelas que estão sendo mescladas.

Você pode habilitar a correspondência difusa na parte inferior da caixa de diálogo Mesclar selecionando o botão de opção Usar correspondência difusa para executar a mesclagem . Para obter mais informações: Visão geral das operações de mesclagem

Nota

A correspondência difusa só é suportada em operações de mesclagem em colunas de texto. O Power Query utiliza o algoritmo de semelhança Jaccard para medir a semelhança entre pares de instâncias.

Cenário de exemplo

Um caso de uso comum para correspondência difusa é com campos de texto de forma livre, como em uma pesquisa. Para este artigo, a tabela de amostra foi retirada diretamente de uma pesquisa on-line enviada a um grupo com apenas uma pergunta: Qual é sua fruta favorita?

Os resultados desse inquérito são apresentados na imagem seguinte.

Inquérito por amostragem com entradas brutas.

Os nove registos refletem as submissões do inquérito. O problema com os envios da pesquisa é que alguns têm erros de digitação, alguns são plurais, alguns são singulares, alguns são maiúsculos e alguns são minúsculos.

Para ajudar a padronizar esses valores, neste exemplo você tem uma tabela de referência de Frutas .

Tabela de referência de frutos.

Nota

Para simplificar, esta tabela de referência de Frutas inclui apenas o nome das frutas que serão necessárias para este cenário. Sua tabela de referência pode ter quantas linhas você precisar.

O objetivo é criar uma tabela como a seguinte, onde você padronizou todos esses valores para que possa fazer mais análises.

Tabela de resultados de inquéritos por amostragem.

Operação de fusão difusa

Para fazer a mesclagem difusa, você começa fazendo uma mesclagem. Neste caso, você usa uma junção externa esquerda, onde a tabela esquerda é a da pesquisa e a tabela direita é a tabela de referência Frutas . Na parte inferior da caixa de diálogo, marque a caixa de seleção Usar correspondência difusa para executar a mesclagem .

Captura de tela da caixa de diálogo Mesclar mostrando como usar a correspondência difusa para executar a opção de mesclagem.

Depois de selecionar OK, você pode ver uma nova coluna na tabela devido a essa operação de mesclagem. Se você expandi-lo, há uma linha que não tem nenhum valor nele. Isso é exatamente o que a mensagem da caixa de diálogo na imagem anterior afirmava quando dizia "A seleção corresponde a 8 de 9 linhas da primeira tabela".

Opções de correspondência difusa

Você pode modificar as opções de correspondência difusa para ajustar como a correspondência aproximada deve ser feita. Primeiro, selecione o comando Mesclar consultas e, em seguida, na caixa de diálogo Mesclar, expanda Opções de correspondência difusa.

Captura de tela da caixa de diálogo Mesclar com as opções de correspondência difusa exibidas.

As opções disponíveis são:

Limiar de similaridade (opcional): um valor entre 0,00 e 1,00 que fornece a capacidade de corresponder registros acima de uma determinada pontuação de similaridade. Um limite de 1,00 é o mesmo que especificar um critério de correspondência exato. Por exemplo, Uvas corresponde a Graes (faltando a letra p) somente se o limite for definido como inferior a 0,90. Por padrão, esse valor é definido como 0,80.
Ignorar maiúsculas e minúsculas: permite a correspondência de registros, independentemente do caso do texto.
Corresponder combinando partes de texto: Permite combinar partes de texto para encontrar correspondências. Por exemplo, o Micro soft é compatível com a Microsoft se esta opção estiver ativada.
Mostrar pontuações de similaridade: mostra pontuações de semelhança entre a entrada e os valores correspondentes após a correspondência difusa.
Número de correspondências (opcional): Especifica o número máximo de linhas correspondentes que podem ser retornadas para cada linha de entrada.
Tabela de transformação (opcional): Permite a correspondência de registros com base em mapeamentos de valores personalizados. Por exemplo, uvas são combinadas com passas se uma tabela de transformação é fornecida onde a coluna De contém uvas e a coluna Para contém passas.

Tabela de transformação

Para o exemplo neste artigo, você pode usar uma tabela de transformação para mapear o valor que tem um par ausente. Esse valor é apls, que precisa ser mapeado para a Apple. A tabela de transformação tem duas colunas:

De contém os valores a serem encontrados.
Para contém os valores que são usados para substituir os valores encontrados usando a coluna De .

Para este artigo, a tabela de transformação tem a seguinte aparência:

De	Para
APLs	Apple

Você pode voltar para a caixa de diálogo Mesclar e, em Opções de correspondência difusa, em Número de correspondências, digite 1. Habilite a opção Mostrar pontuações de semelhança e, em Tabela de transformação, selecione Transformar tabela no menu suspenso.

Captura de tela da caixa de diálogo Mesclar com o número de correspondências definido como 1 e a tabela Transformação definida como tabela Transformar.

Depois de selecionar OK, você pode ir para a etapa de mesclagem. Quando você expande a coluna com valores de tabela, além do campo Fruta, você também vê o campo Pontuação de similaridade. Selecione ambos e expanda-os sem adicionar um prefixo.

Depois de expandir esses dois campos, eles serão adicionados à sua tabela. Observe os valores obtidos para as pontuações de semelhança de cada valor. Essas pontuações podem ajudá-lo com outras transformações, se necessário, para determinar se você deve reduzir ou aumentar seu limite de similaridade.

Captura de tela da saída da tabela após o processo de mesclagem difusa mostrando os novos campos de pontuação Fruit e Similarity para cada valor.

Neste exemplo, a pontuação de Similaridade serve apenas como informações adicionais e não é necessária na saída desta consulta, para que você possa removê-la. Observe como o exemplo começou com nove valores distintos, mas após a mesclagem difusa, há apenas quatro valores distintos.

Tabela de saída de pesquisa de mesclagem difusa.

Para obter mais informações sobre como as tabelas de transformação funcionam, vá para Preceitos da tabela de transformação.

Partilhar via

Fusão difusa

Cenário de exemplo

Operação de fusão difusa

Opções de correspondência difusa

Tabela de transformação

Conteúdos relacionados

Comentários

Recursos adicionais