Jak działa dopasowywanie rozmyte w dodatku Power Query
Funkcje dodatku Power Query, takie jak scalanie rozmyte, wartości klastra i grupowanie rozmyte, używają tych samych mechanizmów do działania co dopasowywanie rozmyte.
W tym artykule omówiono wiele scenariuszy, w których pokazano, jak korzystać z opcji rozmytego dopasowania, dzięki czemu "rozmyte" jest jasne.
Najlepszym scenariuszem stosowania algorytmu dopasowania rozmytego jest sytuacja, gdy wszystkie ciągi tekstowe w kolumnie zawierają tylko ciągi, które należy porównać i nie ma dodatkowych składników. Na przykład porównanie Apples
wyników o 4ppl3s
wyższej podobieństwie niż porównanie Apples
z My favorite fruit, by far, is Apples. I simply love them!
wartością .
Ponieważ wyraz Apples
w drugim ciągu jest tylko niewielką częścią całego ciągu tekstowego, porównanie daje niższy wynik podobieństwa.
Na przykład poniższy zestaw danych składa się z odpowiedzi z ankiety, która miała tylko jedno pytanie — "Co to jest twój ulubiony owoc?"
Owoc |
---|
Jagody |
Niebieskie jagody są po prostu najlepsze |
Truskawki |
Truskawki = <3 |
Jabłka |
"sples" |
4ppl3s |
Banany |
owoce fav to banany |
Banas |
Moje ulubione owoce, zdecydowanie, to Jabłka. Po prostu je kocham! |
Ankieta dostarczyła jedno pole tekstowe, aby wprowadzić wartość i nie miała walidacji.
Teraz masz za zadanie klasterowanie wartości. Aby wykonać to zadanie, załaduj poprzednią tabelę owoców do dodatku Power Query, wybierz kolumnę, a następnie wybierz opcję Wartości klastra na karcie Dodaj kolumnę na wstążce.
Zostanie wyświetlone okno dialogowe Wartości klastra, w którym można określić nazwę nowej kolumny. Nadaj nowej kolumnie nazwę Klaster i wybierz przycisk OK.
Domyślnie dodatek Power Query używa progu podobieństwa wynoszącego 0,8 (lub 80%). Wartość minimalna 0,00 powoduje, że wszystkie wartości z dowolnym poziomem podobieństwa pasują do siebie, a maksymalna wartość 1,00 zezwala tylko na dokładne dopasowania. Rozmyte "dokładne dopasowanie" może ignorować różnice, takie jak wielkość liter, kolejność słów i interpunkcja. Wynik poprzedniej operacji daje następującą tabelę z nową kolumną Klaster .
Gdy klastrowanie jest wykonywane, nie daje oczekiwanych wyników dla wszystkich wierszy. Wiersz numer dwa (2) nadal ma wartość Blue berries are simply the best
, ale powinien być klasterowany do Blueberries
, a coś podobnego dzieje się z ciągami tekstowymi Strawberries = <3
, fav fruit is bananas
i My favorite fruit, by far, is Apples. I simply love them!
.
Aby określić przyczyny tego klastrowania, kliknij dwukrotnie pozycję Wartości klastrowane w panelu Zastosowane kroki , aby przywrócić wartości klastra. W tym oknie dialogowym rozwiń pozycję Opcje klastra rozmytego. Włącz opcję Pokaż wyniki podobieństwa, a następnie wybierz przycisk OK.
Włączenie opcji Pokaż wyniki podobieństwa powoduje utworzenie nowej kolumny w tabeli. W tej kolumnie przedstawiono dokładny wynik podobieństwa między zdefiniowanym klastrem a oryginalną wartością.
Po bliższej inspekcji dodatek Power Query nie może odnaleźć żadnych innych wartości w progu podobieństwa dla ciągów tekstowych Blue berries are simply the best
, fav fruit is bananas
Strawberries = <3
, i My favorite fruit, by far, is Apples. I simply love them!
.
Wróć do okna dialogowego Wartości klastra jeszcze raz, klikając dwukrotnie wartości Klastrowane w panelu Zastosowane kroki . Zmień próg podobieństwa z 0.8 na 0.6, a następnie wybierz przycisk OK.
Ta zmiana przybliża cię do wyniku, którego szukasz, z wyjątkiem ciągu My favorite fruit, by far, is Apples. I simply love them!
tekstowego . Po zmianie wartości progu podobieństwa z 0,8 na 0,6 dodatek Power Query był teraz w stanie użyć wartości z wynikiem podobieństwa rozpoczynającym się od 0,6 aż do 1.
Uwaga
Dodatek Power Query zawsze używa wartości znajdującej się najbliżej progu, aby zdefiniować klastry. Próg definiuje niższy limit wyniku podobieństwa, który jest akceptowalny do przypisania wartości do klastra.
Możesz spróbować ponownie, zmieniając wynik podobieństwa z 0,6 na niższą liczbę, dopóki nie uzyskasz wyników, których szukasz. W tym przypadku zmień wynik podobieństwa na 0,5. Ta zmiana daje dokładny wynik, którego oczekujesz za pomocą ciągu My favorite fruit, by far, is Apples. I simply love them!
tekstowego przypisanego do klastra Apples
.
Uwaga
Obecnie tylko funkcja Wartości klastra w usłudze Power Query Online udostępnia nową kolumnę z oceną podobieństwa.
Tabela przekształceń ułatwia mapowanie wartości z kolumny na nowe wartości przed wykonaniem algorytmu dopasowywania rozmytego.
Kilka przykładów użycia tabeli przekształcania:
- Tabela przekształcania w wartościach klastra
- Tabela przekształceń w zapytaniach scalania rozmytego
- Tabela przekształcania w grupie według
Ważne
Gdy tabela przekształceń jest używana, maksymalny wynik podobieństwa dla wartości z tabeli przekształceń wynosi 0,95. Ta celowa kara 0,05 ma na celu odróżnienie, że oryginalna wartość z takiej kolumny nie jest równa wartościom, do których została porównana od czasu wystąpienia przekształcenia.
W przypadku scenariuszy, w których najpierw chcesz zamapować wartości, a następnie wykonać dopasowanie rozmyte bez kary 0,05, zalecamy zastąpienie wartości z kolumny, a następnie wykonanie dopasowywania rozmytego.