Udostępnij za pośrednictwem


Scalanie rozmyte

Scalanie rozmyte to funkcja inteligentnego przygotowywania danych, której można użyć do stosowania algorytmów dopasowywania rozmytego podczas porównywania kolumn. Te algorytmy próbują znaleźć dopasowania w tabelach, które są scalane.

Dopasowanie rozmyte można włączyć w dolnej części okna dialogowego Scalanie , wybierając przycisk Użyj dopasowania rozmytego, aby wykonać opcję scalania . Więcej informacji: Omówienie operacji scalania

Uwaga

Dopasowywanie rozmyte jest obsługiwane tylko w przypadku operacji scalania w kolumnach tekstowych. Dodatek Power Query używa algorytmu podobieństwa Jaccard do mierzenia podobieństwa między parami wystąpień.

Przykładowy scenariusz

Typowy przypadek użycia dopasowania rozmytego dotyczy pól tekstowych dowolnych, takich jak w ankiecie. W tym artykule przykładowa tabela została pobrana bezpośrednio z ankiety online wysłanej do grupy z tylko jednym pytaniem: Jaki jest twój ulubiony owoc?

Wyniki tej ankiety przedstawiono na poniższej ilustracji.

Przykładowa ankieta z nieprzetworzonymi wpisami.

Zrzut ekranu przedstawiający przykładową tabelę danych wyjściowych ankiety zawierającą wykres dystrybucji kolumn przedstawiający dziewięć odrębnych odpowiedzi z unikatowymi odpowiedziami oraz odpowiedzi na ankietę ze wszystkimi literami, liczbami mnogimi lub pojedynczymi i problemami z przypadkami.

Dziewięć rekordów odzwierciedla przesłane ankiety. Problem z zgłoszeniami ankiety polega na tym, że niektóre mają literówki, niektóre są mnogią, niektóre są pojedyncze, niektóre są wielkie, a niektóre są małe.

Aby ułatwić standaryzację tych wartości, w tym przykładzie masz tabelę referencyjną Owoce .

Tabela referencyjna owoców.

Zrzut ekranu przedstawiający tabelę referencyjną Owoce zawierającą wykres rozkładu kolumn przedstawiający cztery odrębne owoce ze wszystkimi owocami unikatowymi oraz listę owoców: jabłko, ananas, arbu i banan.

Uwaga

Dla uproszczenia ta tabela referencyjna Owoce zawiera tylko nazwę owoców, które będą potrzebne w tym scenariuszu. Tabela referencyjna może zawierać dowolną liczbę wierszy.

Celem jest utworzenie tabeli podobnej do poniższej, w której zostały ustandaryzowane wszystkie te wartości, aby można było przeprowadzić większą analizę.

Przykładowa tabela danych wyjściowych ankiety.

Zrzut ekranu przedstawiający przykładową tabelę danych wyjściowych ankiety z kolumną Pytanie zawierającą wykres rozkładu kolumn. Wykres przedstawia dziewięć odrębnych odpowiedzi ze wszystkimi odpowiedziami unikatowymi. Odpowiedzi na ankietę zawierają wszystkie literówki, liczbę mnogą lub pojedynczą oraz problemy z przypadkami. Tabela wyjściowa zawiera również kolumnę Fruit. Ta kolumna zawiera wykres dystrybucji kolumn przedstawiający cztery odrębne odpowiedzi z jedną unikatową odpowiedzią. Zawiera również listę wszystkich owoców prawidłowo zaklętych, pojedynczych i prawidłowych wielkości liter.

Operacja scalania rozmytego

Aby wykonać scalanie rozmyte, zacznij od scalania. W tym przypadku należy użyć lewego sprzężenia zewnętrznego, w którym lewa tabela jest jedyną z ankiety, a po prawej stronie znajduje się tabela referencyjna Owoce. W dolnej części okna dialogowego zaznacz pole wyboru Użyj dopasowywania rozmytego do wykonania scalania .

Zrzut ekranu przedstawiający okno dialogowe Scalanie, w którym pokazano, jak używać dopasowywania rozmytego do wykonania opcji scalania.

Po wybraniu przycisku OK możesz zobaczyć nową kolumnę w tabeli z powodu tej operacji scalania. Po rozwinięciu go istnieje jeden wiersz, który nie zawiera żadnych wartości. To dokładnie to, co komunikat okna dialogowego na poprzedniej ilustracji stwierdził, gdy powiedział: "Zaznaczenie pasuje do 8 z 9 wierszy z pierwszej tabeli."

Wyniki dopasowania rozmytego w kolumnie Fruit.

Zrzut ekranu przedstawiający kolumnę owocu dodaną do tabeli Survey. Wszystkie wiersze w kolumnie Pytanie są rozwinięte, z wyjątkiem wiersza 9, który nie może rozwinąć się, a kolumna Fruit zawiera wartość null.

Opcje dopasowywania rozmytego

Możesz zmodyfikować opcje dopasowywania rozmytego, aby dostosować sposób, w jaki należy wykonać przybliżone dopasowanie. Najpierw wybierz polecenie Scal zapytania , a następnie w oknie dialogowym Scalanie rozwiń pozycję Opcje dopasowywania rozmyte.

Zrzut ekranu przedstawiający okno dialogowe Scalanie z wyświetlonymi opcjami dopasowania rozmytego.

Dostępne opcje:

  • Próg podobieństwa (opcjonalnie): wartość z zakresu od 0,00 do 1,00, która zapewnia możliwość dopasowania rekordów powyżej danego wyniku podobieństwa. Próg 1,00 jest taki sam jak określenie dokładnych kryteriów dopasowania. Na przykład winogrona są zgodne z Graes (brakuje litery p) tylko wtedy, gdy próg jest ustawiony na wartość mniejszą niż 0,90. Domyślnie ta wartość jest ustawiona na 0,80.
  • Ignoruj wielkość liter: umożliwia dopasowywanie rekordów niezależnie od wielkości liter tekstu.
  • Dopasowanie przez połączenie części tekstu: umożliwia łączenie części tekstu w celu znalezienia dopasowań. Na przykład mikro soft jest dopasowywany do firmy Microsoft, jeśli ta opcja jest włączona.
  • Pokaż wyniki podobieństwa: pokazuje wyniki podobieństwa między danymi wejściowymi a dopasowanymi wartościami po dopasowaniu rozmyte.
  • Liczba dopasowań (opcjonalnie): określa maksymalną liczbę pasujących wierszy, które mogą być zwracane dla każdego wiersza wejściowego.
  • Tabela przekształcania (opcjonalnie): umożliwia dopasowywanie rekordów na podstawie niestandardowych mapowań wartości. Na przykład winogrona są dopasowywane do wartości Raisins, jeśli zostanie podana tabela przekształceń, w której kolumna From zawiera winogrona i kolumnę Do zawiera rodzynki.

Tabela przekształceń

Na przykład w tym artykule możesz użyć tabeli przekształceń, aby zamapować wartość, która ma brakującą parę. Ta wartość to apls, które należy zamapować na firmę Apple. Tabela przekształceń zawiera dwie kolumny:

  • Z zawiera wartości do znalezienia.
  • Aby zawierać wartości używane do zastępowania wartości znalezionych przy użyciu kolumny Od .

W tym artykule tabela przekształceń wygląda następująco:

Źródło Działanie
apls Apple

Możesz wrócić do okna dialogowego Scalanie, a w obszarze Rozmyte opcje dopasowania w obszarze Liczba dopasowań wprowadź wartość 1. Włącz opcję Pokaż wyniki podobieństwa, a następnie w obszarze Tabela przekształceń wybierz pozycję Przekształć tabelę z menu rozwijanego.

Zrzut ekranu przedstawiający okno dialogowe Scalanie z liczbą dopasowań ustawioną na 1 i tabelą Przekształcenia ustawioną na tabelę Przekształć.

Po wybraniu przycisku OK możesz przejść do kroku scalania. Po rozwinięciu kolumny z wartościami tabeli oprócz pola Fruit zostanie również wyświetlone pole Wynik podobieństwa. Zaznacz je i rozwiń bez dodawania prefiksu.

Zrzut ekranu przedstawiający okno dialogowe rozwijania tabeli dla kolumny Owoce zawierające wybrane pola Wyników owoców i podobieństwa.

Po rozwinięciu tych dwóch pól zostaną one dodane do tabeli. Zanotuj wartości, które otrzymujesz dla wyników podobieństwa każdej wartości. Te wyniki mogą pomóc w dalszym przekształceniu, jeśli jest to konieczne, aby określić, czy należy obniżyć lub zwiększyć próg podobieństwa.

Zrzut ekranu przedstawiający dane wyjściowe tabeli po wystąpieniu procesu scalania rozmytego, który przedstawia zarówno nowe pola wyników Owoców i Podobieństwa dla każdej wartości.

W tym przykładzie wynik podobieństwa służy tylko jako dodatkowe informacje i nie jest potrzebny w danych wyjściowych tego zapytania, aby można było go usunąć. Zwróć uwagę, jak przykład rozpoczął się od dziewięciu odrębnych wartości, ale po scaleniu rozmytym istnieją tylko cztery odrębne wartości.

Tabela danych wyjściowych ankiety rozmytej scalania.

Zrzut ekranu przedstawiający tabelę danych wyjściowych ankiety scalania rozmytego z kolumną Question zawierającą wykres dystrybucji kolumn przedstawiający dziewięć odrębnych odpowiedzi z unikatowymi odpowiedziami oraz odpowiedzi na ankietę ze wszystkimi literami, mnogą lub pojedynczą i problemami z przypadkami. Zawiera również kolumnę Fruit z wykresem rozkładu kolumn z czterema odrębnymi odpowiedziami z jedną unikatową odpowiedzią i wyświetla listę wszystkich owoców odpowiednio zaklętych, pojedynczych i prawidłowych liter.

Aby uzyskać więcej informacji na temat sposobu działania tabel przekształceń, przejdź do sekcji Wymagania dotyczące tabeli przekształcania.