Wartości klastra
Wartości klastra automatycznie tworzą grupy o podobnych wartościach przy użyciu algorytmu dopasowywania rozmytego, a następnie mapuj wartość każdej kolumny na najlepiej dopasowaną grupę. Ta transformacja jest przydatna podczas pracy z danymi, które mają wiele różnych odmian tej samej wartości i trzeba połączyć wartości w spójne grupy.
Rozważ przykładową tabelę z kolumną id zawierającą zestaw identyfikatorów i kolumnę Person zawierającą zestaw różnych pisowni i wielkich wersji nazw Miguel, Mike, William i Bill.
W tym przykładzie wynik, którego szukasz, to tabela z nową kolumną, która pokazuje odpowiednie grupy wartości z kolumny Person , a nie wszystkie różne odmiany tych samych słów.
Uwaga
Funkcja Wartości klastra jest dostępna tylko dla dodatku Power Query Online.
Tworzenie kolumny Klaster
Aby wybrać wartości klastra, najpierw wybierz kolumnę Osoba , przejdź do karty Dodaj kolumnę na wstążce, a następnie wybierz opcję Wartości klastra.
W oknie dialogowym Wartości klastra potwierdź kolumnę, z której chcesz utworzyć klastry, i wprowadź nową nazwę kolumny. W tym przypadku nadaj tej nowej kolumnie nazwę Klaster.
Wynik tej operacji przedstawiono na poniższej ilustracji.
Uwaga
Dla każdego klastra wartości dodatek Power Query wybiera najczęstsze wystąpienie z wybranej kolumny jako wystąpienie "kanoniczne". Jeśli wystąpi wiele wystąpień z tą samą częstotliwością, dodatek Power Query wybierze pierwszy z nich.
Korzystanie z opcji klastra rozmytego
Następujące opcje są dostępne dla wartości klastrowania w nowej kolumnie:
- Próg podobieństwa (opcjonalnie): Ta opcja wskazuje, jak podobne dwie wartości muszą być zgrupowane razem. Ustawienie minimalnej wartości zero (0) powoduje zgrupowanie wszystkich wartości. Ustawienie maksymalne 1 umożliwia grupowanie wartości, które dokładnie pasują do siebie. Wartość domyślna to 0,8.
- Ignoruj wielkość liter: w przypadku porównywania ciągów tekstowych wielkość liter jest ignorowana. Ta opcja jest domyślnie włączona.
- Grupuj, łącząc części tekstowe: algorytm próbuje połączyć części tekstowe (takie jak łączenie mikro i miękkie w firmie Microsoft) z wartościami grupowymi.
- Pokaż wyniki podobieństwa: pokazuje wyniki podobieństwa między wartościami wejściowymi i obliczonymi wartościami reprezentatywnymi po klastrowaniu rozmyte.
- Tabela przekształceń (opcjonalnie): możesz wybrać tabelę przekształcania, która mapuje wartości (takie jak mapowanie msFT na firmę Microsoft) w celu grupowania ich razem.
W tym przykładzie nowa tabela przekształceń o nazwie Moja tabela przekształcania służy do zademonstrowania sposobu mapowania wartości. Ta tabela przekształceń ma dwie kolumny:
- Od: ciąg tekstowy do wyszukania w tabeli.
- Do: ciąg tekstowy do użycia w celu zastąpienia ciągu tekstowego w kolumnie Od .
Ważne
Ważne jest, aby tabela przekształceń miała takie same kolumny i nazwy kolumn, jak pokazano na poprzedniej ilustracji (muszą mieć nazwy "Od" i "Do"), w przeciwnym razie dodatek Power Query nie rozpozna tej tabeli jako tabeli transformacji, a żadne przekształcenie nie zostanie wykonane.
Używając wcześniej utworzonego zapytania, kliknij dwukrotnie krok Wartości klastrowane, a następnie w oknie dialogowym Wartości klastra rozwiń pozycję Opcje klastra rozmyte. W obszarze Opcje rozmyte klastra włącz opcję Pokaż wyniki podobieństwa. W polu Tabela przekształceń (opcjonalnie) wybierz zapytanie zawierające tabelę przekształcania.
Po wybraniu tabeli przekształceń i włączeniu opcji Pokaż wyniki podobieństwa wybierz przycisk OK. Wynikiem tej operacji jest tabela zawierająca te same kolumny id i Person co oryginalna tabela, ale także dwie nowe kolumny o nazwie Cluster i Person_Cluster_Similarity. Kolumna Cluster (Klaster ) zawiera poprawnie napisane i wielkie wersje nazw Miguela dla wersji Miguela i Mike'a oraz Williama dla wersji Billa, Billy'ego i Williama. Kolumna Person_Cluster_Similarity zawiera wyniki podobieństwa dla każdej z nazw.
Wymagania dotyczące tabeli przekształceń
Możesz zauważyć, że tabela transformacji w poprzedniej sekcji wydaje się wskazywać, że wystąpienia Mike'a są zmieniane na Miguela, a wystąpienia Williama są zmieniane na Bill. Jednak w tabeli wynikowej wystąpienia Billa i "billy" zostały zamiast tego zmienione na William. W tabeli transformacji, a nie jest bezpośrednią ścieżką Od do, tabela transformacji jest symetryczna podczas klastrowania, co oznacza, że "mike" jest odpowiednikiem "Miguel" i na odwrót. Wynik odpowiedników podanych w tabeli przekształceń zależy od następujących reguł:
- Jeśli istnieje większość identycznych wartości, te wartości mają pierwszeństwo przed wartościami nieidentycznymi.
- Jeśli nie ma większości wartości, wartość, która jest wyświetlana jako pierwsza, ma pierwszeństwo.
Na przykład w oryginalnej tabeli używanej w tym artykule wersje Miguel (zarówno miguel" i Miguel) w kolumnie Person składają się na większość wystąpień nazwy Miguel i Mike. Ponadto nazwa Miguel z początkowymi czapkami stanowi większość nazwy Miguel. Dlatego skojarzenie Miguela i jego pochodnych oraz Mike'a i jego pochodnych w tabeli przekształcania powoduje, że nazwa Miguel jest używana w kolumnie Klaster .
Jednak dla nazw William, Bill i "billy" nie ma większości wartości, ponieważ wszystkie trzy są unikatowe. Ponieważ William pojawia się jako pierwszy, William jest używany w kolumnie Cluster (Klaster). Jeśli "billy" pojawiłby się najpierw w tabeli, w kolumnie Klaster zostanie użyty ciąg "billy". Ponadto, ponieważ nie ma większości wartości, jest używany przypadek używany przez poszczególne nazwy. Oznacza to, że jeśli William jest pierwszy, William z wielkimi literami "W" jest używany jako wartość wynikowa; jeśli "billy" jest pierwszy, "billy" z małymi literami "b" jest używany.