Κοινοποίηση μέσω


Τιμές συμπλέγματος

Οι τιμές συμπλέγματος δημιουργούν αυτόματα ομάδες με παρόμοιες τιμές χρησιμοποιώντας έναν αλγόριθμο ασαφούς αντιστοίχισης και, στη συνέχεια, αντιστοιχίζουν την τιμή κάθε στήλης στην ομάδα με την καλύτερη αντιστοίχιση. Αυτός ο μετασχηματισμός είναι χρήσιμος όταν εργάζεστε με δεδομένα που έχουν πολλές διαφορετικές παραλλαγές της ίδιας τιμής και πρέπει να συνδυάσετε τιμές σε συνεπείς ομάδες.

Εξετάστε ένα δείγμα πίνακα με μια στήλη αναγνωριστικού που περιέχει ένα σύνολο αναγνωριστικών και μια στήλη "Πρόσωπο" που περιέχει ένα σύνολο εκδόσεων με διάφορα ορθογραφικά και κεφαλαία γράμματα των ονομάτων Miguel, Mike, William και Bill.

Στιγμιότυπο οθόνης του πίνακα με εννέα σειρές καταχωρήσεων που περιέχουν διάφορες ορθογραφίες και κεφαλαία του ονόματος Miguel και William.

Σε αυτό το παράδειγμα, το αποτέλεσμα που αναζητάτε είναι ένας πίνακας με μια νέα στήλη που εμφανίζει τις σωστές ομάδες τιμών από τη στήλη "Άτομο" και όχι όλες τις διαφορετικές παραλλαγές των ίδιων λέξεων.

Στιγμιότυπο οθόνης των ομαδοποιημένων τιμών ως νέα στήλη που ονομάζεται

Σημείωμα

Η δυνατότητα Τιμές συμπλέγματος είναι διαθέσιμη μόνο για το Power Query Online.

Δημιουργία στήλης συμπλέγματος

Για να ομαδοποιήσετε τιμές, επιλέξτε πρώτα τη στήλη Άτομο , μεταβείτε στην καρτέλα Προσθήκη στήλης στην κορδέλα και, στη συνέχεια, επιλέξτε Τιμές συμπλέγματος .

Στιγμιότυπο οθόνης του εικονιδίου τιμών συμπλέγματος μέσα στην καρτέλα Προσθήκη στήλης στην κορδέλα Power Query online.

Στο παράθυρο διαλόγου Τιμές συμπλέγματος , επιβεβαιώστε τη στήλη από την οποία θέλετε να χρησιμοποιήσετε για τη δημιουργία των συμπλεγμάτων και πληκτρολογήστε το νέο όνομα της στήλης. Για αυτήν την περίπτωση, ονομάστε αυτή τη νέα στήλη Σύμπλεγμα.

Στιγμιότυπο οθόνης του παραθύρου τιμών συμπλέγματος με επιλεγμένη τη στήλη Άτομο και τη στήλη Νέο με το όνομα Σύμπλεγμα.

Το αποτέλεσμα αυτής της λειτουργίας φαίνεται στην παρακάτω εικόνα.

Στιγμιότυπο οθόνης των ομαδοποιημένων τιμών ως νέα στήλη που ονομάζεται

Σημείωμα

Για κάθε σύμπλεγμα τιμών, το Power Query επιλέγει την πιο συχνή παρουσία από την επιλεγμένη στήλη ως "κανονική" παρουσία. Εάν προκύψουν πολλές παρουσίες με την ίδια συχνότητα, το Power Query επιλέγει την πρώτη.

Χρήση των επιλογών ασαφούς συμπλέγματος

Οι ακόλουθες επιλογές είναι διαθέσιμες για την ομαδοποίηση τιμών σε μια νέα στήλη:

  • Όριο ομοιότητας (προαιρετικό): Αυτή η επιλογή υποδεικνύει πόσο παρόμοιες πρέπει να είναι δύο τιμές για να ομαδοποιηθούν. Η ελάχιστη ρύθμιση μηδέν (0) προκαλεί την ομαδοποίηση όλων των τιμών. Η μέγιστη ρύθμιση 1 επιτρέπει μόνο την ομαδοποίηση τιμών που ταιριάζουν ακριβώς. Η προεπιλογή είναι 0,8.
  • Παράβλεψη πεζών-κεφαλαίων: Όταν συγκρίνονται συμβολοσειρές κειμένου, τα πεζά-κεφαλαία αγνοούνται. Αυτή η επιλογή είναι ενεργοποιημένη από προεπιλογή.
  • Ομαδοποίηση με συνδυασμό τμημάτων κειμένου: Ο αλγόριθμος προσπαθεί να συνδυάσει τμήματα κειμένου (όπως ο συνδυασμός Micro και soft στη Microsoft) για να ομαδοποιήσει τιμές.
  • Εμφάνιση βαθμολογιών ομοιότητας: Εμφανίζει βαθμολογίες ομοιότητας μεταξύ των τιμών εισόδου και των υπολογισμένων αντιπροσωπευτικών τιμών μετά από ασαφή ομαδοποίηση.
  • Πίνακας μετασχηματισμού (προαιρετικό): Μπορείτε να επιλέξετε έναν πίνακα μετασχηματισμού που αντιστοιχίζει τιμές (όπως αντιστοίχιση MSFT στη Microsoft) για να τις ομαδοποιήσετε.

Για αυτό το παράδειγμα, ένας νέος πίνακας μετασχηματισμού με το όνομα Ο πίνακας μετασχηματισμού μου χρησιμοποιείται για να δείξει τον τρόπο αντιστοίχισης των τιμών. Αυτός ο πίνακας μετασχηματισμού έχει δύο στήλες:

  • Από: Η συμβολοσειρά κειμένου που θα αναζητήσετε στον πίνακά σας.
  • Προς: Η συμβολοσειρά κειμένου που θα χρησιμοποιηθεί για την αντικατάσταση της συμβολοσειράς κειμένου στη στήλη Από .

Στιγμιότυπο οθόνης του πίνακα που εμφανίζει τις τιμές

Σημαντικό

Είναι σημαντικό ο πίνακας μετασχηματισμού να έχει τις ίδιες στήλες και ονόματα στηλών όπως φαίνεται στην προηγούμενη εικόνα (πρέπει να ονομάζονται "Από" και "Προς"), διαφορετικά το Power Query δεν θα αναγνωρίσει αυτόν τον πίνακα ως πίνακα μετασχηματισμού και δεν θα πραγματοποιηθεί μετασχηματισμός.

Χρησιμοποιώντας το ερώτημα που δημιουργήσατε προηγουμένως, κάντε διπλό κλικ στο βήμα Ομαδοποιημένες τιμές και, στη συνέχεια, στο παράθυρο διαλόγου Τιμές συμπλέγματος , αναπτύξτε το στοιχείο Επιλογές ασαφούς συμπλέγματος. Στην περιοχή Επιλογές ασαφούς συμπλέγματος, ενεργοποιήστε την επιλογή Εμφάνιση βαθμολογιών ομοιότητας . Για τον Πίνακα μετασχηματισμού (προαιρετικό), επιλέξτε το ερώτημα που περιέχει τον πίνακα μετασχηματισμού.

Στιγμιότυπο οθόνης των επιλογών ασαφούς συμπλέγματος με αναπτυσσόμενο μενού πίνακα μετασχηματισμού που έχει οριστεί στο δείγμα πίνακα μετασχηματισμού.

Αφού επιλέξετε τον πίνακα μετασχηματισμού και ενεργοποιήσετε την επιλογή Εμφάνιση βαθμολογιών ομοιότητας, επιλέξτε OK. Το αποτέλεσμα αυτής της λειτουργίας σάς δίνει έναν πίνακα που περιέχει τις ίδιες στήλες id και Person με τον αρχικό πίνακα, αλλά περιλαμβάνει επίσης δύο νέες στήλες που ονομάζονται Cluster και Person_Cluster_Similarity. Η στήλη Σύμπλεγμα περιέχει τις σωστά γραμμένες και κεφαλαίες εκδόσεις των ονομάτων Miguel για τις εκδόσεις των Miguel και Mike και William για τις εκδόσεις των Bill, Billy και William. Η στήλη Person_Cluster_Similarity περιέχει τις βαθμολογίες ομοιότητας για καθένα από τα ονόματα.

Στιγμιότυπο οθόνης του πίνακα που περιέχει τις νέες στήλες

Εντολές πίνακα μετασχηματισμού

Μπορεί να παρατηρήσετε ότι ο πίνακας μετασχηματισμού στην προηγούμενη ενότητα φάνηκε να υποδεικνύει ότι οι παρουσίες του Mike αλλάζουν σε Miguel και οι παρουσίες του William αλλάζουν σε Bill. Ωστόσο, στον πίνακα που προέκυψε, οι περιπτώσεις του Bill και του "billy" άλλαξαν σε William. Στον πίνακα μετασχηματισμού, αντί να είναι μια απευθείας διαδρομή από προς το , ο πίνακας μετασχηματισμού είναι συμμετρικός κατά τη δημιουργία συμπλεγμάτων, πράγμα που σημαίνει ότι το "mike" είναι ισοδύναμο με το "Miguel" και αντίστροφα. Το αποτέλεσμα των ισοδυνάμων που δίνονται στον πίνακα μετασχηματισμού εξαρτάται από τους ακόλουθους κανόνες:

  • Εάν υπάρχει πλειοψηφία πανομοιότυπων τιμών, αυτές οι τιμές έχουν προτεραιότητα έναντι των μη πανομοιότυπων τιμών.
  • Εάν δεν υπάρχει πλειοψηφία τιμών, η τιμή που εμφανίζεται πρώτη έχει προτεραιότητα.

Για παράδειγμα, στον αρχικό πίνακα που χρησιμοποιείται σε αυτό το άρθρο, οι εκδόσεις του Miguel (τόσο του "miguel" όσο και του Miguel) στη στήλη Person αποτελούν την πλειονότητα των εμφανίσεων του ονόματος Miguel και Mike. Επιπλέον, το όνομα Miguel με αρχικά κεφαλαία αποτελεί την πλειοψηφία του ονόματος Miguel. Έτσι, η συσχέτιση του Miguel και των παραγώγων του και του Mike και των παραγώγων του στον πίνακα μετασχηματισμού έχει ως αποτέλεσμα το όνομα Miguel να χρησιμοποιείται στη στήλη Σύμπλεγμα .

Ωστόσο, για τα ονόματα William, Bill και "billy", δεν υπάρχει πλειοψηφία αξιών αφού και τα τρία είναι μοναδικά. Εφόσον ο Γουίλιαμ εμφανίζεται πρώτος, ο Γουίλιαμ χρησιμοποιείται στη στήλη Σύμπλεγμα . Εάν το "billy" είχε εμφανιστεί πρώτο στον πίνακα, τότε το "billy" θα χρησιμοποιούνταν στη στήλη Cluster . Επίσης, επειδή δεν υπάρχει πλειοψηφία τιμών, χρησιμοποιείται η πτώση που χρησιμοποιείται από τα μεμονωμένα ονόματα. Δηλαδή, εάν ο William είναι πρώτος, ο William με κεφαλαίο "W" χρησιμοποιείται ως τιμή αποτελέσματος. Εάν το "billy" είναι πρώτο, χρησιμοποιείται το "billy" με πεζό "b".