Σημείωση
Η πρόσβαση σε αυτή τη σελίδα απαιτεί εξουσιοδότηση. Μπορείτε να δοκιμάσετε να συνδεθείτε ή να αλλάξετε καταλόγους.
Η πρόσβαση σε αυτή τη σελίδα απαιτεί εξουσιοδότηση. Μπορείτε να δοκιμάσετε να αλλάξετε καταλόγους.
Οι τιμές συμπλέγματος δημιουργούν αυτόματα ομάδες με παρόμοιες τιμές χρησιμοποιώντας έναν αλγόριθμο ασαφούς αντιστοίχισης και, στη συνέχεια, αντιστοιχίζουν την τιμή κάθε στήλης στην ομάδα με την καλύτερη αντιστοίχιση. Αυτός ο μετασχηματισμός είναι χρήσιμος όταν εργάζεστε με δεδομένα που έχουν πολλές διαφορετικές παραλλαγές της ίδιας τιμής και πρέπει να συνδυάσετε τιμές σε συνεπείς ομάδες.
Εξετάστε ένα δείγμα πίνακα με μια στήλη αναγνωριστικού που περιέχει ένα σύνολο αναγνωριστικών και μια στήλη "Πρόσωπο" που περιέχει ένα σύνολο εκδόσεων με διάφορα ορθογραφικά και κεφαλαία γράμματα των ονομάτων Miguel, Mike, William και Bill.
Σε αυτό το παράδειγμα, το αποτέλεσμα που αναζητάτε είναι ένας πίνακας με μια νέα στήλη που εμφανίζει τις σωστές ομάδες τιμών από τη στήλη "Άτομο" και όχι όλες τις διαφορετικές παραλλαγές των ίδιων λέξεων.
Σημείωμα
Η δυνατότητα Τιμές συμπλέγματος είναι διαθέσιμη μόνο για το Power Query Online.
Δημιουργία στήλης συμπλέγματος
Για να ομαδοποιήσετε τιμές, επιλέξτε πρώτα τη στήλη Άτομο , μεταβείτε στην καρτέλα Προσθήκη στήλης στην κορδέλα και, στη συνέχεια, επιλέξτε Τιμές συμπλέγματος .
Στο παράθυρο διαλόγου Τιμές συμπλέγματος , επιβεβαιώστε τη στήλη από την οποία θέλετε να χρησιμοποιήσετε για τη δημιουργία των συμπλεγμάτων και πληκτρολογήστε το νέο όνομα της στήλης. Για αυτήν την περίπτωση, ονομάστε αυτή τη νέα στήλη Σύμπλεγμα.
Το αποτέλεσμα αυτής της λειτουργίας φαίνεται στην παρακάτω εικόνα.
Σημείωμα
Για κάθε σύμπλεγμα τιμών, το Power Query επιλέγει την πιο συχνή παρουσία από την επιλεγμένη στήλη ως "κανονική" παρουσία. Εάν προκύψουν πολλές παρουσίες με την ίδια συχνότητα, το Power Query επιλέγει την πρώτη.
Χρήση των επιλογών ασαφούς συμπλέγματος
Οι ακόλουθες επιλογές είναι διαθέσιμες για την ομαδοποίηση τιμών σε μια νέα στήλη:
- Όριο ομοιότητας (προαιρετικό): Αυτή η επιλογή υποδεικνύει πόσο παρόμοιες πρέπει να είναι δύο τιμές για να ομαδοποιηθούν. Η ελάχιστη ρύθμιση μηδέν (0) προκαλεί την ομαδοποίηση όλων των τιμών. Η μέγιστη ρύθμιση 1 επιτρέπει μόνο την ομαδοποίηση τιμών που ταιριάζουν ακριβώς. Η προεπιλογή είναι 0,8.
- Παράβλεψη πεζών-κεφαλαίων: Όταν συγκρίνονται συμβολοσειρές κειμένου, τα πεζά-κεφαλαία αγνοούνται. Αυτή η επιλογή είναι ενεργοποιημένη από προεπιλογή.
- Ομαδοποίηση με συνδυασμό τμημάτων κειμένου: Ο αλγόριθμος προσπαθεί να συνδυάσει τμήματα κειμένου (όπως ο συνδυασμός Micro και soft στη Microsoft) για να ομαδοποιήσει τιμές.
- Εμφάνιση βαθμολογιών ομοιότητας: Εμφανίζει βαθμολογίες ομοιότητας μεταξύ των τιμών εισόδου και των υπολογισμένων αντιπροσωπευτικών τιμών μετά από ασαφή ομαδοποίηση.
- Πίνακας μετασχηματισμού (προαιρετικό): Μπορείτε να επιλέξετε έναν πίνακα μετασχηματισμού που αντιστοιχίζει τιμές (όπως αντιστοίχιση MSFT στη Microsoft) για να τις ομαδοποιήσετε.
Για αυτό το παράδειγμα, ένας νέος πίνακας μετασχηματισμού με το όνομα Ο πίνακας μετασχηματισμού μου χρησιμοποιείται για να δείξει τον τρόπο αντιστοίχισης των τιμών. Αυτός ο πίνακας μετασχηματισμού έχει δύο στήλες:
- Από: Η συμβολοσειρά κειμένου που θα αναζητήσετε στον πίνακά σας.
- Προς: Η συμβολοσειρά κειμένου που θα χρησιμοποιηθεί για την αντικατάσταση της συμβολοσειράς κειμένου στη στήλη Από .
Σημαντικό
Είναι σημαντικό ο πίνακας μετασχηματισμού να έχει τις ίδιες στήλες και ονόματα στηλών όπως φαίνεται στην προηγούμενη εικόνα (πρέπει να ονομάζονται "Από" και "Προς"), διαφορετικά το Power Query δεν θα αναγνωρίσει αυτόν τον πίνακα ως πίνακα μετασχηματισμού και δεν θα πραγματοποιηθεί μετασχηματισμός.
Χρησιμοποιώντας το ερώτημα που δημιουργήσατε προηγουμένως, κάντε διπλό κλικ στο βήμα Ομαδοποιημένες τιμές και, στη συνέχεια, στο παράθυρο διαλόγου Τιμές συμπλέγματος , αναπτύξτε το στοιχείο Επιλογές ασαφούς συμπλέγματος. Στην περιοχή Επιλογές ασαφούς συμπλέγματος, ενεργοποιήστε την επιλογή Εμφάνιση βαθμολογιών ομοιότητας . Για τον Πίνακα μετασχηματισμού (προαιρετικό), επιλέξτε το ερώτημα που περιέχει τον πίνακα μετασχηματισμού.
Αφού επιλέξετε τον πίνακα μετασχηματισμού και ενεργοποιήσετε την επιλογή Εμφάνιση βαθμολογιών ομοιότητας, επιλέξτε OK. Το αποτέλεσμα αυτής της λειτουργίας σάς δίνει έναν πίνακα που περιέχει τις ίδιες στήλες id και Person με τον αρχικό πίνακα, αλλά περιλαμβάνει επίσης δύο νέες στήλες που ονομάζονται Cluster και Person_Cluster_Similarity. Η στήλη Σύμπλεγμα περιέχει τις σωστά γραμμένες και κεφαλαίες εκδόσεις των ονομάτων Miguel για τις εκδόσεις των Miguel και Mike και William για τις εκδόσεις των Bill, Billy και William. Η στήλη Person_Cluster_Similarity περιέχει τις βαθμολογίες ομοιότητας για καθένα από τα ονόματα.
Εντολές πίνακα μετασχηματισμού
Μπορεί να παρατηρήσετε ότι ο πίνακας μετασχηματισμού στην προηγούμενη ενότητα φάνηκε να υποδεικνύει ότι οι παρουσίες του Mike αλλάζουν σε Miguel και οι παρουσίες του William αλλάζουν σε Bill. Ωστόσο, στον πίνακα που προέκυψε, οι περιπτώσεις του Bill και του "billy" άλλαξαν σε William. Στον πίνακα μετασχηματισμού, αντί να είναι μια απευθείας διαδρομή από προς το , ο πίνακας μετασχηματισμού είναι συμμετρικός κατά τη δημιουργία συμπλεγμάτων, πράγμα που σημαίνει ότι το "mike" είναι ισοδύναμο με το "Miguel" και αντίστροφα. Το αποτέλεσμα των ισοδυνάμων που δίνονται στον πίνακα μετασχηματισμού εξαρτάται από τους ακόλουθους κανόνες:
- Εάν υπάρχει πλειοψηφία πανομοιότυπων τιμών, αυτές οι τιμές έχουν προτεραιότητα έναντι των μη πανομοιότυπων τιμών.
- Εάν δεν υπάρχει πλειοψηφία τιμών, η τιμή που εμφανίζεται πρώτη έχει προτεραιότητα.
Για παράδειγμα, στον αρχικό πίνακα που χρησιμοποιείται σε αυτό το άρθρο, οι εκδόσεις του Miguel (τόσο του "miguel" όσο και του Miguel) στη στήλη Person αποτελούν την πλειονότητα των εμφανίσεων του ονόματος Miguel και Mike. Επιπλέον, το όνομα Miguel με αρχικά κεφαλαία αποτελεί την πλειοψηφία του ονόματος Miguel. Έτσι, η συσχέτιση του Miguel και των παραγώγων του και του Mike και των παραγώγων του στον πίνακα μετασχηματισμού έχει ως αποτέλεσμα το όνομα Miguel να χρησιμοποιείται στη στήλη Σύμπλεγμα .
Ωστόσο, για τα ονόματα William, Bill και "billy", δεν υπάρχει πλειοψηφία αξιών αφού και τα τρία είναι μοναδικά. Εφόσον ο Γουίλιαμ εμφανίζεται πρώτος, ο Γουίλιαμ χρησιμοποιείται στη στήλη Σύμπλεγμα . Εάν το "billy" είχε εμφανιστεί πρώτο στον πίνακα, τότε το "billy" θα χρησιμοποιούνταν στη στήλη Cluster . Επίσης, επειδή δεν υπάρχει πλειοψηφία τιμών, χρησιμοποιείται η πτώση που χρησιμοποιείται από τα μεμονωμένα ονόματα. Δηλαδή, εάν ο William είναι πρώτος, ο William με κεφαλαίο "W" χρησιμοποιείται ως τιμή αποτελέσματος. Εάν το "billy" είναι πρώτο, χρησιμοποιείται το "billy" με πεζό "b".