Ανάγνωση στα Αγγλικά

Κοινή χρήση μέσω


Τιμές συμπλέγματος

Οι τιμές συμπλέγματος δημιουργούν αυτόματα ομάδες με παρόμοιες τιμές χρησιμοποιώντας έναν αλγόριθμο ασαφούς αντιστοίχισης και, στη συνέχεια, αντιστοιχίζουν την τιμή κάθε στήλης στην ομάδα που ταιριάζει καλύτερα. Αυτός ο μετασχηματισμός είναι χρήσιμος όταν εργάζεστε με δεδομένα που έχουν πολλές διαφορετικές παραλλαγές της ίδιας τιμής και πρέπει να συνδυάσετε τιμές σε συνεπείς ομάδες.

Εξετάστε ένα δείγμα πίνακα με μια στήλη αναγνωριστικού που περιέχει ένα σύνολο αναγνωριστικών και μια στήλη Άτομο που περιέχει ένα σύνολο διαφόρων ορθογραφικών και κεφαλαιοποιημένων εκδόσεων των ονομάτων Miguel, Mike, William και Bill.

Στιγμιότυπο οθόνης του πίνακα με εννέα γραμμές καταχωρήσεων που περιέχουν διάφορες ορθογραφίες και κεφαλαία του ονόματος Miguel και William.

Σε αυτό το παράδειγμα, το αποτέλεσμα που αναζητάτε είναι ένας πίνακας με μια νέα στήλη που εμφανίζει τις σωστές ομάδες τιμών από τη στήλη Άτομο και όχι όλες τις διαφορετικές παραλλαγές των ίδιων λέξεων.

Στιγμιότυπο οθόνης των ομαδοποιημένων τιμών ως νέας στήλης που ονομάζεται Σύμπλεγμα στον αρχικό πίνακα.

Σημείωση

Η δυνατότητα Τιμές συμπλέγματος είναι διαθέσιμη μόνο για το Power Query Online.

Δημιουργία στήλης συμπλέγματος

Για να συμπλέγετε τιμές, επιλέξτε πρώτα τη στήλη Άτομο , μεταβείτε στην καρτέλα Προσθήκη στήλης στην κορδέλα και, στη συνέχεια, επιλέξτε Συμπλέγματα τιμών.

Στιγμιότυπο οθόνης του εικονιδίου τιμών συμπλέγματος μέσα στην καρτέλα Προσθήκη στήλης στην ηλεκτρονική κορδέλα του Power Query.

Στο παράθυρο διαλόγου Τιμές συμπλέγματος, επιβεβαιώστε τη στήλη από την οποία θέλετε να δημιουργήσετε τα συμπλέγματα και εισαγάγετε το νέο όνομα της στήλης. Για αυτήν την περίπτωση, ονομάστε αυτήν τη νέα στήλη Σύμπλεγμα.

Στιγμιότυπο οθόνης του παραθύρου τιμών συμπλέγματος με επιλεγμένη τη στήλη Person και τη νέα στήλη με το όνομα Cluster.

Το αποτέλεσμα αυτής της λειτουργίας εμφανίζεται στην παρακάτω εικόνα.

Στιγμιότυπο οθόνης των ομαδοποιημένων τιμών ως νέας στήλης που ονομάζεται Σύμπλεγμα στον αρχικό πίνακα.

Σημείωση

Για κάθε σύμπλεγμα τιμών, το Power Query επιλέγει την πιο συχνή παρουσία από την επιλεγμένη στήλη ως "κανονικό" παρουσία. Εάν προκύψουν πολλές παρουσίες με την ίδια συχνότητα, το Power Query επιλέγει την πρώτη.

Χρήση των επιλογών ασαφούς συμπλέγματος

Οι παρακάτω επιλογές είναι διαθέσιμες για τη δημιουργία συμπλεγμάτων τιμών σε μια νέα στήλη:

  • Όριο ομοιότητας (προαιρετικό): Αυτή η επιλογή υποδεικνύει πώς παρόμοιες δύο τιμές πρέπει να ομαδοποιηθούν. Η ελάχιστη ρύθμιση μηδέν (0) προκαλεί την ομαδοποίηση όλων των τιμών. Η μέγιστη ρύθμιση του 1 επιτρέπει μόνο τις τιμές που συμφωνούν ακριβώς να ομαδοποιηθούν. Η προεπιλογή είναι 0,8.
  • Παράβλεψη πεζών-ημάτων: Όταν συγκρίνονται συμβολοσειρές κειμένου, παραβλέπεται το πεζό-κεφαλαίο. Αυτή η επιλογή είναι ενεργοποιημένη από προεπιλογή.
  • Ομαδοποίηση συνδυάζοντας τμήματα κειμένου: Ο αλγόριθμος προσπαθεί να συνδυάσει τμήματα κειμένου (όπως να συνδυάσει micro και soft στην Microsoft) για να ομαδοποιήσει τιμές.
  • Εμφάνιση βαθμολογιών ομοιότητας: Εμφανίζει βαθμολογίες ομοιότητας μεταξύ των τιμών εισόδου και των υπολογιζόμενων αντιπροσωπευτικών τιμών μετά από ασαφή συμπλέγματα.
  • Πίνακας μετασχηματισμού (προαιρετικό): Μπορείτε να επιλέξετε έναν πίνακα μετασχηματισμού που αντιστοιχίζει τιμές (όπως αντιστοίχιση του MSFT στη Microsoft) για να τις ομαδοποιήσετε.

Για αυτό το παράδειγμα, ένας νέος πίνακας μετασχηματισμού με το όνομα Ο πίνακας μετασχηματισμού μου χρησιμοποιείται για να δείξει πώς μπορούν να αντιστοιχιστούν οι τιμές. Αυτός ο πίνακας μετασχηματισμού έχει δύο στήλες:

  • Από: Η συμβολοσειρά κειμένου για αναζήτηση στον πίνακά σας.
  • Προς: Η συμβολοσειρά κειμένου που θα χρησιμοποιηθεί για την αντικατάσταση της συμβολοσειράς κειμένου στη στήλη Από .

Στιγμιότυπο οθόνης του πίνακα που εμφανίζει τις τιμές

Σημαντικό

Είναι σημαντικό ο πίνακας μετασχηματισμού να έχει τις ίδιες στήλες και ονόματα στηλών όπως φαίνεται στην προηγούμενη εικόνα (πρέπει να ονομάζονται "Από" και "Προς"), διαφορετικά, το Power Query δεν θα αναγνωρίσει αυτόν τον πίνακα ως πίνακα μετασχηματισμού και δεν θα πραγματοποιηθεί μετασχηματισμός.

Χρησιμοποιώντας το ερώτημα που δημιουργήθηκε προηγουμένως, κάντε διπλό κλικ στο βήμα Ομαδοποιημένες τιμές και, στη συνέχεια, στο παράθυρο διαλόγου Τιμές συμπλέγματος, αναπτύξτε τις επιλογές ασαφούς συμπλέγματος. Στην περιοχή Επιλογές ασαφούς συμπλέγματος, ενεργοποιήστε την επιλογή Εμφάνιση βαθμολογιών ομοιότητας . Για τον πίνακα μετασχηματισμού (προαιρετικό), επιλέξτε το ερώτημα που διαθέτει τον πίνακα μετασχηματισμού.

Στιγμιότυπο οθόνης των επιλογών ασαφούς συμπλέγματος με το αναπτυσσόμενο μενού πίνακα μετασχηματισμού να έχει οριστεί στο δείγμα πίνακα μετασχηματισμού.

Αφού επιλέξετε τον πίνακα μετασχηματισμού σας και ενεργοποιήσετε την επιλογή Εμφάνιση βαθμολογιών ομοιότητας , επιλέξτε OK. Το αποτέλεσμα αυτής της λειτουργίας σάς δίνει έναν πίνακα που περιέχει τις ίδιες στήλες αναγνωριστικού και Ατόμου με τον αρχικό πίνακα, αλλά περιλαμβάνει επίσης δύο νέες στήλες που ονομάζονται Σύμπλεγμα και Person_Cluster_Similarity. Η στήλη Σύμπλεγμα περιέχει τις σωστά ορθογραφημένες και κεφαλαιοποιημένες εκδόσεις των ονομάτων Miguel για τις εκδόσεις των Miguel και Mike και William για τις εκδόσεις των Bill, Billy και William. Η Person_Cluster_Similarity στήλη περιέχει τις βαθμολογίες ομοιότητας για καθένα από τα ονόματα.

Στιγμιότυπο οθόνης του πίνακα που περιέχει το νέο σύμπλεγμα και Person_Cluster_Similarity στηλών.

Διδάγματα πίνακα μετασχηματισμού

Ενδέχεται να παρατηρήσετε ότι ο πίνακας μετασχηματισμού στην προηγούμενη ενότητα φάνηκε να υποδεικνύει ότι οι παρουσίες του Mike αλλάζουν σε Miguel και οι παρουσίες του William αλλάζουν σε Bill. Ωστόσο, στον πίνακα που προκύπτει, οι παρουσίες του Bill και του "billy" άλλαξαν σε William. Στον πίνακα μετασχηματισμού, αντί να είναι απευθείας από τη διαδρομή Από προς προς, ο πίνακας μετασχηματισμού είναι συμμετρικός κατά τη δημιουργία συμπλέγματος, πράγμα που σημαίνει ότι το "mike" ισοδυναμεί με το "Miguel" και το αντίστροφο. Το αποτέλεσμα των ισοδύναμων που δίνονται στον πίνακα μετασχηματισμού εξαρτάται από τους ακόλουθους κανόνες:

  • Εάν υπάρχει η πλειοψηφία των πανομοιότυπων τιμών, αυτές οι τιμές έχουν προτεραιότητα έναντι των μη αναγνωριστικών τιμών.
  • Εάν δεν υπάρχει η πλειοψηφία των τιμών, η τιμή που εμφανίζεται πρώτα έχει προτεραιότητα.

Για παράδειγμα, στον αρχικό πίνακα που χρησιμοποιείται σε αυτό το άρθρο, οι εκδόσεις του Miguel (τόσο του "miguel" όσο και του Miguel) στη στήλη Person αποτελούν την πλειοψηφία των παρουσιών του ονόματος Miguel και Mike. Επιπλέον, το όνομα Miguel με τα αρχικά κεφαλαία αποτελεί την πλειοψηφία του ονόματος Miguel. Επομένως, η συσχέτιση του Miguel και των παραγώγων του και του Mike και των παραγώγων του στον πίνακα μετασχηματισμού έχει ως αποτέλεσμα το όνομα Miguel να χρησιμοποιείται στη στήλη Σύμπλεγμα .

Ωστόσο, για τα ονόματα William, Bill και "billy", δεν υπάρχει πλειοψηφία τιμών, καθώς και οι τρεις είναι μοναδικές. Εφόσον ο William εμφανίζεται πρώτος, ο William χρησιμοποιείται στη στήλη Σύμπλεγμα . Αν ο "Μπίλι" είχε εμφανιστεί πρώτος στο τραπέζι, τότε ο "Μπίλι" θα χρησιμοποιηθεί στη στήλη "Σύμπλεγμα ". Επίσης, επειδή δεν υπάρχει η πλειοψηφία των τιμών, χρησιμοποιείται η περίπτωση που χρησιμοποιείται από τα μεμονωμένα ονόματα. Δηλαδή, εάν ο William είναι πρώτος, χρησιμοποιείται ο William με μια επάνω περίπτωση "W" ως αποτέλεσμα. Αν ο "Μπίλι" είναι πρώτος, χρησιμοποιείται ο "Μπίλι" με πεζά γράμματα "β".