Κοινοποίηση μέσω


Πώς λειτουργεί η ασαφής αντιστοίχιση στο Power Query

Οι δυνατότητες του Power Query, όπως η ασαφής συγχώνευση, οι τιμές συμπλέγματος και η ασαφής ομαδοποίηση, χρησιμοποιούν τους ίδιους μηχανισμούς για να λειτουργούν με την ασαφή αντιστοίχιση.

Αυτό το άρθρο εξετάζει πολλά σενάρια που δείχνουν πώς να επωφεληθείτε από τις επιλογές που έχει η ασαφής αντιστοίχιση, με στόχο να καταστεί σαφές το «ασαφές».

Σημείωμα

Παρόλο που η επιλογή τιμών συμπλέγματος είναι διαθέσιμη μόνο στο Power Query Online, οι μηχανισμοί που εμφανίζονται σε αυτήν την ενότητα ισχύουν επίσης για ασαφή συγχώνευση και ασαφή ομαδοποίηση.

Προσαρμογή του ορίου ομοιότητας

Το καλύτερο σενάριο για την εφαρμογή του αλγορίθμου ασαφούς αντιστοίχισης είναι όταν όλες οι συμβολοσειρές κειμένου σε μια στήλη περιέχουν μόνο τις συμβολοσειρές που πρέπει να συγκριθούν και κανένα επιπλέον στοιχείο. Για παράδειγμα, η σύγκριση Apples με 4ppl3s το . δίνει υψηλότερες βαθμολογίες ομοιότητας από τη σύγκριση Apples με My favorite fruit, by far, is Apples. I simply love them!το .

Επειδή η λέξη Apples στη δεύτερη συμβολοσειρά είναι μόνο ένα μικρό μέρος ολόκληρης της συμβολοσειράς κειμένου, αυτή η σύγκριση αποδίδει χαμηλότερη βαθμολογία ομοιότητας.

Για παράδειγμα, το ακόλουθο σύνολο δεδομένων αποτελείται από απαντήσεις από μια έρευνα που είχε μόνο μία ερώτηση—"Ποιο είναι το αγαπημένο σας φρούτο;"

Καρπός
Βατόμουρα
Τα μπλε μούρα είναι απλά τα καλύτερα
Φράουλες
Φράουλες = <3
Μήλα
«Σπλες
4ppl3s
Μπανάνες
Το αγαπημένο φρούτο είναι μπανάνες
Μπανάς
Το αγαπημένο μου φρούτο, μακράν, είναι τα μήλα. Απλά τους αγαπώ!

Η έρευνα παρείχε ένα μόνο πλαίσιο κειμένου για την εισαγωγή της τιμής και δεν είχε καμία επικύρωση.

Τώρα είστε επιφορτισμένοι με την ομαδοποίηση των τιμών. Για να εκτελέσετε αυτήν την εργασία, φορτώστε τον προηγούμενο πίνακα φρούτων στο Power Query, επιλέξτε τη στήλη και, στη συνέχεια, ενεργοποιήστε την επιλογή Τιμές συμπλέγματος στην καρτέλα Προσθήκη στήλης στην κορδέλα.

Στιγμιότυπο οθόνης με την επιλογή τιμών συμπλέγματος μέσα στο Προσθήκη στήλης καρτέλα στην κορδέλα διαθέσιμη αφού επιλέξετε το Φρούτα στήλη από τον πίνακα.

Εμφανίζεται το παράθυρο διαλόγου Τιμές συμπλέγματος , όπου μπορείτε να καθορίσετε το όνομα της νέας στήλης. Ονομάστε αυτήν τη νέα στήλη Σύμπλεγμα και επιλέξτε OK.

Στιγμιότυπο οθόνης του παραθύρου διαλόγου τιμών συμπλέγματος αφού επιλέξετε τη στήλη Φρούτα. Το νέο πεδίο ονόματος στήλης έχει οριστεί σε Σύμπλεγμα.

Από προεπιλογή, το Power Query χρησιμοποιεί ένα όριο ομοιότητας 0,8 (ή 80%). Η ελάχιστη τιμή 0,00 προκαλεί την αντιστοίχιση όλων των τιμών με οποιοδήποτε επίπεδο ομοιότητας μεταξύ τους και η μέγιστη τιμή 1,00 επιτρέπει μόνο ακριβείς αντιστοιχίσεις. Μια ασαφής "ακριβής αντιστοίχιση" μπορεί να αγνοήσει διαφορές όπως το περίβλημα, η σειρά των λέξεων και τα σημεία στίξης. Το αποτέλεσμα της προηγούμενης λειτουργίας δίνει τον ακόλουθο πίνακα με μια νέα στήλη συμπλέγματος .

Στιγμιότυπο οθόνης της προεπιλεγμένης εξόδου με μια νέα στήλη συμπλέγματος μετά την εκτέλεση της λειτουργίας τιμών συμπλέγματος στη στήλη φρούτων με προεπιλεγμένες τιμές.

Ενώ η ομαδοποίηση έχει ολοκληρωθεί, δεν σας δίνει τα αναμενόμενα αποτελέσματα για όλες τις σειρές. Η σειρά αριθμός δύο (2) εξακολουθεί να έχει την τιμή Blue berries are simply the best, αλλά θα πρέπει να ομαδοποιηθεί σε Blueberries, και κάτι παρόμοιο συμβαίνει με τις συμβολοσειρές Strawberries = <3κειμένου , fav fruit is bananas, και My favorite fruit, by far, is Apples. I simply love them!.

Για να προσδιορίσετε τι προκαλεί αυτό το σύμπλεγμα, κάντε διπλό κλικ στην επιλογή Τιμές συμπλέγματος στον πίνακα Εφαρμοσμένα βήματα για να επαναφέρετε το παράθυρο διαλόγου Τιμές συμπλέγματος . Μέσα σε αυτό το παράθυρο διαλόγου, αναπτύξτε τις επιλογές ασαφούς συμπλέγματος. Ενεργοποιήστε την επιλογή Εμφάνιση βαθμολογιών ομοιότητας και, στη συνέχεια, επιλέξτε OK.

Στιγμιότυπο οθόνης του παραθύρου τιμών συμπλέγματος με τις επιλογές ασαφούς συμπλέγματος να εμφανίζονται και την επιλογή εμφάνιση βαθμολογιών ομοιότητας ενεργοποιημένη.

Η ενεργοποίηση της επιλογής Εμφάνιση βαθμολογιών ομοιότητας δημιουργεί μια νέα στήλη στον πίνακά σας. Αυτή η στήλη εμφανίζει την ακριβή βαθμολογία ομοιότητας μεταξύ του καθορισμένου συμπλέγματος και της αρχικής τιμής.

Στιγμιότυπο οθόνης του πίνακα με μια νέα στήλη βαθμολογίας ομοιότητας που ονομάζεται Fruit_Cluster_Similarity.

Μετά από προσεκτικότερη εξέταση, το Power Query δεν μπόρεσε να βρει άλλες τιμές στο όριο ομοιότητας για τις συμβολοσειρές Blue berries are simply the bestκειμένου ,Strawberries = <3, fav fruit is bananas, και My favorite fruit, by far, is Apples. I simply love them!.

Επιστρέψτε στο παράθυρο διαλόγου Τιμές συμπλέγματος άλλη μια φορά, κάνοντας διπλό κλικ στην επιλογή Τιμές συμπλέγματος στον πίνακα Εφαρμοσμένα βήματα . Αλλάξτε το όριο ομοιότητας από 0,8 σε 0,6 και, στη συνέχεια, επιλέξτε OK.

Στιγμιότυπο οθόνης του διαλόγου τιμών συμπλέγματος με τις επιλογές ασαφούς συμπλέγματος που εμφανίζονται και το όριο ομοιότητας που έχει οριστεί στο 0,6.

Αυτή η αλλαγή σάς φέρνει πιο κοντά στο αποτέλεσμα που αναζητάτε, εκτός από τη συμβολοσειρά My favorite fruit, by far, is Apples. I simply love them!κειμένου . Όταν αλλάξατε την τιμή κατωφλίου ομοιότητας από 0,8 σε 0,6, το Power Query ήταν πλέον σε θέση να χρησιμοποιήσει τις τιμές με μια βαθμολογία ομοιότητας που ξεκινά από 0,6 μέχρι το 1.

Στιγμιότυπο οθόνης του πίνακα μετά τον ορισμό του ορίου ομοιότητας στο 0,6 με νέες τιμές που έχουν εκχωρηθεί στη στήλη Σύμπλεγμα.

Σημείωμα

Το Power Query χρησιμοποιεί πάντα την τιμή που βρίσκεται πλησιέστερα στο κατώφλι για τον καθορισμό των συμπλεγμάτων. Το όριο ορίζει το κατώτερο όριο της βαθμολογίας ομοιότητας που είναι αποδεκτό για την εκχώρηση της τιμής σε ένα σύμπλεγμα.

Μπορείτε να δοκιμάσετε ξανά αλλάζοντας τη βαθμολογία ομοιότητας από 0,6 σε μικρότερο αριθμό μέχρι να λάβετε τα αποτελέσματα που αναζητάτε. Σε αυτήν την περίπτωση, αλλάξτε τη βαθμολογία ομοιότητας σε 0,5. Αυτή η αλλαγή αποδίδει το ακριβές αποτέλεσμα που περιμένετε με τη συμβολοσειρά My favorite fruit, by far, is Apples. I simply love them! κειμένου που έχει πλέον αντιστοιχιστεί στο σύμπλεγμα Apples.

Στιγμιότυπο οθόνης του πίνακα με όλες τις σωστές τιμές στη στήλη Σύμπλεγμα.

Σημείωμα

Προς το παρόν, μόνο η δυνατότητα Τιμές συμπλέγματος στο Power Query Online παρέχει μια νέα στήλη με τη βαθμολογία ομοιότητας.

Ειδικά θέματα για τον πίνακα μετασχηματισμού

Ο πίνακας μετασχηματισμού σάς βοηθά να αντιστοιχίσετε τιμές από τη στήλη σας σε νέες τιμές πριν εκτελέσετε τον αλγόριθμο ασαφούς αντιστοίχισης.

Μερικά παραδείγματα για το πώς μπορεί να χρησιμοποιηθεί ο πίνακας μετασχηματισμού:

Σημαντικό

Όταν χρησιμοποιείται ο πίνακας μετασχηματισμού, η μέγιστη βαθμολογία ομοιότητας για τις τιμές από τον πίνακα μετασχηματισμού είναι 0,95. Αυτή η σκόπιμη ποινή 0,05 ισχύει για να διακρίνει ότι η αρχική τιμή από μια τέτοια στήλη δεν είναι ίση με τις τιμές με τις οποίες συγκρίθηκε από τότε που συνέβη ένας μετασχηματισμός.

Για σενάρια όπου θέλετε πρώτα να αντιστοιχίσετε τις τιμές σας και, στη συνέχεια, να εκτελέσετε την ασαφή αντιστοίχιση χωρίς την ποινή 0,05, συνιστάται να αντικαταστήσετε τις τιμές από τη στήλη σας και, στη συνέχεια, να εκτελέσετε την ασαφή αντιστοίχιση.