Πώς λειτουργεί η ασαφής αντιστοίχιση στο Power Query
Δυνατότητες του Power Query, όπως η ασαφής συγχώνευση, οι τιμές συμπλέγματος και η ασαφής ομαδοποίηση, χρησιμοποιούν τους ίδιους μηχανισμούς για να λειτουργούν με ασαφή συμφωνία.
Αυτό το άρθρο εξετάζει πολλά σενάρια που επιδεικνύουν τον τρόπο με τον οποίο μπορείτε να επωφεληθείτε από τις επιλογές που έχει η ασαφής συμφωνία, με στόχο να καταστεί σαφές το "ασαφές".
Το καλύτερο σενάριο για την εφαρμογή του αλγόριθμου ασαφής αντιστοίχισης είναι όταν όλες οι συμβολοσειρές κειμένου σε μια στήλη περιέχουν μόνο τις συμβολοσειρές που πρέπει να συγκριθούν και δεν υπάρχουν επιπλέον στοιχεία. Για παράδειγμα, η Apples
σύγκριση με τις αποδόσεις με υψηλότερες βαθμολογίες ομοιότητας σε σχέση με το Apples
My favorite fruit, by far, is Apples. I simply love them!
.4ppl3s
Επειδή η λέξη Apples
στη δεύτερη συμβολοσειρά είναι μόνο ένα μικρό μέρος ολόκληρης της συμβολοσειράς κειμένου, αυτή η σύγκριση αποδίδει χαμηλότερη βαθμολογία ομοιότητας.
Για παράδειγμα, το παρακάτω σύνολο δεδομένων αποτελείται από απαντήσεις από μια έρευνα που είχε μόνο μία ερώτηση: "Ποιο είναι το αγαπημένο σας φρούτο;"
Φρούτα |
---|
Βατόμουρα |
Τα μπλε μούρα είναι απλά τα καλύτερα |
Φράουλες |
Φράουλες = <3 |
Μήλα |
'sples |
4ppl3s |
Μπανάνες |
fav φρούτα είναι μπανάνες |
Banas |
Τα αγαπημένα μου φρούτα, μακράν, είναι τα μήλα. Απλά τους αγαπώ! |
Η έρευνα παρείχε ένα μοναδικό πλαίσιο κειμένου για την εισαγωγή της τιμής και δεν είχε καμία επικύρωση.
Τώρα σας έχει ανατεθεί η δημιουργία συμπλέγματος των τιμών. Για να κάνετε αυτή την εργασία, φορτώστε τον προηγούμενο πίνακα με τους καρπούς στο Power Query, επιλέξτε τη στήλη και, στη συνέχεια, επιλέξτε Συμπλέγματα τιμών στην καρτέλα Προσθήκη στήλης στην κορδέλα.
Εμφανίζεται το παράθυρο διαλόγου Τιμές συμπλέγματος, όπου μπορείτε να καθορίσετε το όνομα της νέας στήλης. Ονομάστε αυτήν τη νέα στήλη Σύμπλεγμα και επιλέξτε OK.
Από προεπιλογή, το Power Query χρησιμοποιεί ένα όριο ομοιότητας 0,8 (ή 80%). Η ελάχιστη τιμή 0,00 προκαλεί όλες τις τιμές με οποιοδήποτε επίπεδο ομοιότητας μεταξύ τους και η μέγιστη τιμή του 1,00 επιτρέπει μόνο ακριβείς αντιστοιχίσεις. Μια ασαφής "ακριβής αντιστοίχιση" μπορεί να παραβλέψει διαφορές όπως το περίβλημα, η σειρά των λέξεων και τα σημεία στίξης. Το αποτέλεσμα της προηγούμενης λειτουργίας αποδίδει τον παρακάτω πίνακα με μια νέα στήλη Σύμπλεγμα .
Παρόλο που πραγματοποιείται η δημιουργία συμπλέγματος, δεν σας παρέχει τα αναμενόμενα αποτελέσματα για όλες τις γραμμές. Η γραμμή νούμερο δύο (2) εξακολουθεί να έχει την τιμή Blue berries are simply the best
, αλλά θα πρέπει να είναι συμπλεγμένη στο Blueberries
και συμβαίνει κάτι παρόμοιο με τις συμβολοσειρές Strawberries = <3
κειμένου , fav fruit is bananas
και My favorite fruit, by far, is Apples. I simply love them!
.
Για να προσδιορίσετε τι προκαλεί αυτό το σύμπλεγμα, κάντε διπλό κλικ στην επιλογή Ομαδοποιημένες τιμές στον πίνακα Εφαρμοσμένα βήματα για να επαναφέρετε το παράθυρο διαλόγου Τιμές συμπλέγματος. Μέσα σε αυτό το παράθυρο διαλόγου, αναπτύξτε τις επιλογές ασαφούς συμπλέγματος. Ενεργοποιήστε την επιλογή Εμφάνιση βαθμολογιών ομοιότητας και, στη συνέχεια, επιλέξτε OK.
Η ενεργοποίηση της επιλογής Εμφάνιση βαθμολογιών ομοιότητας δημιουργεί μια νέα στήλη στον πίνακά σας. Αυτή η στήλη εμφανίζει την ακριβή βαθμολογία ομοιότητας μεταξύ του καθορισμένου συμπλέγματος και της αρχικής τιμής.
Μετά από εξέταση, το Power Query δεν μπόρεσε να βρει άλλες τιμές στο όριο ομοιότητας για τις συμβολοσειρές Blue berries are simply the best
κειμένου ,Strawberries = <3
, fav fruit is bananas
και My favorite fruit, by far, is Apples. I simply love them!
.
Επιστρέψτε στο παράθυρο διαλόγου Τιμές συμπλέγματος ακόμη μία φορά, κάνοντας διπλό κλικ στο στοιχείο Ομαδοποιημένες τιμές στον πίνακα Εφαρμοσμένα βήματα . Αλλάξτε το όριο ομοιότητας από 0,8 σε 0,6 και, στη συνέχεια, επιλέξτε OK.
Αυτή η αλλαγή σάς δείχνει πιο κοντά στο αποτέλεσμα που αναζητάτε, εκτός από τη συμβολοσειρά My favorite fruit, by far, is Apples. I simply love them!
κειμένου . Όταν αλλάξατε την τιμή ορίου ομοιότητας από 0,8 σε 0,6, το Power Query ήταν πλέον σε θέση να χρησιμοποιήσει τις τιμές με βαθμολογία ομοιότητας που ξεκινά από 0,6 έως 1.
Σημείωση
Το Power Query χρησιμοποιεί πάντα την τιμή που βρίσκεται πιο κοντά στο όριο για να ορίσει τα συμπλέγματα. Το όριο ορίζει το χαμηλότερο όριο της βαθμολογίας ομοιότητας που είναι αποδεκτό να εκχωρηθεί η τιμή σε ένα σύμπλεγμα.
Μπορείτε να δοκιμάσετε ξανά αλλάζοντας τη βαθμολογία ομοιότητας από 0,6 σε χαμηλότερο αριθμό, μέχρι να λάβετε τα αποτελέσματα που αναζητάτε. Σε αυτήν την περίπτωση, αλλάξτε τη βαθμολογία Ομοιότητα σε 0,5. Αυτή η αλλαγή αποδίδει το ακριβές αποτέλεσμα που περιμένετε με τη συμβολοσειρά My favorite fruit, by far, is Apples. I simply love them!
κειμένου τώρα αντιστοιχισμένη στο σύμπλεγμα Apples
.
Σημείωση
Προς το παρόν, μόνο η δυνατότητα Τιμές συμπλέγματος στο Power Query Online παρέχει μια νέα στήλη με βαθμολογία ομοιότητας.
Ο πίνακας μετασχηματισμού σάς βοηθά να αντιστοιχίζετε τιμές από τη στήλη σας σε νέες τιμές προτού εκτελέσετε τον αλγόριθμο ασαφούς αντιστοίχισης.
Ορισμένα παραδείγματα για τον τρόπο χρήσης του πίνακα μετασχηματισμού:
- Πίνακας μετασχηματισμού σε τιμές συμπλέγματος
- Πίνακας μετασχηματισμού σε ασαφή ερωτήματα συγχώνευσης
- Πίνακας μετασχηματισμού σε ομάδα κατά
Σημαντικό
Όταν χρησιμοποιείται ο πίνακας μετασχηματισμού, η μέγιστη βαθμολογία ομοιότητας για τις τιμές από τον πίνακα μετασχηματισμού είναι 0,95. Αυτή η σκόπιμη ποινή 0,05 υπάρχει για να διακρίνει ότι η αρχική τιμή από μια τέτοια στήλη δεν ισούται με τις τιμές με τις οποίες συγκρίθηκε δεδομένου ότι έγινε ένας μετασχηματισμός.
Για σενάρια στα οποία θέλετε πρώτα να αντιστοιχίστε τις τιμές σας και, στη συνέχεια, να εκτελέσετε ασαφή συμφωνία χωρίς την ποινή 0,05, συνιστούμε να αντικαταστήσετε τις τιμές από τη στήλη σας και, στη συνέχεια, να εκτελέσετε ασαφή συμφωνία.