Σημείωση
Η πρόσβαση σε αυτή τη σελίδα απαιτεί εξουσιοδότηση. Μπορείτε να δοκιμάσετε να συνδεθείτε ή να αλλάξετε καταλόγους.
Η πρόσβαση σε αυτή τη σελίδα απαιτεί εξουσιοδότηση. Μπορείτε να δοκιμάσετε να αλλάξετε καταλόγους.
Οι δυνατότητες του Power Query, όπως η ασαφής συγχώνευση, οι τιμές συμπλέγματος και η ασαφής ομαδοποίηση, χρησιμοποιούν τους ίδιους μηχανισμούς για να λειτουργούν με την ασαφή αντιστοίχιση.
Αυτό το άρθρο εξετάζει πολλά σενάρια που δείχνουν πώς να επωφεληθείτε από τις επιλογές που έχει η ασαφής αντιστοίχιση, με στόχο να καταστεί σαφές το «ασαφές».
Σημείωμα
Παρόλο που η επιλογή τιμών συμπλέγματος είναι διαθέσιμη μόνο στο Power Query Online, οι μηχανισμοί που εμφανίζονται σε αυτήν την ενότητα ισχύουν επίσης για ασαφή συγχώνευση και ασαφή ομαδοποίηση.
Προσαρμογή του ορίου ομοιότητας
Το καλύτερο σενάριο για την εφαρμογή του αλγορίθμου ασαφούς αντιστοίχισης είναι όταν όλες οι συμβολοσειρές κειμένου σε μια στήλη περιέχουν μόνο τις συμβολοσειρές που πρέπει να συγκριθούν και κανένα επιπλέον στοιχείο. Για παράδειγμα, η σύγκριση Apples με 4ppl3s το . δίνει υψηλότερες βαθμολογίες ομοιότητας από τη σύγκριση Apples με My favorite fruit, by far, is Apples. I simply love them!το .
Επειδή η λέξη Apples στη δεύτερη συμβολοσειρά είναι μόνο ένα μικρό μέρος ολόκληρης της συμβολοσειράς κειμένου, αυτή η σύγκριση αποδίδει χαμηλότερη βαθμολογία ομοιότητας.
Για παράδειγμα, το ακόλουθο σύνολο δεδομένων αποτελείται από απαντήσεις από μια έρευνα που είχε μόνο μία ερώτηση—"Ποιο είναι το αγαπημένο σας φρούτο;"
| Καρπός |
|---|
| Βατόμουρα |
| Τα μπλε μούρα είναι απλά τα καλύτερα |
| Φράουλες |
| Φράουλες = <3 |
| Μήλα |
| «Σπλες |
| 4ppl3s |
| Μπανάνες |
| Το αγαπημένο φρούτο είναι μπανάνες |
| Μπανάς |
| Το αγαπημένο μου φρούτο, μακράν, είναι τα μήλα. Απλά τους αγαπώ! |
Η έρευνα παρείχε ένα μόνο πλαίσιο κειμένου για την εισαγωγή της τιμής και δεν είχε καμία επικύρωση.
Τώρα είστε επιφορτισμένοι με την ομαδοποίηση των τιμών. Για να εκτελέσετε αυτήν την εργασία, φορτώστε τον προηγούμενο πίνακα φρούτων στο Power Query, επιλέξτε τη στήλη και, στη συνέχεια, ενεργοποιήστε την επιλογή Τιμές συμπλέγματος στην καρτέλα Προσθήκη στήλης στην κορδέλα.
Εμφανίζεται το παράθυρο διαλόγου Τιμές συμπλέγματος , όπου μπορείτε να καθορίσετε το όνομα της νέας στήλης. Ονομάστε αυτήν τη νέα στήλη Σύμπλεγμα και επιλέξτε OK.
Από προεπιλογή, το Power Query χρησιμοποιεί ένα όριο ομοιότητας 0,8 (ή 80%). Η ελάχιστη τιμή 0,00 προκαλεί την αντιστοίχιση όλων των τιμών με οποιοδήποτε επίπεδο ομοιότητας μεταξύ τους και η μέγιστη τιμή 1,00 επιτρέπει μόνο ακριβείς αντιστοιχίσεις. Μια ασαφής "ακριβής αντιστοίχιση" μπορεί να αγνοήσει διαφορές όπως το περίβλημα, η σειρά των λέξεων και τα σημεία στίξης. Το αποτέλεσμα της προηγούμενης λειτουργίας δίνει τον ακόλουθο πίνακα με μια νέα στήλη συμπλέγματος .
Ενώ η ομαδοποίηση έχει ολοκληρωθεί, δεν σας δίνει τα αναμενόμενα αποτελέσματα για όλες τις σειρές. Η σειρά αριθμός δύο (2) εξακολουθεί να έχει την τιμή Blue berries are simply the best, αλλά θα πρέπει να ομαδοποιηθεί σε Blueberries, και κάτι παρόμοιο συμβαίνει με τις συμβολοσειρές Strawberries = <3κειμένου , fav fruit is bananas, και My favorite fruit, by far, is Apples. I simply love them!.
Για να προσδιορίσετε τι προκαλεί αυτό το σύμπλεγμα, κάντε διπλό κλικ στην επιλογή Τιμές συμπλέγματος στον πίνακα Εφαρμοσμένα βήματα για να επαναφέρετε το παράθυρο διαλόγου Τιμές συμπλέγματος . Μέσα σε αυτό το παράθυρο διαλόγου, αναπτύξτε τις επιλογές ασαφούς συμπλέγματος. Ενεργοποιήστε την επιλογή Εμφάνιση βαθμολογιών ομοιότητας και, στη συνέχεια, επιλέξτε OK.
Η ενεργοποίηση της επιλογής Εμφάνιση βαθμολογιών ομοιότητας δημιουργεί μια νέα στήλη στον πίνακά σας. Αυτή η στήλη εμφανίζει την ακριβή βαθμολογία ομοιότητας μεταξύ του καθορισμένου συμπλέγματος και της αρχικής τιμής.
Μετά από προσεκτικότερη εξέταση, το Power Query δεν μπόρεσε να βρει άλλες τιμές στο όριο ομοιότητας για τις συμβολοσειρές Blue berries are simply the bestκειμένου ,Strawberries = <3, fav fruit is bananas, και My favorite fruit, by far, is Apples. I simply love them!.
Επιστρέψτε στο παράθυρο διαλόγου Τιμές συμπλέγματος άλλη μια φορά, κάνοντας διπλό κλικ στην επιλογή Τιμές συμπλέγματος στον πίνακα Εφαρμοσμένα βήματα . Αλλάξτε το όριο ομοιότητας από 0,8 σε 0,6 και, στη συνέχεια, επιλέξτε OK.
Αυτή η αλλαγή σάς φέρνει πιο κοντά στο αποτέλεσμα που αναζητάτε, εκτός από τη συμβολοσειρά My favorite fruit, by far, is Apples. I simply love them!κειμένου . Όταν αλλάξατε την τιμή κατωφλίου ομοιότητας από 0,8 σε 0,6, το Power Query ήταν πλέον σε θέση να χρησιμοποιήσει τις τιμές με μια βαθμολογία ομοιότητας που ξεκινά από 0,6 μέχρι το 1.
Σημείωμα
Το Power Query χρησιμοποιεί πάντα την τιμή που βρίσκεται πλησιέστερα στο κατώφλι για τον καθορισμό των συμπλεγμάτων. Το όριο ορίζει το κατώτερο όριο της βαθμολογίας ομοιότητας που είναι αποδεκτό για την εκχώρηση της τιμής σε ένα σύμπλεγμα.
Μπορείτε να δοκιμάσετε ξανά αλλάζοντας τη βαθμολογία ομοιότητας από 0,6 σε μικρότερο αριθμό μέχρι να λάβετε τα αποτελέσματα που αναζητάτε. Σε αυτήν την περίπτωση, αλλάξτε τη βαθμολογία ομοιότητας σε 0,5. Αυτή η αλλαγή αποδίδει το ακριβές αποτέλεσμα που περιμένετε με τη συμβολοσειρά My favorite fruit, by far, is Apples. I simply love them! κειμένου που έχει πλέον αντιστοιχιστεί στο σύμπλεγμα Apples.
Σημείωμα
Προς το παρόν, μόνο η δυνατότητα Τιμές συμπλέγματος στο Power Query Online παρέχει μια νέα στήλη με τη βαθμολογία ομοιότητας.
Ειδικά θέματα για τον πίνακα μετασχηματισμού
Ο πίνακας μετασχηματισμού σάς βοηθά να αντιστοιχίσετε τιμές από τη στήλη σας σε νέες τιμές πριν εκτελέσετε τον αλγόριθμο ασαφούς αντιστοίχισης.
Μερικά παραδείγματα για το πώς μπορεί να χρησιμοποιηθεί ο πίνακας μετασχηματισμού:
- Πίνακας μετασχηματισμού σε τιμές συμπλέγματος
- Πίνακας μετασχηματισμού σε ασαφή ερωτήματα συγχώνευσης
- Πίνακας μετασχηματισμού σε ομάδα κατά
Σημαντικό
Όταν χρησιμοποιείται ο πίνακας μετασχηματισμού, η μέγιστη βαθμολογία ομοιότητας για τις τιμές από τον πίνακα μετασχηματισμού είναι 0,95. Αυτή η σκόπιμη ποινή 0,05 ισχύει για να διακρίνει ότι η αρχική τιμή από μια τέτοια στήλη δεν είναι ίση με τις τιμές με τις οποίες συγκρίθηκε από τότε που συνέβη ένας μετασχηματισμός.
Για σενάρια όπου θέλετε πρώτα να αντιστοιχίσετε τις τιμές σας και, στη συνέχεια, να εκτελέσετε την ασαφή αντιστοίχιση χωρίς την ποινή 0,05, συνιστάται να αντικαταστήσετε τις τιμές από τη στήλη σας και, στη συνέχεια, να εκτελέσετε την ασαφή αντιστοίχιση.