Ανάγνωση στα Αγγλικά

Κοινή χρήση μέσω


Πώς λειτουργεί η ασαφής αντιστοίχιση στο Power Query

Δυνατότητες του Power Query, όπως η ασαφής συγχώνευση, οι τιμές συμπλέγματος και η ασαφής ομαδοποίηση, χρησιμοποιούν τους ίδιους μηχανισμούς για να λειτουργούν με ασαφή συμφωνία.

Αυτό το άρθρο εξετάζει πολλά σενάρια που επιδεικνύουν τον τρόπο με τον οποίο μπορείτε να επωφεληθείτε από τις επιλογές που έχει η ασαφής συμφωνία, με στόχο να καταστεί σαφές το "ασαφές".

Προσαρμογή του ορίου ομοιότητας

Το καλύτερο σενάριο για την εφαρμογή του αλγόριθμου ασαφής αντιστοίχισης είναι όταν όλες οι συμβολοσειρές κειμένου σε μια στήλη περιέχουν μόνο τις συμβολοσειρές που πρέπει να συγκριθούν και δεν υπάρχουν επιπλέον στοιχεία. Για παράδειγμα, η Apples σύγκριση με τις αποδόσεις με υψηλότερες βαθμολογίες ομοιότητας σε σχέση με το Apples My favorite fruit, by far, is Apples. I simply love them!.4ppl3s

Επειδή η λέξη Apples στη δεύτερη συμβολοσειρά είναι μόνο ένα μικρό μέρος ολόκληρης της συμβολοσειράς κειμένου, αυτή η σύγκριση αποδίδει χαμηλότερη βαθμολογία ομοιότητας.

Για παράδειγμα, το παρακάτω σύνολο δεδομένων αποτελείται από απαντήσεις από μια έρευνα που είχε μόνο μία ερώτηση: "Ποιο είναι το αγαπημένο σας φρούτο;"

Φρούτα
Βατόμουρα
Τα μπλε μούρα είναι απλά τα καλύτερα
Φράουλες
Φράουλες = <3
Μήλα
'sples
4ppl3s
Μπανάνες
fav φρούτα είναι μπανάνες
Banas
Τα αγαπημένα μου φρούτα, μακράν, είναι τα μήλα. Απλά τους αγαπώ!

Η έρευνα παρείχε ένα μοναδικό πλαίσιο κειμένου για την εισαγωγή της τιμής και δεν είχε καμία επικύρωση.

Τώρα σας έχει ανατεθεί η δημιουργία συμπλέγματος των τιμών. Για να κάνετε αυτή την εργασία, φορτώστε τον προηγούμενο πίνακα με τους καρπούς στο Power Query, επιλέξτε τη στήλη και, στη συνέχεια, επιλέξτε Συμπλέγματα τιμών στην καρτέλα Προσθήκη στήλης στην κορδέλα.

Στιγμιότυπο οθόνης με την επιλογή τιμών συμπλέγματος μέσα στην καρτέλα Προσθήκη στήλης στην κορδέλα που είναι διαθέσιμη αφού επιλέξετε τη στήλη Φρούτα από τον πίνακα.

Εμφανίζεται το παράθυρο διαλόγου Τιμές συμπλέγματος, όπου μπορείτε να καθορίσετε το όνομα της νέας στήλης. Ονομάστε αυτήν τη νέα στήλη Σύμπλεγμα και επιλέξτε OK.

Στιγμιότυπο οθόνης του παραθύρου διαλόγου τιμών συμπλέγματος μετά την επιλογή της στήλης Φρούτα. Το πεδίο νέου ονόματος στήλης ορίζεται σε Σύμπλεγμα.

Από προεπιλογή, το Power Query χρησιμοποιεί ένα όριο ομοιότητας 0,8 (ή 80%). Η ελάχιστη τιμή 0,00 προκαλεί όλες τις τιμές με οποιοδήποτε επίπεδο ομοιότητας μεταξύ τους και η μέγιστη τιμή του 1,00 επιτρέπει μόνο ακριβείς αντιστοιχίσεις. Μια ασαφής "ακριβής αντιστοίχιση" μπορεί να παραβλέψει διαφορές όπως το περίβλημα, η σειρά των λέξεων και τα σημεία στίξης. Το αποτέλεσμα της προηγούμενης λειτουργίας αποδίδει τον παρακάτω πίνακα με μια νέα στήλη Σύμπλεγμα .

Στιγμιότυπο οθόνης της προεπιλεγμένης εξόδου με μια νέα στήλη Συμπλέγματος μετά την εκτέλεση της λειτουργίας Τιμές συμπλέγματος στη στήλη Φρούτα με προεπιλεγμένες τιμές.

Παρόλο που πραγματοποιείται η δημιουργία συμπλέγματος, δεν σας παρέχει τα αναμενόμενα αποτελέσματα για όλες τις γραμμές. Η γραμμή νούμερο δύο (2) εξακολουθεί να έχει την τιμή Blue berries are simply the best, αλλά θα πρέπει να είναι συμπλεγμένη στο Blueberriesκαι συμβαίνει κάτι παρόμοιο με τις συμβολοσειρές Strawberries = <3κειμένου , fav fruit is bananasκαι My favorite fruit, by far, is Apples. I simply love them!.

Για να προσδιορίσετε τι προκαλεί αυτό το σύμπλεγμα, κάντε διπλό κλικ στην επιλογή Ομαδοποιημένες τιμές στον πίνακα Εφαρμοσμένα βήματα για να επαναφέρετε το παράθυρο διαλόγου Τιμές συμπλέγματος. Μέσα σε αυτό το παράθυρο διαλόγου, αναπτύξτε τις επιλογές ασαφούς συμπλέγματος. Ενεργοποιήστε την επιλογή Εμφάνιση βαθμολογιών ομοιότητας και, στη συνέχεια, επιλέξτε OK.

Στιγμιότυπο οθόνης του παραθύρου τιμών συμπλέγματος με επιλεγμένη την επιλογή ασαφούς συμπλέγματος και την επιλογή εμφάνισης βαθμολογιών ομοιότητας.

Η ενεργοποίηση της επιλογής Εμφάνιση βαθμολογιών ομοιότητας δημιουργεί μια νέα στήλη στον πίνακά σας. Αυτή η στήλη εμφανίζει την ακριβή βαθμολογία ομοιότητας μεταξύ του καθορισμένου συμπλέγματος και της αρχικής τιμής.

Στιγμιότυπο οθόνης του πίνακα με μια νέα στήλη βαθμολογίας ομοιότητας με το όνομα Fruit_Cluster_Similarity.

Μετά από εξέταση, το Power Query δεν μπόρεσε να βρει άλλες τιμές στο όριο ομοιότητας για τις συμβολοσειρές Blue berries are simply the bestκειμένου ,Strawberries = <3, fav fruit is bananasκαι My favorite fruit, by far, is Apples. I simply love them!.

Επιστρέψτε στο παράθυρο διαλόγου Τιμές συμπλέγματος ακόμη μία φορά, κάνοντας διπλό κλικ στο στοιχείο Ομαδοποιημένες τιμές στον πίνακα Εφαρμοσμένα βήματα . Αλλάξτε το όριο ομοιότητας από 0,8 σε 0,6 και, στη συνέχεια, επιλέξτε OK.

Στιγμιότυπο οθόνης του παραθύρου διαλόγου τιμών συμπλέγματος με τις ασαφείς επιλογές συμπλέγματος να εμφανίζονται και το όριο ομοιότητας να έχει οριστεί στο 0,6.

Αυτή η αλλαγή σάς δείχνει πιο κοντά στο αποτέλεσμα που αναζητάτε, εκτός από τη συμβολοσειρά My favorite fruit, by far, is Apples. I simply love them!κειμένου . Όταν αλλάξατε την τιμή ορίου ομοιότητας από 0,8 σε 0,6, το Power Query ήταν πλέον σε θέση να χρησιμοποιήσει τις τιμές με βαθμολογία ομοιότητας που ξεκινά από 0,6 έως 1.

Στιγμιότυπο οθόνης του πίνακα μετά τον ορισμό του ορίου ομοιότητας στο 0,6 με νέες τιμές που έχουν αντιστοιχιστεί στη στήλη Σύμπλεγμα.

Σημείωση

Το Power Query χρησιμοποιεί πάντα την τιμή που βρίσκεται πιο κοντά στο όριο για να ορίσει τα συμπλέγματα. Το όριο ορίζει το χαμηλότερο όριο της βαθμολογίας ομοιότητας που είναι αποδεκτό να εκχωρηθεί η τιμή σε ένα σύμπλεγμα.

Μπορείτε να δοκιμάσετε ξανά αλλάζοντας τη βαθμολογία ομοιότητας από 0,6 σε χαμηλότερο αριθμό, μέχρι να λάβετε τα αποτελέσματα που αναζητάτε. Σε αυτήν την περίπτωση, αλλάξτε τη βαθμολογία Ομοιότητα σε 0,5. Αυτή η αλλαγή αποδίδει το ακριβές αποτέλεσμα που περιμένετε με τη συμβολοσειρά My favorite fruit, by far, is Apples. I simply love them! κειμένου τώρα αντιστοιχισμένη στο σύμπλεγμα Apples.

Στιγμιότυπο οθόνης του πίνακα με όλες τις σωστές τιμές στη στήλη Σύμπλεγμα.

Σημείωση

Προς το παρόν, μόνο η δυνατότητα Τιμές συμπλέγματος στο Power Query Online παρέχει μια νέα στήλη με βαθμολογία ομοιότητας.

Ειδικά ζητήματα για τον πίνακα μετασχηματισμού

Ο πίνακας μετασχηματισμού σάς βοηθά να αντιστοιχίζετε τιμές από τη στήλη σας σε νέες τιμές προτού εκτελέσετε τον αλγόριθμο ασαφούς αντιστοίχισης.

Ορισμένα παραδείγματα για τον τρόπο χρήσης του πίνακα μετασχηματισμού:

Σημαντικό

Όταν χρησιμοποιείται ο πίνακας μετασχηματισμού, η μέγιστη βαθμολογία ομοιότητας για τις τιμές από τον πίνακα μετασχηματισμού είναι 0,95. Αυτή η σκόπιμη ποινή 0,05 υπάρχει για να διακρίνει ότι η αρχική τιμή από μια τέτοια στήλη δεν ισούται με τις τιμές με τις οποίες συγκρίθηκε δεδομένου ότι έγινε ένας μετασχηματισμός.

Για σενάρια στα οποία θέλετε πρώτα να αντιστοιχίστε τις τιμές σας και, στη συνέχεια, να εκτελέσετε ασαφή συμφωνία χωρίς την ποινή 0,05, συνιστούμε να αντικαταστήσετε τις τιμές από τη στήλη σας και, στη συνέχεια, να εκτελέσετε ασαφή συμφωνία.