Βέλτιστες πρακτικές ενοποίησης δεδομένων
Όταν ορίζετε κανόνες για την ενοποίηση των δεδομένων σας σε ένα προφίλ πελάτη, λάβετε υπόψη αυτές τις βέλτιστες πρακτικές:
Εξισορροπήστε το χρόνο ενοποίησης έναντι πλήρους αντιστοίχισης. Η προσπάθεια σύλληψης κάθε πιθανού αγώνα οδηγεί σε πολλούς κανόνες και η ενοποίηση διαρκεί πολύ.
Προσθέστε κανόνες σταδιακά και παρακολουθήστε τα αποτελέσματα. Καταργήστε κανόνες που δεν βελτιώνουν το αποτέλεσμα της αντιστοίχισης.
Καταργήστε τα διπλότυπα κάθε πίνακα, έτσι ώστε κάθε πελάτης να εκπροσωπείται σε μία γραμμή.
Χρησιμοποιήστε την κανονικοποίηση για να τυποποιήσετε παραλλαγές στον τρόπο εισαγωγής δεδομένων, όπως οδός έναντι οδού έναντι αγίου έναντι οδό.
Χρησιμοποιήστε ασαφή αντιστοίχιση στρατηγικά για να διορθώσετε τυπογραφικά λάθη και σφάλματα όπως bob@contoso.com και bob@contoso.cm. Οι ασαφείς αγώνες χρειάζονται περισσότερο χρόνο για να εκτελεστούν από τους ακριβείς αγώνες. Πάντα να δοκιμάζετε για να δείτε αν ο επιπλέον χρόνος που αφιερώνεται στην ασαφή αντιστοίχιση αξίζει το επιπλέον ποσοστό αντιστοίχισης.
Περιορίστε το εύρος των αντιστοιχίσεων με ακριβή αντιστοίχιση. Βεβαιωθείτε ότι κάθε κανόνας με ασαφείς συνθήκες έχει τουλάχιστον μία ακριβή συνθήκη αντιστοίχισης.
Μην αντιστοιχίζετε στήλες που περιέχουν πολλά επαναλαμβανόμενα δεδομένα. Βεβαιωθείτε ότι οι ασαφείς αντιστοιχισμένες στήλες δεν έχουν τιμές που επαναλαμβάνονται συχνά, όπως η προεπιλεγμένη τιμή "Όνομα" μιας φόρμας.
Επιδόσεις ενοποίησης
Κάθε κανόνας χρειάζεται χρόνο για να εκτελεστεί. Μοτίβα όπως η σύγκριση κάθε πίνακα με κάθε άλλο πίνακα ή η προσπάθεια καταγραφής κάθε πιθανής αντιστοίχισης εγγραφών μπορεί να οδηγήσει σε μεγάλους χρόνους επεξεργασίας ενοποίησης. Επίσης, επιστρέφει λίγες, αν όχι καθόλου, αντιστοιχίσεις σε ένα σχέδιο που συγκρίνει κάθε πίνακα με έναν βασικό πίνακα.
Η καλύτερη προσέγγιση είναι να ξεκινήσετε με ένα βασικό σύνολο κανόνων που γνωρίζετε ότι χρειάζονται, όπως η σύγκριση κάθε πίνακα με τον κύριο πίνακα. Ο κύριος πίνακας πρέπει να είναι ο πίνακας με τα πιο πλήρη και ακριβή δεδομένα. Αυτός ο πίνακας θα πρέπει να ταξινομηθεί στην κορυφή της βήμα ενοποίησης κανόνων αντιστοίχισης.
Σταδιακά προσθέστε αρκετούς κανόνες και δείτε πόσος χρόνος χρειάζεται για να εκτελεστούν οι αλλαγές και αν τα αποτελέσματά σας βελτιώνονται. Μεταβείτε στις Ρυθμίσεις>, Κατάσταση>συστήματος και επιλέξτε Αντιστοίχιση για να δείτε πόσος χρόνος χρειάστηκε η κατάργηση διπλότυπων δεδομένων και η αντιστοίχιση για κάθε εκτέλεση ενοποίησης.
Προβάλετε τα στατιστικά στοιχεία κανόνων στις σελίδες Κανόνες κατάργησης διπλότυπων δεδομένων και Κανόνες αντιστοίχισης, για να δείτε αν αλλάζει ο αριθμός των μοναδικών εγγραφών . Εάν ένας νέος κανόνας αντιστοιχεί σε ορισμένες εγγραφές και ο μοναδικός αριθμός εγγραφών δεν αλλάξει, τότε ένας προηγούμενος κανόνας προσδιορίζει αυτές τις αντιστοιχίσεις.
Απαλοιφή διπλοτύπων
Χρησιμοποιήστε κανόνες κατάργησης διπλοτύπων για να καταργήσετε διπλότυπες εγγραφές πελατών μέσα σε έναν πίνακα, έτσι ώστε μία γραμμή σε κάθε πίνακα να αντιπροσωπεύει κάθε πελάτη. Ένας καλός κανόνας προσδιορίζει έναν μοναδικό πελάτη.
Σε αυτό το απλό παράδειγμα, οι εγγραφές 1, 2 και 3 μοιράζονται είτε ένα email είτε έναν αριθμό τηλεφώνου και αντιπροσωπεύουν το ίδιο άτομο.
Αναγνωριστικό | Ονομασία | Αριθμός τηλεφώνου | Διεύθυνση ηλεκτρονικού ταχυδρομείου |
---|---|---|---|
1 | Άτομο 1 | (425) 555-1111 | AAA@A.com |
2 | Άτομο 1 | (425) 555-1111 | BBB@B.com |
3 | Άτομο 1 | (425) 555-2222 | BBB@B.com |
4 | Άτομο 2 | (206) 555-9999 | Person2@contoso.com |
Δεν θέλουμε να ταιριάζουμε με το όνομα ακριβώς όπως θα αντιστοιχούσε σε διαφορετικά άτομα με το ίδιο όνομα.
Δημιουργήστε τον κανόνα 1 χρησιμοποιώντας το Όνομα και τηλέφωνο, το οποίο αντιστοιχεί στις εγγραφές 1 και 2.
Δημιουργήστε τον κανόνα 2 χρησιμοποιώντας το Όνομα και το Ηλεκτρονικό ταχυδρομείο, το οποίο ταιριάζει με τις εγγραφές 2 και 3.
Ο συνδυασμός του Κανόνα 1 και του Κανόνα 2 δημιουργεί μια ομάδα αντιστοίχισης, επειδή κάνει κοινή χρήση της καρτέλας 2.
Εσείς αποφασίζετε τον αριθμό των κανόνων και των συνθηκών που προσδιορίζουν μοναδικά τους πελάτες σας. Οι ακριβείς κανόνες εξαρτώνται από τα δεδομένα που έχετε στη διάθεσή σας για αντιστοίχιση, την ποιότητα των δεδομένων σας και το πόσο εξαντλητική θέλετε να είναι η διαδικασία κατάργησης διπλότυπων δεδομένων.
Νικητές και εναλλακτικές καρτέλες
Μόλις εκτελεστούν οι κανόνες και εντοπιστούν διπλότυπες εγγραφές, η διαδικασία κατάργησης διπλότυπων δεδομένων επιλέγει μια "Σειρά νικητή". Οι γραμμές μη νικητή ονομάζονται "Εναλλακτικές σειρές". Οι εναλλακτικές γραμμές χρησιμοποιούνται στο βήμα ενοποίησης κανόνων αντιστοίχισης για την αντιστοίχιση εγγραφών από άλλους πίνακες στη νικήτρια σειρά. Οι γραμμές αντιστοιχίζονται με τα δεδομένα στις εναλλακτικές γραμμές εκτός από τη νικητήρια γραμμή.
Αφού προσθέσετε έναν κανόνα σε έναν πίνακα, μπορείτε να διαμορφώσετε ποια γραμμή θα επιλέξετε ως νικήτρια γραμμή μέσω των προτιμήσεων συγχώνευσης. Οι προτιμήσεις συγχώνευσης καθορίζονται ανά πίνακα. Ανεξάρτητα από την πολιτική συγχώνευσης που έχει επιλεγεί, εάν υπάρχει ισοπαλία για μια νικήτρια σειρά, τότε η πρώτη γραμμή στη σειρά δεδομένων χρησιμοποιείται ως ισοβαθμία.
Κανονικοποίηση
Χρησιμοποιήστε την κανονικοποίηση για να τυποποιήσετε τα δεδομένα για καλύτερη αντιστοίχιση. Η κανονικοποίηση αποδίδει καλά σε μεγάλα σύνολα δεδομένων.
Τα κανονικοποιημένα δεδομένα χρησιμοποιούνται μόνο για σκοπούς σύγκρισης, ώστε να αντιστοιχούν πιο αποτελεσματικά τα αρχεία πελατών. Δεν αλλάζει τα δεδομένα στο τελικό ενοποιημένο αποτέλεσμα προφίλ πελάτη.
Κανονικοποίηση | Παραδείγματα |
---|---|
Αριθμοί | Μετατρέπει πολλά σύμβολα Unicode που αντιπροσωπεύουν αριθμούς σε απλούς αριθμούς. Παραδείγματα: ❽ και VIII. είναι και τα δύο κανονικοποιημένα στον αριθμό 8. Σημείωση: Τα σύμβολα πρέπει να είναι κωδικοποιημένα σε μορφή Unicode Point. |
Σύμβολα | Καταργεί τα σύμβολα και τους ειδικούς χαρακτήρες. Παραδείγματα: !?"#$%&'( )+,.-/:;<=>@^~{}`[ ] |
Κείμενο σε πεζά | Μετατρέπει τους κεφαλαίους χαρακτήρες σε πεζούς. Παράδειγμα: "THIS Is aN EXamplE" μετατρέπεται σε "this is an example" |
Τύπος - Τηλέφωνο | Μετατρέπει τηλέφωνα σε διάφορες μορφές σε ψηφία και λαμβάνει υπόψη τις παραλλαγές στον τρόπο με τον οποίο παρουσιάζονται οι κωδικοί και οι επεκτάσεις χωρών. Example: +01 425.555.1212 = 1 (425) 555-1212 |
Τύπος - Όνομα | Μετατρέπει περισσότερες από 500 κοινές παραλλαγές ονομάτων και τίτλους. Παραδείγματα: "debby" -> "deborah" "prof" και "professor" -> "Prof." |
Τύπος - Διεύθυνση | Μετατρέπει κοινά μέρη διευθύνσεων Παραδείγματα: "street" -> "st" και "northwest" -> "nw" |
Τύπος - Οργανισμός | Καταργεί περίπου 50 "λέξεις θορύβου" όπως "co", "corp", "corporation" και "ltd". |
Unicode σε ASCII | Μετατρέπει χαρακτήρες Unicode στους ισοδύναμους χαρακτήρες ASCII Παράδειγμα: Οι χαρακτήρες 'à,' 'á,' 'â,' 'À' 'Á,' 'Â,' 'Ã', 'Ä,' 'Ⓐ' και 'A' μετατρέπονται όλοι σε 'a .' |
Κενό διάστημα | Καταργεί όλα τα κενά διαστήματα |
Αντιστοίχιση ψευδώνυμου | Σας επιτρέπει να ανεβάσετε μια προσαρμοσμένη λίστα ζευγών συμβολοσειρών που στη συνέχεια μπορούν να χρησιμοποιηθούν για να υποδείξουν συμβολοσειρές που πρέπει πάντα να θεωρούνται ως ακριβής αντιστοίχιση. Χρησιμοποιήστε τη χαρτογράφηση ψευδωνύμου όταν έχετε συγκεκριμένα παραδείγματα δεδομένων που πιστεύετε ότι πρέπει να ταιριάζουν και δεν αντιστοιχίζονται χρησιμοποιώντας ένα από τα άλλα μοτίβα κανονικοποίησης. Παράδειγμα: Scott and Scooter ή MSFT και Microsoft. |
Προσαρμοσμένη παράκαμψη | Σας επιτρέπει να ανεβάσετε μια προσαρμοσμένη λίστα συμβολοσειρών που στη συνέχεια μπορούν να χρησιμοποιηθούν για να υποδείξουν συμβολοσειρές που δεν πρέπει ποτέ να αντιστοιχιστούν. Η προσαρμοσμένη παράκαμψη είναι χρήσιμη όταν έχετε δεδομένα με κοινές τιμές που πρέπει να αγνοηθούν, όπως ένας εικονικός αριθμός τηλεφώνου ή ένα εικονικό μήνυμα ηλεκτρονικού ταχυδρομείου. Παράδειγμα: Να μην ταιριάζει ποτέ με το τηλέφωνο 555-1212 ή test@contoso.com |
Ακριβής αντιστοιχία
Χρησιμοποιήστε ακρίβεια για να καθορίσετε πόσο κοντά θα πρέπει να είναι δύο συμβολοσειρές για να θεωρηθούν αντιστοιχίες. Η προεπιλεγμένη ρύθμιση ακρίβειας απαιτεί ακριβή αντιστοίχιση. Οποιαδήποτε άλλη τιμή επιτρέπει την ασαφή αντιστοίχιση για αυτήν την κατάσταση.
Η ακρίβεια μπορεί να ρυθμιστεί σε χαμηλή (30% συμφωνία), μεσαία (60% συμφωνία) και υψηλή (80% συμφωνία). Ή μπορείτε να προσαρμόσετε και να ορίσετε την ακρίβεια σε βήματα του 1%.
Ακριβείς συνθήκες αντιστοίχισης
Οι ακριβείς συνθήκες αντιστοίχισης εκτελούνται πρώτα για να ληφθεί ένα μικρότερο σύνολο τιμών για ασαφείς αντιστοιχίσεις. Για να είναι αποτελεσματικές, οι συνθήκες ακριβούς συμφωνίας θα πρέπει να έχουν εύλογο βαθμό μοναδικότητας. Για παράδειγμα, αν όλοι οι πελάτες σας ζουν στην ίδια χώρα/περιοχή, τότε η ακριβής αντιστοίχιση με τη χώρα/περιοχή δεν θα βοηθούσε στον περιορισμό του εύρους.
Στήλες όπως τα πεδία πλήρους ονόματος, ηλεκτρονικού ταχυδρομείου, τηλεφώνου ή διεύθυνσης έχουν καλή μοναδικότητα και είναι εξαιρετικές στήλες για χρήση ως ακριβής αντιστοίχιση.
Βεβαιωθείτε ότι η στήλη που χρησιμοποιείτε για μια συνθήκη ακριβούς αντιστοίχισης δεν έχει τιμές που επαναλαμβάνονται συχνά, όπως μια προεπιλεγμένη τιμή "Όνομα" που καταγράφεται από μια φόρμα. Οι πληροφορίες πελατών μπορούν να δημιουργήσουν προφίλ στηλών δεδομένων για να παρέχουν πληροφορίες σχετικά με τις κορυφαίες επαναλαμβανόμενες τιμές. Μπορείτε να ενεργοποιήσετε τη δημιουργία προφίλ δεδομένων σε συνδέσεις Azure Data Lake (χρησιμοποιώντας Common Data Model ή μορφή Delta) και στο Synapse. Το προφίλ δεδομένων εκτελείται την επόμενη ανανέωση του προέλευση δεδομένων. Για περισσότερες πληροφορίες, μεταβείτε στην ενότητα Δημιουργία προφίλ δεδομένων.
Ασαφής αντιστοίχιση
Χρησιμοποιήστε ασαφή αντιστοίχιση για να ταιριάξετε συμβολοσειρές που είναι κοντά, αλλά δεν είναι ακριβείς λόγω τυπογραφικών λαθών ή άλλων μικρών παραλλαγών. Χρησιμοποιήστε ασαφή αντιστοίχιση στρατηγικά, καθώς είναι πιο αργή από τις ακριβείς αντιστοιχίσεις. Βεβαιωθείτε ότι υπάρχει τουλάχιστον μία ακριβής συνθήκη αντιστοίχισης σε οποιονδήποτε κανόνα έχει ασαφείς συνθήκες.
Η ασαφής αντιστοίχιση δεν προορίζεται να καταγράψει παραλλαγές ονομάτων όπως Suzzie και Suzanne. Αυτές οι παραλλαγές αποτυπώνονται καλύτερα με την αντιστοίχιση μοτίβου κανονικοποίησης: Όνομα ή το προσαρμοσμένο ψευδώνυμο, όπου οι πελάτες μπορούν να εισαγάγουν τη λίστα παραλλαγών ονομάτων που θέλουν να θεωρήσουν ως αντιστοιχίσεις.
Μπορείτε να προσθέσετε συνθήκες σε έναν κανόνα, όπως η αντιστοίχιση "Όνομα" και "Τηλέφωνο". Οι συνθήκες εντός ενός δεδομένου κανόνα είναι συνθήκες "ΚΑΙ". Κάθε συνθήκη πρέπει να ταιριάζει για να ταιριάζουν οι σειρές. Οι ξεχωριστοί κανόνες είναι συνθήκες "OR". Εάν ο κανόνας 1 δεν ταιριάζει με τις γραμμές, τότε οι γραμμές συγκρίνονται με τον κανόνα 2.
Σημείωμα
Μόνο οι στήλες τύπου δεδομένων συμβολοσειράς μπορούν να χρησιμοποιούν ασαφή συμφωνία. Για στήλες με άλλους τύπους δεδομένων, όπως ακέραιος, διπλός ή ημερομηνία/ώρα, το πεδίο ακρίβειας είναι μόνο για ανάγνωση και έχει οριστεί στην ακριβή αντιστοίχιση.
Υπολογισμοί ασαφούς συμφωνίας
Οι ασαφείς αντιστοιχίσεις καθορίζονται υπολογίζοντας τη βαθμολογία απόστασης επεξεργασίας μεταξύ δύο συμβολοσειρών. Εάν η βαθμολογία πληροί ή υπερβαίνει το όριο ακρίβειας, οι συμβολοσειρές θεωρούνται αντιστοιχίες.
Η απόσταση επεξεργασίας είναι ο αριθμός των επεξεργασιών που απαιτούνται για τη μετατροπή μιας συμβολοσειράς σε άλλη, προσθέτοντας, διαγράφοντας ή αλλάζοντας έναν χαρακτήρα.
Για παράδειγμα, οι συμβολοσειρές "Jacqueline" και "Jaclyne" έχουν απόσταση επεξεργασίας πέντε όταν αφαιρούμε τους χαρακτήρες q, u, e, i και e και εισάγουμε το χαρακτήρα y.
Για να υπολογίσετε τη βαθμολογία απόστασης επεξεργασίας, χρησιμοποιήστε αυτόν τον τύπο: (Μήκος βασικής συμβολοσειράς – Απόσταση επεξεργασίας) / Μήκος συμβολοσειράς βάσης.
Συμβολοσειρά βάσης | Συμβολοσειρά σύγκρισης | Βαθμολογία |
---|---|---|
Jacqueline | Jaclyne | (10-4)/10=,6 |
fred@contoso.com | fred@contso.cm | (14-2) / 14 = 0,857 |
franklin | frank | (8-3) / 8 = 0,625 |