Βέλτιστες πρακτικές για τη δημιουργία ενός διαστατικού μοντέλου με χρήση ροών δεδομένων
Η σχεδίαση ενός διαστατικού μοντέλου είναι μία από τις πιο συνήθεις εργασίες που μπορείτε να κάνετε με μια ροή δεδομένων. Αυτό το άρθρο επισημαίνει ορισμένες από τις βέλτιστες πρακτικές για τη δημιουργία ενός μοντέλου διαστάσεων με χρήση μιας ροής δεδομένων.
Προεργασία ροών δεδομένων
Ένα από τα βασικά σημεία σε κάθε σύστημα ενοποίησης δεδομένων είναι η μείωση του αριθμού των αναγνώσεων από το λειτουργικό σύστημα προέλευσης. Στην παραδοσιακή αρχιτεκτονική ενοποίησης δεδομένων, αυτή η μείωση πραγματοποιείται με τη δημιουργία μιας νέας βάσης δεδομένων που ονομάζεται βάση δεδομένων προεργασίας. Ο σκοπός της βάσης δεδομένων προεργασίας είναι η φόρτωση δεδομένων όπως είναι από την προέλευση δεδομένων στη βάση δεδομένων προεργασίας βάσει κανονικού χρονοδιαγράμματος.
Η υπόλοιπη ενοποίηση δεδομένων θα χρησιμοποιήσει τότε τη βάση δεδομένων προεργασίας ως προέλευση για περαιτέρω μετασχηματισμό και θα τη μετατρέψει στη δομή μοντέλου διαστάσεων.
Συνιστούμε να ακολουθείτε την ίδια προσέγγιση χρησιμοποιώντας ροές δεδομένων. Δημιουργήστε ένα σύνολο ροών δεδομένων που είναι υπεύθυνες για τη φόρτωση απλώς των δεδομένων όπως είναι από το σύστημα προέλευσης (και μόνο για τους πίνακες που χρειάζεστε). Στη συνέχεια, το αποτέλεσμα αποθηκεύεται στη δομή αποθήκευσης της ροής δεδομένων (είτε Azure Data Lake Υπηρεσία αποθήκευσης, είτε Dataverse). Αυτή η αλλαγή εξασφαλίζει ότι η λειτουργία ανάγνωσης από το σύστημα προέλευσης είναι ελάχιστη.
Στη συνέχεια, μπορείτε να δημιουργήσετε άλλες ροές δεδομένων που αντλούν τα δεδομένα τους από ροές δεδομένων προεργασίας. Τα οφέλη αυτής της προσέγγισης περιλαμβάνουν τα εξής:
- Ως αποτέλεσμα, η μείωση του αριθμού των λειτουργιών ανάγνωσης από το σύστημα προέλευσης και η μείωση του φόρτου στο σύστημα προέλευσης.
- Μείωση του φόρτου στις πύλες δεδομένων εάν χρησιμοποιείται μια προέλευση δεδομένων εσωτερικής εγκατάστασης.
- Έχοντας ένα ενδιάμεσο αντίγραφο των δεδομένων για σκοπούς συμφωνία, σε περίπτωση που αλλάξουν τα δεδομένα του συστήματος προέλευσης.
- Καταστώντας τις ροές δεδομένων μετασχηματισμού ανεξάρτητες από την προέλευση.
Εικόνα με έμφαση στις ροές δεδομένων προεργασίας και τον χώρο αποθήκευσης προεργασίας και εμφανίζει τα δεδομένα στα οποία πραγματοποιείται πρόσβαση από την προέλευση δεδομένων από τη ροή δεδομένων προεργασίας και πίνακες που αποθηκεύονται είτε σε cadavers είτε σε Azure Data Lake Υπηρεσία αποθήκευσης. Στη συνέχεια, οι πίνακες εμφανίζονται μετασχηματισμένοι μαζί με άλλες ροές δεδομένων, οι οποίες στη συνέχεια αποστέλλονται ως ερωτήματα.
Ροές δεδομένων μετασχηματισμού
Όταν διαχωρίσετε τις ροές δεδομένων μετασχηματισμού σας από τις ροές δεδομένων προεργασίας, ο μετασχηματισμός θα είναι ανεξάρτητος από την προέλευση. Αυτός ο διαχωρισμός βοηθά εάν εκτελείτε μετεγκατάσταση του συστήματος προέλευσης σε ένα νέο σύστημα. Το μόνο που χρειάζεται να κάνετε σε αυτή την περίπτωση είναι να αλλάξετε τις ροές δεδομένων προεργασίας. Οι ροές δεδομένων μετασχηματισμού είναι πιθανό να λειτουργήσουν χωρίς κανένα πρόβλημα, επειδή προέρχονται μόνο από τις ροές δεδομένων προεργασίας.
Αυτός ο διαχωρισμός βοηθά επίσης σε περίπτωση που η σύνδεση του συστήματος προέλευσης είναι αργή. Η ροή δεδομένων μετασχηματισμού δεν θα χρειαστεί να περιμένει για μεγάλο χρονικό διάστημα για να λάβετε εγγραφές που προέρχονται από μια αργή σύνδεση από το σύστημα προέλευσης. Η ροή δεδομένων προεργασίας έχει ήδη κάνει αυτό το τμήμα και τα δεδομένα θα είναι έτοιμα για το επίπεδο μετασχηματισμού.
Πολυεπίπεδη αρχιτεκτονική
Μια πολυεπίπεδη αρχιτεκτονική είναι μια αρχιτεκτονική στην οποία εκτελείτε ενέργειες σε ξεχωριστά επίπεδα. Οι ροές δεδομένων προεργασίας και μετασχηματισμού μπορούν να είναι δύο επίπεδα μιας αρχιτεκτονικής ροής δεδομένων πολλών επιπέδων. Η προσπάθεια για ενέργειες σε επίπεδα εξασφαλίζει την ελάχιστη απαιτούμενη συντήρηση. Όταν θέλετε να αλλάξετε κάτι, απλώς χρειάζεται να το αλλάξετε στο επίπεδο στο οποίο βρίσκεται. Τα άλλα επίπεδα θα πρέπει να συνεχίσουν να λειτουργούν καλά.
Η παρακάτω εικόνα εμφανίζει μια πολυεπίπεδη αρχιτεκτονική για ροές δεδομένων στις οποίες οι πίνακές τους χρησιμοποιούνται στη συνέχεια σε σημασιολογικά μοντέλα Power BI.
Χρησιμοποιήστε έναν υπολογισμένο πίνακα όσο το δυνατόν περισσότερο
Όταν χρησιμοποιείτε το αποτέλεσμα μιας ροής δεδομένων σε μια άλλη ροή δεδομένων, χρησιμοποιείτε την έννοια του υπολογισμένου πίνακα, το οποίο σημαίνει τη λήψη δεδομένων από έναν πίνακα "ήδη επεξεργασμένο και αποθηκευμένο". Το ίδιο πράγμα μπορεί να συμβεί μέσα σε μια ροή δεδομένων. Όταν αναφέρετε έναν πίνακα από έναν άλλο πίνακα, μπορείτε να χρησιμοποιήσετε τον υπολογισμένο πίνακα. Αυτό είναι χρήσιμο όταν έχετε ένα σύνολο μετασχηματισμών που πρέπει να γίνουν σε πολλούς πίνακες, οι οποίοι ονομάζονται κοινοί μετασχηματισμοί.
Στην προηγούμενη εικόνα, ο υπολογισμένος πίνακας λαμβάνει τα δεδομένα απευθείας από την προέλευση. Ωστόσο, στην αρχιτεκτονική των ροών δεδομένων προεργασίας και μετασχηματισμού, είναι πιθανό ότι οι υπολογισμένοι πίνακες προέρχονται από τις ροές δεδομένων προεργασίας.
Δημιουργία αστεροειδούς σχήματος
Το καλύτερο μοντέλο διαστάσεων είναι ένα μοντέλο αστεροειδούς σχήματος που έχει διαστάσεις και πίνακες δεδομένων σχεδιασμένους με έναν τρόπο ώστε να ελαχιστοποιείται ο χρόνος υποβολής ερωτημάτων στα δεδομένα από το μοντέλο και, επίσης, η κατανόηση του οπτικοποιητή δεδομένων.
Δεν είναι ιδανικό να εισαγάγετε δεδομένα στην ίδια διάταξη του λειτουργικού συστήματος σε ένα σύστημα BI. Οι πίνακες δεδομένων πρέπει να αναπαλαιωθούν. Ορισμένοι από τους πίνακες θα πρέπει να έχουν τη μορφή ενός πίνακα διαστάσεων, το οποίο διατηρεί τις περιγραφικές πληροφορίες. Ορισμένοι από τους πίνακες θα πρέπει να έχουν τη μορφή ενός πίνακα δεδομένων, για να διατηρήσουν τα ευέλικτα δεδομένα. Η καλύτερη διάταξη για πίνακες δεδομένων και πίνακες διαστάσεων προς μορφοποίηση είναι ένα αστεροειδές σχήμα. Περισσότερες πληροφορίες: Κατανοήστε το αστεροειδές σχήμα και τη σημασία του για το Power BI
Χρήση μοναδικής τιμής κλειδιού για διαστάσεις
Όταν δημιουργείτε πίνακες διαστάσεων, βεβαιωθείτε ότι έχετε ένα κλειδί για κάθε έναν. Αυτό το κλειδί εξασφαλίζει ότι δεν υπάρχουν σχέσεις πολλά-προς-πολλά (ή με άλλα λόγια, "ασθενείς") σχέσεις μεταξύ διαστάσεων. Μπορείτε να δημιουργήσετε το κλειδί εφαρμόζοντας κάποιον μετασχηματισμό για να βεβαιωθείτε ότι μια στήλη ή ένας συνδυασμός στηλών επιστρέφει μοναδικές γραμμές στη διάσταση. Στη συνέχεια, αυτός ο συνδυασμός στηλών μπορεί να επισημανθεί ως κλειδί στον πίνακα στη ροή δεδομένων.
Πραγματοποιήστε μια επαυξητική ανανέωση για μεγάλους πίνακες δεδομένων
Οι πίνακες δεδομένων είναι πάντα οι μεγαλύτεροι πίνακες στο διαστατικό μοντέλο. Συνιστούμε να μειώσετε τον αριθμό των γραμμών που μεταφέρονται για αυτούς τους πίνακες. Εάν έχετε έναν πολύ μεγάλο πίνακα δεδομένων, βεβαιωθείτε ότι χρησιμοποιείτε επαυξητική ανανέωση για αυτόν τον πίνακα. Μια επαυξητική ανανέωση μπορεί να γίνει στο σημασιολογικό μοντέλο Power BI καθώς και στους πίνακες ροής δεδομένων.
Μπορείτε να χρησιμοποιήσετε την επαυξητική ανανέωση για να ανανεώσετε μόνο ένα μέρος των δεδομένων, το τμήμα που έχει αλλάξει. Υπάρχουν πολλές επιλογές για να επιλέξετε ποιο τμήμα των δεδομένων θα ανανεωθεί και ποιο τμήμα θα διατηρηθεί. Περισσότερες πληροφορίες: Χρήση επαυξητικής ανανέωσης με ροές δεδομένων Power BI
Αναφορά για τη δημιουργία διαστάσεων και πινάκων δεδομένων
Στο σύστημα προέλευσης, έχετε συχνά έναν πίνακα που χρησιμοποιείτε για τη δημιουργία πινάκων δεδομένων και διαστάσεων στην αποθήκη δεδομένων. Αυτοί οι πίνακες είναι καλοί υποψήφιοι για υπολογισμένους πίνακες καθώς και ενδιάμεσες ροές δεδομένων. Το κοινό μέρος της διαδικασίας, όπως η εκκαθάριση δεδομένων και η κατάργηση επιπλέον γραμμών και στηλών, μπορεί να γίνει μία φορά. Χρησιμοποιώντας μια αναφορά από το αποτέλεσμα αυτών των ενεργειών, μπορείτε να δημιουργήσετε τους πίνακες διαστάσεων και δεδομένων. Αυτή η προσέγγιση θα χρησιμοποιήσει τον υπολογισμένο πίνακα για τους συνήθεις μετασχηματισμούς.