Δεδομένα προφίλ στο Power BI
Η δημιουργία προφίλ δεδομένων εξετάζει τις λεπτές διαφορές των δεδομένων: τον προσδιορισμό ανωμαλιών, την εξέταση και ανάπτυξη των υποκείμενων δομών δεδομένων και την υποβολή ερωτημάτων σε στατιστικά στοιχεία, όπως μετρήσεις γραμμών, κατανομές τιμών, ελάχιστες και μέγιστες τιμές, μέσους όρους και ούτω καθεξής. Αυτή η έννοια είναι σημαντική, επειδή σας επιτρέπει να διαμορφώνετε και να οργανώνετε τα δεδομένα, ώστε η αλληλεπίδραση με τα δεδομένα και η αναγνώριση της κατανομής των δεδομένων να είναι απλή, επομένως, το οποίο σας επιτρέπει να εργάζεστε με τα δεδομένα στο προσκήνιο για να αναπτύσσετε στοιχεία αναφορών χωρίς ιδιαίτερο κόπο.
Ας υποθέσουμε ότι αναπτύσσετε αναφορές για την ομάδα πωλήσεων στον οργανισμό σας. Δεν είστε βέβαιοι για το πώς είναι δομημένα τα δεδομένα και πώς περιέχονται εντός των πινάκων, επομένως θέλετε να δημιουργήσετε προφίλ των δεδομένων στο παρασκήνιο πριν ξεκινήσετε την ανάπτυξη απεικονίσεων. Το Power BI διαθέτει εγγενή λειτουργικότητα που κάνει αυτές τις εργασίες φιλικές προς τον χρήστη και απλές.
Εξέταση δομών δεδομένων
Προτού ξεκινήσετε να εξετάζετε τα δεδομένα στο Πρόγραμμα επεξεργασίας Power Query, πρέπει πρώτα να μάθετε σχετικά με τις υποκείμενες δομές δεδομένων στις οποίες είναι οργανωμένα τα δεδομένα. Μπορείτε να προβάλετε το τρέχον μοντέλο σημασιολογίας στην καρτέλα Μοντέλο Power BI Desktop.
Στην καρτέλα Μοντέλο, μπορείτε να επεξεργαστείτε συγκεκριμένες ιδιότητες στηλών και πινάκων επιλέγοντας έναν πίνακα ή στήλες και μπορείτε να μετασχηματίζετε τα δεδομένα χρησιμοποιώντας το κουμπί Μετασχηματισμός δεδομένων, το οποίο σας οδηγεί στη πρόγραμμα επεξεργασίας Power Query. Επιπλέον, μπορείτε να διαχειρίζεστε, να δημιουργείτε, να επεξεργάζεστε και να διαγράφετε σχέσεις μεταξύ διαφορετικών πινάκων, χρησιμοποιώντας διαχείριση σχέσεων που βρίσκεται στην κορδέλα.
Εύρεση ανωμαλιών δεδομένων και στατιστικών δεδομένων
Αφού δημιουργήσετε μια σύνδεση σε μια προέλευση δεδομένων και επιλέξετε Μετασχηματισμός δεδομένων, θα μεταφερθείτε στο Πρόγραμμα επεξεργασίας Power Query, όπου μπορείτε να προσδιορίσετε εάν υπάρχουν ανωμαλίες στα δεδομένα σας. Οι ανωμαλίες δεδομένων είναι ακραίες τιμές μέσα στα δεδομένα σας. Ο προσδιορισμός του τι είναι οι συγκεκριμένες ανωμαλίες μπορεί να σας βοηθήσει να προσδιορίσετε την εμφάνιση της κανονικής κατανομής των δεδομένων σας και το αν υπάρχουν συγκεκριμένα σημεία δεδομένων που πρέπει να διερευνήσετε περαιτέρω. πρόγραμμα επεξεργασίας Power Query προσδιορίζει ανωμαλίες δεδομένων χρησιμοποιώντας τη δυνατότητα Κατανομή στηλών.
Επιλέξτε Προβολή στην κορδέλα και, στην περιοχή Προεπισκόπηση δεδομένων, μπορείτε να κάνετε ορισμένες επιλογές. Για να κατανοήσετε τις ανωμαλίες και τα στατιστικά στοιχεία των δεδομένων, επιλέξτε τις επιλογές Κατανομή στηλών, Ποιότητα στήλης και Προφίλ στηλών . Η παρακάτω εικόνα δείχνει τα στατιστικά στοιχεία που εμφανίζονται.
Οι επιλογές Ποιότητα στήλης και Κατανομή στηλών εμφανίζονται στα γραφήματα πάνω από τις στήλες δεδομένων. Η Επιλογή ποιότητας στήλης εμφανίζει τα ποσοστά των δεδομένων που είναι έγκυρα, λανθασμένα και κενά. Σε μια ιδανική περίπτωση, θέλετε το 100 τοις εκατό των δεδομένων να είναι έγκυρο.
Σημείωση
Από προεπιλογή, Power Query εξετάζει τις 1000 πρώτες γραμμές του συνόλου δεδομένων σας. Για να το αλλάξετε, επιλέξτε την κατάσταση δημιουργίας προφίλ στη γραμμή κατάστασης και επιλέξτε Η δημιουργία προφίλ στηλών βασίζεται σε ολόκληρο το σύνολο δεδομένων. ]
Η επιλογή Κατανομή στηλών εμφανίζει την κατανομή των δεδομένων εντός της στήλης και τις μετρήσεις διακριτών και μοναδικών τιμών, οι οποίες μπορούν να σας πουν λεπτομέρειες σχετικά με τις μετρήσεις δεδομένων. Οι διακριτές τιμές είναι όλες οι διαφορετικές τιμές σε μια στήλη, συμπεριλαμβανομένων των διπλότυπων και των τιμών null, ενώ οι μοναδικές τιμές δεν περιλαμβάνουν διπλότυπες τιμές ή τιμές null. Επομένως, το διακριτό σε αυτόν τον πίνακα σάς ενημερώνει για το συνολικό πλήθος των τιμών που υπάρχουν, ενώ η τιμή unique σάς δείχνει πόσες από αυτές τις τιμές εμφανίζονται μόνο μία φορά.
Το προφίλ στήλης σάς παρέχει μια πιο αναλυτική ματιά στα στατιστικά στοιχεία εντός των στηλών για τις πρώτες 1.000 γραμμές δεδομένων. Αυτή η στήλη παρέχει πολλές διαφορετικές τιμές, συμπεριλαμβανομένου του πλήθους των γραμμών, το οποίο είναι σημαντικό κατά την επαλήθευση του κατά πόσο η εισαγωγή των δεδομένων σας ήταν επιτυχής. Για παράδειγμα, εάν η αρχική βάση δεδομένων σας είχε 100 γραμμές, μπορείτε να χρησιμοποιήσετε αυτό το πλήθος γραμμών για να επαληθεύσετε ότι όντως 100 γραμμές έχουν εισαχθεί σωστά. Επιπλέον, αυτό το πλήθος γραμμών θα δείξει πόσες γραμμές τις οποίες το Power BI θεωρεί ακραίες τιμές, κενές γραμμές και συμβολοσειρές και το ελάχιστο και το μέγιστο, το οποίο θα σας δείξει τη μικρότερη και μεγαλύτερη τιμή σε μια στήλη, αντίστοιχα. Αυτή η διάκριση είναι ιδιαίτερα σημαντική στην περίπτωση αριθμητικών δεδομένων, επειδή θα σας ειδοποιήσει αμέσως αν έχετε μια μέγιστη τιμή που υπερβαίνει τα όρια που προσδιορίζει η επιχείρησή σας ως "μέγιστο". Αυτή η τιμή εφιστά την προσοχή σας σε αυτές τις τιμές, που σημαίνει ότι μπορείτε να εστιάσετε τις προσπάθειές σας κατά την εμβάθυνσή σας στα δεδομένα. Στην περίπτωση όπου τα δεδομένα ήταν στη στήλη κειμένου, όπως φαίνεται στην προηγούμενη εικόνα, η ελάχιστη τιμή είναι η πρώτη τιμή και η μέγιστη τιμή είναι η τελευταία τιμή όταν οι τιμές είναι με αλφαβητική σειρά.
Επιπλέον, το γράφημα Κατανομή τιμών σάς δείχνει το πλήθος για κάθε διακριτή τιμή σε αυτήν τη συγκεκριμένη στήλη. Κατά την εξέταση του γραφήματος στην προηγούμενη εικόνα, παρατηρήστε ότι η κατανομή τιμών υποδεικνύει ότι ο "Anthony Gross" εμφανίζεται το μέγιστο αριθμός φορών στη στήλη SalesPerson και ότι η τιμή "Lily Code" εμφανίζεται τις λιγότερες φορές. Αυτές οι πληροφορίες είναι ιδιαίτερα σημαντικές διότι προσδιορίζουν ακραίες τιμές. Εάν μια τιμή εμφανίζεται πολύ περισσότερες φορές από άλλες τιμές σε μια στήλη, η δυνατότητα Κατανομή τιμής σάς επιτρέπει να εντοπίσετε ένα σημείο για να ξεκινήσετε την έρευνά σας σχετικά με τον λόγο που συμβαίνει αυτό.
Σε μια αριθμητική στήλη, η επιλογή Στατιστικά στήλης θα περιλαμβάνει επίσης τον αριθμό των μηδενικών και των τιμών null, καθώς και τη μέση τιμή στη στήλη, την τυπική απόκλιση των τιμών στη στήλη και το πόσες άρτιες και περιττές τιμές υπάρχουν στη στήλη. Αυτά τα στατιστικά στοιχεία σας παρέχουν μια ιδέα για την κατανομή των δεδομένων εντός της στήλης και είναι σημαντικά διότι συνοψίζουν τα δεδομένα στη στήλη και χρησιμεύουν ως σημείο εκκίνησης για να καθορίσουν ποιες είναι οι ακραίες τιμές.
Για παράδειγμα, κατά την εξέταση δεδομένων τιμολογίου, παρατηρήστε ότι το γράφημα Κατανομή τιμών δείχνει ότι μερικοί πωλητές στη στήλη SalesPerson εμφανίζονται με τον ίδιο αριθμό φορών στα δεδομένα. Επιπλέον, παρατηρήστε ότι η ίδια κατάσταση παρουσιάστηκε στη στήλη Κέρδος καθώς και σε μερικούς άλλους πίνακες. Κατά τη διάρκεια της έρευνάς σας, ανακαλύπτετε ότι τα δεδομένα που χρησιμοποιούσατε ήταν εσφαλμένα και χρειάζονταν ανανέωση, οπότε ολοκληρώνετε αμέσως την ανανέωση. Εάν δεν είχατε εμφανίσει αυτό το γράφημα, πιθανώς δεν θα είχατε δει αυτό το σφάλμα τόσο γρήγορα και, για αυτόν τον λόγο, η κατανομή των τιμών είναι απαραίτητη.
Αφού ολοκληρώσετε την επεξεργασία σε πρόγραμμα επεξεργασίας Power Query και είστε έτοιμοι να αρχίσετε να δημιουργείτε απεικονίσεις, επιστρέψτε στην Αρχική σελίδα στην κορδέλα πρόγραμμα επεξεργασίας Power Query. Επιλέξτε Κλείσιμο & Εφαρμογή, το οποίο θα σας επιστρέψει στην Power BI Desktop και θα εφαρμοστούν επίσης τυχόν αλλαγές/μετασχηματισμοί στηλών.
Έχετε πλέον προσδιορίσει τα στοιχεία που αποτελούν τη δημιουργία προφίλ δεδομένων στο Power BI, τα οποία περιλαμβάνουν τη φόρτωση δεδομένων στο Power BI, την εξέταση των ιδιοτήτων στήλης για την αποσαφήνισή και την περαιτέρω επεξεργασία του τύπου και της μορφής των δεδομένων σε στήλες, την εύρεση ανωμαλιών στα δεδομένα και την προβολή στατιστικών δεδομένων σε πρόγραμμα επεξεργασίας Power Query. Με αυτές τις γνώσεις, μπορείτε να συμπεριλάβετε στην εργαλειοθήκη σας τη δυνατότητα να μελετάτε τα δεδομένα σας με αποδοτικό και αποτελεσματικό τρόπο.