Προετοιμασία και μετασχηματισμός δεδομένων στο Microsoft Fabric

Αφού προσλάβετε δεδομένα στο Microsoft Fabric, συνήθως πρέπει να τα καθαρίσετε, να τα διαμορφώσετε και να τα εμπλουτίσετε πριν από την ανάλυση. Είτε ο στόχος σας είναι να προετοιμάσετε επιμελημένους πίνακες σε μια λίμνη είτε δεδομένα έτοιμα για μοντέλο σε μια αποθήκη, το Fabric παρέχει επιλογές μετασχηματισμού χαμηλού κώδικα και πρώτου κώδικα.

Αυτό το άρθρο περιγράφει τον τρόπο χρήσης του Dataflow Gen2 για την προετοιμασία οπτικών δεδομένων με λίγο κώδικα και τον τρόπο χρήσης σημειωματαρίων και συναρτήσεων δεδομένων χρήστη για σύνθετους μετασχηματισμούς βάσει κώδικα. Επιλέξτε την προσέγγιση που ταιριάζει καλύτερα στον ρόλο, το σύνολο δεξιοτήτων και τις απαιτήσεις φόρτου εργασίας σας.

Μετασχηματισμός δεδομένων με ροή δεδομένων Gen2

Για προετοιμασία δεδομένων χαμηλών απαιτήσεων κώδικα, χρησιμοποιήστε το Dataflow Gen2. Το Dataflow Gen2 χρησιμοποιεί τη γνώριμη εμπειρία Power Query , την ίδια τεχνολογία που χρησιμοποιείται στο Excel και το Power BI.

Με το περιβάλλον εργασίας Power Query, μπορείτε να εφαρμόσετε φίλτρα, να εξαγάγετε στήλες, να συγκεντρώσετε δεδομένα, να συγχωνεύσετε ερωτήματα και να εκτελέσετε άλλους μετασχηματισμούς μέσω μιας απεικόνισης, βήμα προς βήμα ροής εργασιών. Στο Fabric, το Dataflow Gen2 μπορεί να εκτελεστεί ως αυτόνομη διεργασία ETL ή ως δραστηριότητα μέσα σε μια διοχέτευση.

Για παράδειγμα, μετά την πρόσληψη μη επεξεργασμένων δεδομένων πωλήσεων σε ένα Lakehouse, μπορείτε να χρησιμοποιήσετε μια ροή δεδομένων για να καταργήσετε διπλότυπα, να τυποποιήσετε ονόματα στηλών, να εφαρμόσετε επιχειρηματικούς κανόνες και να γράψετε τα καθαρισμένα αποτελέσματα σε επιμελημένους πίνακες σε ένα επίπεδο Gold του Lakehouse ή σε μια αποθήκη.

Το Dataflow Gen2 εκτελείται στο cloud χρησιμοποιώντας εκχωρημένους πόρους Fabric, επιτρέποντάς του να κλιμακώνεται σε μεγάλα σύνολα δεδομένων και σύνθετους μετασχηματισμούς χωρίς να απαιτείται προσαρμοσμένος κώδικας. Οι αναλυτές δεδομένων και οι προγραμματιστές BI μπορούν να προετοιμάσουν δεδομένα ανεξάρτητα, ενώ εξακολουθούν να γράφουν έξοδο σε πίνακες Lakehouse ή Warehouse ως μέρος της ενοποιημένης βάσης αποθήκευσης του Fabric.

Προετοιμασία πρώτου κώδικα με σημειωματάρια και λειτουργίες δεδομένων χρήστη

Για σύνθετα σενάρια μετασχηματισμού με κώδικα, χρησιμοποιήστε σημειωματάρια, εργασίες Spark και συναρτήσεις δεδομένων χρήστη στην εμπειρία μηχανικής δεδομένων.

Ένα σημειωματάριο Fabric παρέχει ένα περιβάλλον τύπου Jupyter στην πύλη Fabric. Μπορείτε να γράψετε κώδικα σε γλώσσες όπως Python, T-SQL ή Scala για να εργαστείτε με δεδομένα που είναι αποθηκευμένα στο OneLake.

Τα σημειωματάρια είναι κατάλληλα για πολύπλοκους μετασχηματισμούς, προσαρμοσμένους αλγόριθμους, ροές εργασιών επιστήμης δεδομένων και ενοποίηση με εξωτερικές βιβλιοθήκες. Για παράδειγμα, μπορείτε να φορτώσετε ακατέργαστα αρχεία JSON ή Parquet από μια λίμνη σε ένα Spark DataFrame, να τα ενώσετε με άλλα σύνολα δεδομένων, να εφαρμόσετε συναθροίσεις με παράθυρο, να εμπλουτίσετε τα δεδομένα και να αποθηκεύσετε τα αποτελέσματα ως πίνακες Delta στο OneLake.

Τα σημειωματάρια ενσωματώνονται απευθείας με λιμνούλες και αποθήκες στον ίδιο χώρο εργασίας. Μπορείτε να διαβάσετε και να γράψετε δεδομένα χωρίς πρόσθετη ρύθμιση παραμέτρων διαπιστευτηρίων, επειδή οι λειτουργίες εκτελούνται εντός του περιβάλλοντος ασφαλείας Fabric. Μπορείτε επίσης να ενορχηστρώσετε και να προγραμματίσετε σημειωματάρια χρησιμοποιώντας τη δραστηριότητα σημειωματαρίου σε διοχετεύσεις Data Factory.

Οι συναρτήσεις δεδομένων χρήστη Fabric σάς επιτρέπουν να ενσωματώσετε την επαναχρησιμοποιήσιμη λογική Python στο Fabric. Μπορείτε να τα χρησιμοποιήσετε για να εφαρμόσετε προηγμένους επιχειρηματικούς κανόνες, να καλέσετε εξωτερικές υπηρεσίες ή να δημιουργήσετε αρθρωτά στοιχεία μετασχηματισμού. Οι λειτουργίες δεδομένων χρήστη υποστηρίζουν βιβλιοθήκες PyPI, μπορούν να συνδεθούν με προελεύσεις δεδομένων Fabric και μπορούν να εκθέσουν τελικά σημεία REST για εξωτερική ενοποίηση. Αυτές οι δυνατότητες τα καθιστούν κατάλληλα για επιχειρηματικά σενάρια που απαιτούν επαναχρησιμοποιήσιμη, ελεγχόμενη λογική μετασχηματισμού.

Μπορείτε να καλέσετε συναρτήσεις δεδομένων χρήστη από σημειωματάρια, διοχετεύσεις, κανόνες ενεργοποίησης και ως μέρος των μετασχηματιστικών ροών εργασιών σε αναφορές Power BI.