Λήψη δεδομένων στο Microsoft Fabric

Το Microsoft Fabric παρέχει πολλούς τρόπους για να μεταφέρετε δεδομένα στο περιβάλλον ανάλυσης. Είτε θέλετε να επεξεργαστείτε συμβάντα ροής σε πραγματικό χρόνο, να αναπαράγετε λειτουργικές βάσεις δεδομένων, να ενορχηστρώσετε αγωγούς δέσμης ή να αποκτήσετε πρόσβαση σε δεδομένα χωρίς να τα αντιγράψετε, το Fabric προσφέρει ενσωματωμένες δυνατότητες για την υποστήριξη κάθε σεναρίου. Το Fabric υποστηρίζει επίσης ρυθμιζόμενα μοτίβα κοινής χρήσης δεδομένων μέσω του OneLake, επιτρέποντας την πρόσβαση μεταξύ μισθωτών και χώρων εργασίας σε ζωντανά σύνολα δεδομένων χωρίς διπλότυπα.

Αυτό το άρθρο περιγράφει τις κύριες επιλογές πρόσληψης δεδομένων και μετακίνησης δεδομένων στο Fabric. Καλύπτει τα εξής:

  • Πρόσληψη σε πραγματικό χρόνο με Eventstreams και Eventhouse
  • Ενορχήστρωση δέσμης με διοχετεύσεις Data Factory και εργασία αντιγραφής
  • Αναπαραγωγή σχεδόν σε πραγματικό χρόνο με Mirroring
  • Αναπαράσταση δεδομένων με συντομεύσεις OneLake

Χρησιμοποιήστε αυτήν την επισκόπηση για να κατανοήσετε πώς λειτουργεί κάθε προσέγγιση και να επιλέξετε τη στρατηγική που ταιριάζει καλύτερα στις απαιτήσεις φόρτου εργασίας σας για καθυστέρηση, μετασχηματισμό και λειτουργική πολυπλοκότητα.

Πρόσληψη δεδομένων σε πραγματικό χρόνο

Οι ροές συμβάντων και τα στοιχεία Eventhouse στον φόρτο εργασίας Real-Time Intelligence υποστηρίζουν σενάρια δεδομένων ροής. Οι ροές συμβάντων απορροφούν και επεξεργάζονται συμβάντα σε πραγματικό χρόνο και οι Συνδέσεις συμβάντων αποθηκεύουν και υποβάλλουν ερωτήματα σε αυτά τα συμβάντα σε κλίμακα. Συνήθως χρησιμοποιείτε μια ροή συμβάντων για να καταγράψετε και να δρομολογήσετε δεδομένα σε μια βάση δεδομένων βάσης συμβάντων. Μπορείτε επίσης να χρησιμοποιήσετε κάθε δυνατότητα ανεξάρτητα με βάση τις απαιτήσεις σας. Το παρακάτω διάγραμμα δείχνει τον τρόπο με τον οποίο τα σύνολα δεδομένων σε πραγματικό χρόνο ρέουν στο Eventstream και το Eventhouse στο Fabric:

Διάγραμμα συνόλων δεδομένων σε πραγματικό χρόνο που ρέουν στη ροή συμβάντων ή στην αποθήκη συμβάντων.

Πρόσληψη και δρομολόγηση συμβάντων με το Eventstream

Το Eventstream παρέχει μια εμπειρία χωρίς κώδικα για την πρόσληψη συμβάντων στο Fabric, την εφαρμογή μετασχηματισμών σε ροή και τη δρομολόγηση δεδομένων σε πολλούς προορισμούς. Μια ροή συμβάντων λειτουργεί ως διοχέτευση πρόσληψης σε πραγματικό χρόνο. Μπορείτε να δημιουργήσετε μια ροή συμβάντων και να προσθέσετε μία ή περισσότερες συνδέσεις προέλευσης. Το Fabric υποστηρίζει πολλές προελεύσεις ροής, συμπεριλαμβανομένων εσωτερικών συμβάντων Fabric, όπως συμβάντα χώρου εργασίας Fabric, συμβάντα αρχείων OneLake και συμβάντα εργασιών διοχέτευσης.

Μετά την έναρξη της ροής συμβάντων, μπορείτε να εφαρμόσετε προαιρετικούς μετασχηματισμούς σε πραγματικό χρόνο μέσω ενός προγράμματος επεξεργασίας μεταφοράς και απόθεσης. Για παράδειγμα, μπορείτε να φιλτράρετε συμβάντα, να υπολογίζετε συναθροίσεις χρονικού παραθύρου, να ενώνετε πολλές ροές ή να αναδιαμορφώνετε πεδία χωρίς να γράφετε κώδικα.

Μπορείτε να στείλετε την επεξεργασμένη ροή σε έναν ή περισσότερους υποστηριζόμενους προορισμούς. Οι ροές συμβάντων μπορούν να εκθέσουν τελικά σημεία Apache Kafka μέσω προσαρμοσμένων προελεύσεων και προορισμών τελικού σημείου. Αυτή η δυνατότητα επιτρέπει στους παραγωγούς Kafka να μεταδίδουν συμβάντα στο Fabric και στους καταναλωτές Kafka να καταναλώνουν συμβάντα από το Fabric.

Οι ροές συμβάντων δεν αποθηκεύουν δεδομένα μόνιμα. Μεταδίδουν συμβάντα μέσω της μνήμης και τα προωθούν σε διαμορφωμένους προορισμούς. Αυτός ο σχεδιασμός καθιστά τα Eventstreams κατάλληλα για σενάρια εξαγωγής, μετασχηματισμού, φόρτωσης (ETL) σε πραγματικό χρόνο και για διανομή δεδομένων ροής σε πολλαπλούς στόχους. Για παράδειγμα, μπορείτε να προσλάβετε τηλεμετρία από αισθητήρες Internet of Things (IoT), να φιλτράρετε και να συγκεντρώσετε δεδομένα σε πραγματικό χρόνο, να στείλετε τη βελτιωμένη ροή σε μια βάση δεδομένων συμβάντων για ανάλυση και να δρομολογήσετε συμβάντα ανωμαλιών στον ενεργοποιητή για ειδοποίηση.

Πρόσληψη δεδομένων απευθείας στην υπηρεσία Eventhouse

Τα Eventhouses μπορούν να απορροφήσουν δεδομένα απευθείας από πολλές προελεύσεις. Το Fabric περιλαμβάνει μια ολοκληρωμένη εμπειρία λήψης δεδομένων εντός της βάσης δεδομένων Eventhouse. Ο οδηγός συνδέεται με προελεύσεις όπως τοπικά αρχεία, Χώρος αποθήκευσης Azure, Amazon S3, Κέντρα συμβάντων Azure καιOneLake. Μπορείτε να φορτώσετε δεδομένα σε έναν πίνακα βάσης δεδομένων Kusto Query Language (KQL) σε πραγματικό χρόνο ή σε λειτουργία δέσμης χρησιμοποιώντας το περιβάλλον εργασίας χρήστη Eventhouse.

Μπορείτε επίσης να επιλέξετε μια υπάρχουσα ροή συμβάντων στο Fabric ως προέλευση. Για παράδειγμα, εάν χρησιμοποιείτε μια ροή συμβάντων που απορροφά δεδομένα από τον διανομέα IoT ή τον Kafka, μπορείτε να δρομολογήσετε τα αποτελέσματά της απευθείας σε έναν πίνακα βάσης δεδομένων KQL χωρίς πρόσθετη ρύθμιση παραμέτρων.

Πρόσληψη δεδομένων παρτίδας

Το Data Factory παρέχει την κύρια εμπειρία για παραδοσιακούς αγωγούς εξαγωγής, μετασχηματισμού, φόρτωσης (ETL) και εξαγωγής, φόρτωσης, μετασχηματισμού (ELT). Περιλαμβάνει μια μεγάλη βιβλιοθήκη συνδέσεων. Το Fabric Data Factory παρέχει μια λίστα εγγενών συνδέσεων για χώρους αποθήκευσης δεδομένων εσωτερικής εγκατάστασης και cloud, συμπεριλαμβανομένων βάσεων δεδομένων, εφαρμογών λογισμικού ως υπηρεσίας (SaaS) και συστημάτων που βασίζονται σε αρχεία. Αυτές οι υποδοχές σάς βοηθούν να συνδεθείτε σε σχεδόν οποιοδήποτε σύστημα προέλευσης.

Ενορχηστρώστε την κίνηση δεδομένων με διοχετεύσεις

Μπορείτε να δημιουργήσετε διοχετεύσεις που χρησιμοποιούν αυτές τις συνδέσεις για την αντιγραφή ή τη μετακίνηση δεδομένων στο OneLake ή σε χώρους αποθήκευσης ανάλυσης. Η προσέγγιση αυτή υποστηρίζει:

  • Μη δομημένα σύνολα δεδομένων, όπως εικόνες, βίντεο και ήχος
  • Ημιδομημένα σύνολα δεδομένων όπως JSON, CSV και XML
  • Δομημένα σύνολα δεδομένων από υποστηριζόμενα συστήματα σχεσιακών βάσεων δεδομένων

Σε μια διοχέτευση, συνδυάζετε πολλά στοιχεία ενορχήστρωσης, όπως:

Μπορείτε να εκτελέσετε μια διοχέτευση κατ' απαίτηση, βάσει χρονοδιαγράμματος ή ως απόκριση σε συμβάντα. Για παράδειγμα, μπορείτε να προγραμματίσετε μια διοχέτευση να εκτελείται κάθε δύο ώρες κατά τη διάρκεια των καθημερινών ή να την ενεργοποιήσετε όταν δημιουργείται ένα νέο αρχείο στο OneLake.

Απλοποιήστε τη μετακίνηση δεδομένων με την εργασία αντιγραφής

Η εργασία αντιγραφής υποστηρίζει πολλαπλά μοτίβα παράδοσης δεδομένων, συμπεριλαμβανομένης της μαζικής αντιγραφής, της επαυξητικής αντιγραφής και της αναπαραγωγής καταγραφής δεδομένων αλλαγής (CDC). Μπορείτε να χρησιμοποιήσετε την εργασία αντιγραφής για να μετακινήσετε δεδομένα από μια προέλευση στο OneLake χωρίς να δημιουργήσετε διοχέτευση, ενώ εξακολουθείτε να έχετε πρόσβαση σε επιλογές ρύθμισης παραμέτρων για προχωρημένους. Η εργασία αντιγραφής υποστηρίζει πολλές προελεύσεις και προορισμούς. Προσφέρει περισσότερο έλεγχο από το Mirroring και λιγότερη λειτουργική πολυπλοκότητα από τη διαχείριση διοχετεύσεων που χρησιμοποιούν τη δραστηριότητα αντιγραφής.

Αναπαραγωγή δεδομένων με κατοπτρισμό

Ο κατοπτρισμός αναπαράγει δεδομένα από εξωτερικά συστήματα στο Fabric σε σχεδόν πραγματικό χρόνο με αυτοματοποιημένη ρύθμιση. Συνδέεστε σε ένα εξωτερικό σύστημα, όπως η βάση δεδομένων SQL Azure, ο SQL Server, η Oracle, η SAP ή η νιφάδα χιονιού. Το Fabric αναπαράγει συνεχώς δεδομένα ή μετα-δεδομένα στο OneLake. Το Mirroring υποστηρίζει τρεις τύπους:

  • Ο κατοπτρισμός βάσης δεδομένων αναπαράγει ολόκληρες βάσεις δεδομένων και πίνακες.
  • Ο κατοπτρισμός μετα-δεδομένων συγχρονίζει μετα-δεδομένα, όπως ονόματα καταλόγων, σχήματα και πίνακες, αντί να μετακινεί φυσικά δεδομένα. Αυτή η προσέγγιση χρησιμοποιεί συντομεύσεις, έτσι ώστε τα δεδομένα να παραμένουν στο σύστημα προέλευσης, ενώ εξακολουθούν να είναι προσβάσιμα στο Fabric.
  • Ο ανοιχτός κατοπτρισμός χρησιμοποιεί την ανοιχτή μορφή πίνακα Delta Lake. Οι προγραμματιστές μπορούν να γράψουν αλλαγές εφαρμογών απευθείας σε ένα στοιχείο βάσης δεδομένων κατοπτρισμού στο OneLake χρησιμοποιώντας δημόσια API.

Το Fabric ακούει για αλλαγές στο σύστημα προέλευσης (μέσω καταγραφής δεδομένων αλλαγής ή παρόμοιων μεθόδων) και εφαρμόζει αυτές τις αλλαγές σε σχεδόν πραγματικό χρόνο στο αντίγραφο κατοπτρισμού. Το αποτέλεσμα είναι ένα ζωντανό σύνολο δεδομένων με δυνατότητα ερωτήματος που παραμένει συγχρονισμένο με χαμηλό λανθάνοντα χρόνο, χωρίς πολύπλοκες διοχετεύσεις ETL.

Ο κατοπτρισμός υποστηρίζει επί του παρόντος διάφορες πηγές, όπως η βάση δεδομένων SQL Azure, η διαχειριζόμενη παρουσία SQL, η βάση δεδομένων Azure Cosmos DB, η βάση δεδομένων Azure για PostgreSQL, το Google BigQuery, η Oracle, η SAP, η νιφάδα χιονιού και ο SQL Server. Υποστηρίζει επίσης προελεύσεις δεδομένων από λύσεις συνεργατών που έχουν υλοποιήσει το Open Mirroring API. Τα κατοπτρικά δεδομένα αποθηκεύονται στο OneLake ως πίνακες δέλτα up-toημερομηνιών. Το Fabric διατηρεί αυτούς τους πίνακες αυτόματα, ώστε να μπορείτε να τους χρησιμοποιήσετε για ανάλυση σε πραγματικό χρόνο ή να τους συνδυάσετε με άλλα δεδομένα Fabric. Αυτή η δυνατότητα υποστηρίζει υβριδικά σενάρια συναλλαγών και αναλυτικής επεξεργασίας, όπου τα λειτουργικά δεδομένα ρέουν συνεχώς στην πλατφόρμα αναλυτικών στοιχείων σας.

Ο κατοπτρισμός καταργεί την ανάγκη μη αυτόματης κατασκευής αγωγών επαυξητικού φορτίου. Από την άποψη του κόστους κατοπτρισμού , οι λειτουργίες υπολογισμού που διατηρούν συγχρονισμένες τις βάσεις δεδομένων κατοπτρισμού δεν χρησιμοποιούν μονάδες χωρητικότητας (CU) από τους εκχωρημένους πόρους Fabric. Ο χώρος αποθήκευσης δεδομένων κατοπτρισμού στο OneLake είναι επίσης ελεύθερος μέχρι το όριο terabyte στο SKU του Fabric (για παράδειγμα, το F64 περιλαμβάνει 64 TB δωρεάν χώρου αποθήκευσης βάσης δεδομένων κατοπτρισμού).

Πρόσβαση σε εξωτερικά δεδομένα με συντομεύσεις

Το Fabric παρέχει συντομεύσεις για την ενεργοποίηση της αναπαράστασης δεδομένων. Μια συντόμευση στο OneLake αναφέρεται σε δεδομένα που είναι αποθηκευμένα σε ένα εξωτερικό σύστημα, όπως το Azure Data Lake Storage Gen2, το Amazon S3 ή το SharePoint. Οι συντομεύσεις μπορούν επίσης να αναφέρονται σε δεδομένα εντός του ίδιου του OneLake, συμπεριλαμβανομένων δεδομένων από άλλους χώρους εργασίας και δεδομένων που κοινοποιούνται σε μισθωτές μέσω της κοινής χρήσης δεδομένων OneLake. Αντί για αντιγραφή δεδομένων, οι συντομεύσεις επιτρέπουν στο OneLake να αναφέρεται σε εξωτερικά και εσωτερικά αρχεία ως μέρος της ενοποιημένης λίμνης δεδομένων. Μπορείτε να υποβάλετε ερωτήματα ή να ενώσετε εξωτερικά δεδομένα με τοπικά δεδομένα χωρίς να πραγματοποιήσετε αρχική μετεγκατάσταση. Αυτή η προσέγγιση απορρόφησης χωρίς αντιγραφή είναι χρήσιμη όταν οι απαιτήσεις αποθήκευσης δεδομένων ή οι ανησυχίες σχετικά με την αντιγραφή εμποδίζουν τη μετακίνηση δεδομένων. Το παρακάτω διάγραμμα δείχνει τον τρόπο με τον οποίο οι συντομεύσεις συνδέουν εξωτερικά συστήματα αποθήκευσης σε στοιχεία Fabric χωρίς αντιγραφή δεδομένων:

Διάγραμμα αρχιτεκτονικής συντομεύσεων εξωτερικής αποθήκευσης.

Το OneLake μπορεί να εντοπίσει τον τύπο δεδομένων που αναφέρεται από μια συντόμευση και να εφαρμόσει είτε μετασχηματισμούς αρχείων είτε μετασχηματισμούς AI χωρίς να απαιτείται διοχέτευση ή προσαρμοσμένος κώδικας. Αυτοί οι μετασχηματισμοί λειτουργούν σε οποιονδήποτε στόχο συντόμευσης, συμπεριλαμβανομένων των δεδομένων που κοινοποιούνται από άλλους μισθωτές μέσω της κοινής χρήσης δεδομένων OneLake. Το OneLake διατηρεί αυτόματα τον πίνακα Delta που προκύπτει σε συγχρονισμό με την προέλευση. Για παράδειγμα, μπορείτε να μετατρέψετε .csv αρχεία σε πίνακες Delta ή να εφαρμόσετε ανάλυση συναισθήματος βάσει AI σε .txt αρχεία σε έναν φάκελο.

Σε συνδυασμό με τον Κατοπτρισμό, οι συντομεύσεις σάς προσφέρουν ευέλικτα μοτίβα πρόσβασης δεδομένων. Μπορείτε να διατηρήσετε τα δεδομένα στη θέση τους χρησιμοποιώντας συντομεύσεις ή μπορείτε να αναπαραγάγετε δεδομένα χρησιμοποιώντας κατοπτρισμό. Και στις δύο περιπτώσεις, τα δεδομένα είναι έτοιμα για εργαλεία ανάλυσης Fabric χωρίς πολύπλοκο ETL.

Οδηγός απόφασης: Επιλέξτε μια στρατηγική κίνησης δεδομένων

Το Microsoft Fabric παρέχει πολλές επιλογές για τη μεταφορά δεδομένων στο Fabric, συμπεριλαμβανομένων των ροών συμβάντων για επεξεργασία σε πραγματικό χρόνο, του κατοπτρισμού, των διοχετεύσεων με δραστηριότητες αντιγραφής, της εργασίας αντιγραφής και των συντομεύσεων. Κάθε επιλογή προσφέρει διαφορετική ισορροπία ελέγχου, αυτοματισμού και λειτουργικής πολυπλοκότητας. Όταν χρειάζεστε δυναμική, ελεγχόμενη πρόσβαση σε δεδομένα που βρίσκονται ήδη στο OneLake (είτε στον ίδιο μισθωτή είτε κοινόχρηστα από άλλον οργανισμό), εξετάστε το ενδεχόμενο να συνδυάσετε την κοινή χρήση δεδομένων OneLake με συντομεύσεις αντί να αναπαράγετε δεδομένα.

Για οδηγίες σχετικά με την επιλογή της κατάλληλης προσέγγισης για το σενάριό σας, ανατρέξτε στο θέμα Οδηγός απόφασης Microsoft Fabric: Επιλογή στρατηγικής μετακίνησης δεδομένων.