Οδηγός αποφάσεων Microsoft Fabric: επιλογή χώρου αποθήκευσης δεδομένων

Άρθρο
06/10/2024

Χρησιμοποιήστε αυτόν τον οδηγό αναφοράς και τα παραδείγματα σεναρίων για να σας βοηθήσουν να επιλέξετε έναν χώρο αποθήκευσης δεδομένων για τους φόρτους εργασίας σας Microsoft Fabric.

Ιδιότητες χώρου αποθήκευσης δεδομένων

	Αποθήκη	Lakehouse	Power BI Datamart	Eventhouse
Όγκος δεδομένων	Απεριόριστο	Απεριόριστο	Έως 100 GB	Απεριόριστο
Τύπος δεδομένων	Δομημένη	Μη δομημένο, ημιδομημένες, δομημένες	Δομημένη	Μη δομημένο, ημιδομημένες, δομημένες
Κύρια προσωπικότητα προγραμματιστή	Προγραμματιστής αποθήκης δεδομένων, μηχανικός SQL	Μηχανικός δεδομένων, επιστήμονας δεδομένων	Προγραμματιστής πολιτών	Επιστήμονας δεδομένων πολιτών, μηχανικός δεδομένων, επιστήμονας δεδομένων, μηχανικός SQL
Σύνολο κύριων δεξιοτήτων προγραμματιστών	SQL	Spark(Scala, PySpark, Spark SQL, R)	Χωρίς κώδικα, SQL	Χωρίς κώδικα, KQL, SQL
Δεδομένα που είναι οργανωμένα κατά	Βάσεις δεδομένων, σχήματα και πίνακες	Φάκελοι και αρχεία, βάσεις δεδομένων και πίνακες	Βάση δεδομένων, πίνακες, ερωτήματα	Βάσεις δεδομένων, σχήματα και πίνακες
Λειτουργίες ανάγνωσης	T-SQL, Spark (υποστηρίζει την ανάγνωση από πίνακες με τη χρήση συντομεύσεων, δεν υποστηρίζει ακόμα πρόσβαση σε προβολές, αποθηκευμένες διαδικασίες, συναρτήσεις κ.λπ.)	Spark, T-SQL	Spark, T-SQL, Power BI	KQL, T-SQL, Spark, Power BI
Λειτουργίες εγγραφής	T-SQL	Spark(Scala, PySpark, Spark SQL, R)	Ροές δεδομένων, T-SQL	KQL, Spark, οικοσύστημα συνδέσεων
Συναλλαγές πολλών πινάκων	Όχι	όχι	Όχι	Ναι, για πρόσληψη πολλών πινάκων. Ανατρέξτε στο θέμα Ενημέρωση πολιτικής.
Κύρια διασύνδεση ανάπτυξης	Δέσμες ενεργειών SQL	Σημειωματάρια Spark,ορισμοί εργασίας Spark	Power BI	Σύνολο ερωτημάτων KQL, Βάση δεδομένων KQL
Ασφάλεια	Επίπεδο αντικειμένου (πίνακας, προβολή, συνάρτηση, αποθηκευμένη διαδικασία κ.λπ.), επίπεδο στήλης, επίπεδο γραμμής, DDL/DML, δυναμική απόκρυψη δεδομένων	Επίπεδο γραμμής, επίπεδο πίνακα (κατά τη χρήση του T-SQL), κανένα για Spark	Ενσωματωμένο πρόγραμμα επεξεργασίας RLS	Ασφάλεια σε επίπεδο γραμμών
Πρόσβαση σε δεδομένα μέσω συντομεύσεων	Ναι, μέσα από ένα lakehouse χρησιμοποιώντας ονόματα τριών τμημάτων	Όχι	όχι	Όχι
Μπορεί να είναι μια προέλευση για συντομεύσεις	Ναι (πίνακες)	Ναι (αρχεία και πίνακες)	Όχι	Όχι
Υποβολή ερωτήματος σε όλα τα στοιχεία	Ναι, ερώτημα σε ένα lakehouse και πίνακες αποθηκών	Ναι, να εκτελεί ερωτήματα σε ένα lakehouse και πίνακες αποθηκών. ερώτημα σε λίμνες (συμπεριλαμβανομένων των συντομεύσεων με χρήση του Spark)	Όχι	Ναι, υποβάλετε ερωτήματα σε βάσεις δεδομένων KQL, lakehouses και αποθήκες με συντομεύσεις

Σενάρια

Εξετάστε αυτά τα σενάρια για βοήθεια σχετικά με την επιλογή ενός χώρου αποθήκευσης δεδομένων στο Fabric.

Σενάριο 1

Η Susan, επαγγελματίας προγραμματιστής, είναι νέα στο Microsoft Fabric. Είναι έτοιμοι να ξεκινήσουν την εκκαθάριση, τη μοντελοποίηση και την ανάλυση δεδομένων, αλλά πρέπει να αποφασίσουν να κατασκευάσουν μια αποθήκη δεδομένων ή ένα lakehouse. Μετά την εξέταση των λεπτομερειών στον προηγούμενο πίνακα, τα κύρια σημεία απόφασης είναι το διαθέσιμο σύνολο δεξιοτήτων και η ανάγκη για συναλλαγές πολλαπλών πινάκων.

Η Susan έχει αφιερώσει πολλά χρόνια στη δημιουργία αποθηκών δεδομένων σε μηχανισμούς σχεσιακών βάσεων δεδομένων και είναι εξοικειωμένη με τη σύνταξη και τη λειτουργικότητα SQL. Σκεπτόμενοι τη μεγαλύτερη ομάδα, οι κύριοι καταναλωτές αυτών των δεδομένων είναι επίσης εξειδικευμένοι με τα εργαλεία ανάλυσης SQL και SQL. Η Susan αποφασίζει να χρησιμοποιήσει μια αποθήκη δεδομένων, η οποία επιτρέπει στην ομάδα να αλληλεπιδρά κυρίως με το T-SQL, επιτρέποντας παράλληλα στους χρήστες Spark στον οργανισμό να έχουν πρόσβαση στα δεδομένα.

Η Σούζαν δημιουργεί ένα νέο λιμνοθάσπιτο. Χρησιμοποιώντας την πύλη Fabric, δημιουργεί συντομεύσεις στους πίνακες εξωτερικών δεδομένων και τις τοποθετεί στον /Tables φάκελο. Η Susan μπορεί τώρα να γράψει ερωτήματα T-SQL που αναφέρουν συντομεύσεις για την υποβολή ερωτημάτων σε δεδομένα του Delta Lake στο lakehouse. Οι συντομεύσεις εμφανίζονται αυτόματα ως πίνακες στο τελικό σημείο ανάλυσης SQL και μπορούν να υποβληθούν ερωτήματα με το T-SQL χρησιμοποιώντας ονόματα τριών τμημάτων.

Σενάριο 2

Ο Rob, μηχανικός δεδομένων, πρέπει να αποθηκεύσει και να μοντελοποιεί διάφορα terabyte δεδομένων στο Fabric. Η ομάδα διαθέτει έναν συνδυασμό δεξιοτήτων PySpark και T-SQL. Οι περισσότεροι από την ομάδα που εκτελεί ερωτήματα T-SQL είναι καταναλωτές και, επομένως, δεν χρειάζεται να συντάσσουν προτάσεις INSERT, UPDATE ή DELETE. Οι υπόλοιποι προγραμματιστές αισθάνονται άνετα να εργάζονται σε σημειωματάρια και επειδή τα δεδομένα είναι αποθηκευμένα στην Delta, μπορούν να αλληλεπιδράσουν με μια παρόμοια σύνταξη SQL.

Ο Rob αποφασίζει να χρησιμοποιήσει ένα lakehouse, το οποίο επιτρέπει στην ομάδα μηχανικών δεδομένων να χρησιμοποιήσει τις διαφορετικές δεξιότητές της σε σχέση με τα δεδομένα, επιτρέποντας παράλληλα στα μέλη της ομάδας που είναι υψηλής ειδίκευσης στο T-SQL να καταναλώσουν τα δεδομένα.

Σενάριο 3

Ο Ash, προγραμματιστής πολιτών, είναι προγραμματιστής Power BI. Είναι εξοικειωμένοι με το Excel, το Power BI και το Office. Πρέπει να δημιουργήσουν ένα προϊόν δεδομένων για μια επιχειρηματική μονάδα. Γνωρίζουν ότι δεν έχουν ακριβώς τις δεξιότητες για να κατασκευάσουν μια αποθήκη δεδομένων ή ένα lakehouse, και αυτά φαίνονται πάρα πολύ για τις ανάγκες και τους όγκους δεδομένων τους. Εξετάζουν τις λεπτομέρειες του προηγούμενου πίνακα και βλέπουν ότι τα κύρια σημεία απόφασης είναι οι δικές τους δεξιότητες και η ανάγκη τους για αυτοεξυπηρέτησή, χωρίς δυνατότητα κώδικα και όγκος δεδομένων κάτω από 100 GB.

Ο Ash συνεργάζεται με επιχειρηματικούς αναλυτές που είναι εξοικειωμένοι με το Power BI και το Microsoft Office και γνωρίζει ότι έχουν ήδη συνδρομή σε premium εκχωρημένους πόρους. Καθώς σκέφτονται τη μεγαλύτερη ομάδα τους, συνειδητοποιούν ότι οι κύριοι καταναλωτές αυτών των δεδομένων μπορεί να είναι αναλυτές, εξοικειωμένοι με τα εργαλεία ανάλυσης χωρίς κώδικα και SQL. Ο Ash αποφασίζει να χρησιμοποιήσει ένα datamart Power BI, το οποίο επιτρέπει στην ομάδα να αλληλεπιδρά γρήγορα με τη δυνατότητα, χρησιμοποιώντας μια εμπειρία χωρίς κώδικα. Τα ερωτήματα μπορούν να εκτελεστούν μέσω Power BI και T-SQL, επιτρέποντας παράλληλα και στους χρήστες Spark στον οργανισμό να έχουν πρόσβαση στα δεδομένα.

Σενάριο 4

Η Νταίζη είναι επιχειρηματικός αναλυτής με εμπειρία στη χρήση του Power BI για την ανάλυση συμφορήσεων στην αλυσίδα προμηθειών για μια μεγάλη παγκόσμια αλυσίδα λιανικής πώλησης. Πρέπει να δημιουργήσουν μια λύση δεδομένων με δυνατότητα κλιμάκωσης που μπορεί να χειριστεί δισεκατομμύρια γραμμές δεδομένων και μπορεί να χρησιμοποιηθεί για τη δημιουργία πινάκων εργαλείων και αναφορών που μπορούν να χρησιμοποιηθούν για τη λήψη επιχειρηματικών αποφάσεων. Τα δεδομένα προέρχονται από εγκαταστάσεις, προμηθευτές, αποστολείς και άλλες πηγές σε διάφορες δομημένες, ημιδομημένες και μη δομημένες μορφές.

Η Νταίζη αποφασίζει να χρησιμοποιήσει μια υπηρεσία συμβάντων λόγω της δυνατότητας κλιμάκωσης, των χρόνων γρήγορης απόκρισης, των προηγμένων δυνατοτήτων ανάλυσης, συμπεριλαμβανομένης της ανάλυσης χρονικής σειράς, των γεωχωρικών συναρτήσεων και της λειτουργίας γρήγορων άμεσων ερωτημάτων στο Power BI. Τα ερωτήματα μπορούν να εκτελεστούν με χρήση του Power BI και της KQL για σύγκριση μεταξύ της τρέχουσας και της προηγούμενης περιόδου, για τον γρήγορο εντοπισμό αναδυόμενων προβλημάτων ή για την παροχή γεω-χωρικών αναλύσεων των χερσαίων και θαλάσσιων διαδρομών.

Κοινή χρήση μέσω

Οδηγός αποφάσεων Microsoft Fabric: επιλογή χώρου αποθήκευσης δεδομένων

Ιδιότητες χώρου αποθήκευσης δεδομένων

Σενάρια

Σενάριο 1

Σενάριο 2

Σενάριο 3

Σενάριο 4

Σχόλια

Σχόλια

Πρόσθετοι πόροι

Κοινή χρήση μέσω

Οδηγός αποφάσεων Microsoft Fabric: επιλογή χώρου αποθήκευσης δεδομένων

Ιδιότητες χώρου αποθήκευσης δεδομένων

Σενάρια

Σενάριο 1

Σενάριο 2

Σενάριο 3

Σενάριο 4

Σχετικό περιεχόμενο

Σχόλια

Σχόλια

Πρόσθετοι πόροι