Κοινή χρήση μέσω


Πρόσληψη δεδομένων στην Αποθήκη

Ισχύει για: Warehouse στο Microsoft Fabric

Η αποθήκη στο Microsoft Fabric προσφέρει ενσωματωμένα εργαλεία πρόσληψης δεδομένων που επιτρέπουν στους χρήστες την πρόσληψη δεδομένων σε αποθήκες σε κλίμακα, χρησιμοποιώντας εμπειρίες χωρίς κώδικα ή εμπλουτισμένες με κώδικα εμπειρίες.

Επιλογές πρόσληψης δεδομένων

Μπορείτε να πραγματοποιήσετε πρόσληψη δεδομένων σε μια Αποθήκη χρησιμοποιώντας μία από τις παρακάτω επιλογές:

  • COPY (Transact-SQL): η πρόταση COPY προσφέρει ευέλικτη πρόσληψη δεδομένων υψηλής ταχύτητας από έναν εξωτερικό λογαριασμό υπηρεσίας αποθήκευσης Azure. Μπορείτε να χρησιμοποιήσετε την πρόταση COPY ως μέρος της υπάρχουσας λογικής ΣΑς ETL/ELT στον κώδικα Transact-SQL.
  • Διοχετεύσεις δεδομένων: Οι διοχετεύσεις προσφέρουν μια εμπειρία χωρίς κώδικα ή λίγο κώδικα για την πρόσληψη δεδομένων. Χρησιμοποιώντας διοχετεύσεις, μπορείτε να οργανώσετε ισχυρές ροές εργασιών για μια πλήρη εμπειρία Εξαγωγής, Μετασχηματισμού, Φόρτωσης (ETL), η οποία περιλαμβάνει δραστηριότητες που βοηθούν στην προετοιμασία του περιβάλλοντος προορισμού, την εκτέλεση προσαρμοσμένων δηλώσεων Transact-SQL, την εκτέλεση αναζητήσεων ή την αντιγραφή δεδομένων από μια προέλευση σε έναν προορισμό.
  • Ροές δεδομένων: μια εναλλακτική στις διοχετεύσεις, οι ροές δεδομένων επιτρέπουν εύκολη προετοιμασία, εκκαθάριση και μετασχηματισμό δεδομένων, χρησιμοποιώντας μια εμπειρία χωρίς κώδικα.
  • Πρόσληψη μεταξύ αποθηκών: Η πρόσληψη δεδομένων από προελεύσεις χώρου εργασίας είναι επίσης δυνατή. Αυτό το σενάριο μπορεί να απαιτείται όταν υπάρχει ανάγκη δημιουργίας ενός νέου πίνακα με ένα υποσύνολο ενός διαφορετικού πίνακα ή ως αποτέλεσμα της σύνδεσης διαφορετικών πινάκων στην αποθήκη και στο lakehouse. Για την πρόσληψη μεταξύ αποθηκών, εκτός από τις επιλογές που αναφέρονται, δυνατότητες Transact-SQL όπως η ΕΙΣΑΓΩΓΉ... ΕΠΙΛΈΞΤΕ, ΕΠΙΛΈΞΤΕ ΜΈΣΑ ή ΔΗΜΙΟΥΡΓΙΑ ΠΙΝΑΚΑΣ AS SELECT (CTAS) που λειτουργούν μεταξύ αποθηκών στον ίδιο χώρο εργασίας.

Αποφασίστε ποιο εργαλείο πρόσληψης δεδομένων θα χρησιμοποιήσετε

Για να αποφασίσετε ποια επιλογή πρόσληψης δεδομένων θα χρησιμοποιήσετε, μπορείτε να χρησιμοποιήσετε τα ακόλουθα κριτήρια:

  • Χρησιμοποιήστε την πρόταση COPY (Transact-SQL) για λειτουργίες πρόσληψης δεδομένων εμπλουτισμένων με κώδικα, για τη μεγαλύτερη δυνατή ταχύτητα πρόσληψης δεδομένων ή όταν θέλετε να προσθέσετε πρόσληψη δεδομένων ως μέρος μιας λογικής Transact-SQL. Για σύνταξη, ανατρέξτε στο θέμα ΑΝΤΙΓΡΑΦΗ ΣΕ (Transact-SQL).
  • Χρησιμοποιήστε διοχετεύσεις δεδομένων για ροές εργασιών πρόσληψης δεδομένων χωρίς κώδικα ή με λίγο κώδικα, ισχυρές ροές εργασιών πρόσληψης δεδομένων που εκτελούνται επανειλημμένα, σύμφωνα με ένα χρονοδιάγραμμα, ή που περιλαμβάνουν μεγάλους όγκους δεδομένων. Για περισσότερες πληροφορίες, ανατρέξτε στο θέμα Πρόσληψη δεδομένων με χρήση διοχετεύσεων δεδομένων.
  • Χρησιμοποιήστε ροές δεδομένων για μια εμπειρία χωρίς κώδικα που επιτρέπει προσαρμοσμένους μετασχηματισμούς στην προέλευση δεδομένων πριν από την κατάποσή τους. Αυτοί οι μετασχηματισμοί περιλαμβάνουν (ενδεικτικά) την αλλαγή τύπων δεδομένων, την προσθήκη ή κατάργηση στηλών ή τη χρήση συναρτήσεων για την παραγωγή υπολογιζόμενων στηλών. Για περισσότερες πληροφορίες, ανατρέξτε στο θέμα Ροές δεδομένων.
  • Χρησιμοποιήστε την πρόσληψη μεταξύ αποθηκών από αποθήκες για εμπειρίες εμπλουτισμένες με κώδικα, για να δημιουργήσετε νέους πίνακες με δεδομένα προέλευσης εντός του ίδιου χώρου εργασίας. Για περισσότερες πληροφορίες, ανατρέξτε στα θέματα Πρόσληψη δεδομένων με χρήση transact-SQL και Εγγραφή ερωτήματος μεταξύ βάσεων δεδομένων.

Σημείωμα

Η πρόταση COPY στην Αποθήκη υποστηρίζει μόνο προελεύσεις δεδομένων σε λογαριασμούς αποθήκευσης Azure, οι προελεύσεις OneLake δεν υποστηρίζονται προς το παρόν.

Υποστηριζόμενες μορφές δεδομένων και προελεύσεις

Η πρόσληψη δεδομένων για την Αποθήκη στο Microsoft Fabric προσφέρει έναν τεράστιο αριθμό μορφών δεδομένων και προελεύσεων που μπορείτε να χρησιμοποιήσετε. Κάθε μία από τις επιλογές που περιγράφονται περιλαμβάνει τη δική της λίστα υποστηριζόμενων τύπων σύνδεσης δεδομένων και μορφών δεδομένων.

Για την πρόσληψη μεταξύ αποθηκών δεδομένων, οι προελεύσεις δεδομένων πρέπει να είναι εντός του ίδιου χώρου εργασίας Microsoft Fabric. Τα ερωτήματα μπορούν να εκτελεστούν με την ονομασία τριών τμημάτων για τα δεδομένα προέλευσης.

Για παράδειγμα, ας υποθέσουμε ότι υπάρχουν δύο αποθήκες με την ονομασία Απόθεμα και Πωλήσεις σε έναν χώρο εργασίας. Ένα ερώτημα, όπως το παρακάτω, δημιουργεί έναν νέο πίνακα στην αποθήκη Inventory με το περιεχόμενο ενός πίνακα στην αποθήκη Inventory, συνδεδεμένο με έναν πίνακα στην αποθήκη πωλήσεων:

CREATE TABLE Inventory.dbo.RegionalSalesOrders
AS
SELECT s.SalesOrders, i.ProductName
FROM Sales.dbo.SalesOrders s
JOIN Inventory.dbo.Products i
WHERE s.ProductID = i.ProductID
    AND s.Region = 'West region'

Η πρόταση COPY (Transact-SQL) υποστηρίζει επί του παρόντος τις μορφές αρχείων PARQUET και CSV. Για προελεύσεις δεδομένων, υποστηρίζονται προς το παρόν οι Υπηρεσία αποθήκευσης Azure Data Lake Υπηρεσία αποθήκευσης (ADLS) Gen2 και Azure Blob.

Οι διοχετεύσεις δεδομένων και οι ροές δεδομένων υποστηρίζουν μια μεγάλη ποικιλία προελεύσεων δεδομένων και μορφών δεδομένων. Για περισσότερες πληροφορίες, ανατρέξτε στο θέμα Διοχετεύσεις δεδομένων και Ροές δεδομένων.

Βέλτιστες πρακτικές

Η δυνατότητα εντολής COPY στο Warehouse στο Microsoft Fabric χρησιμοποιεί μια απλή, ευέλικτη και γρήγορη διασύνδεση για πρόσληψη δεδομένων υψηλής ταχύτητας για φόρτους εργασίας SQL. Στην τρέχουσα έκδοση, υποστηρίζουμε τη φόρτωση δεδομένων μόνο από εξωτερικούς λογαριασμούς χώρου αποθήκευσης.

Μπορείτε επίσης να χρησιμοποιήσετε το TSQL για να δημιουργήσετε έναν νέο πίνακα και, στη συνέχεια, να τον εισαγάγετε και, στη συνέχεια, να ενημερώσετε και να διαγράψετε γραμμές δεδομένων. Τα δεδομένα μπορούν να εισαχθούν από οποιαδήποτε βάση δεδομένων εντός του χώρου εργασίας Microsoft Fabric, χρησιμοποιώντας ερωτήματα μεταξύ βάσεων δεδομένων. Εάν θέλετε να κάνετε πρόσληψη δεδομένων από ένα Lakehouse σε μια αποθήκη, μπορείτε να το κάνετε αυτό με ένα ερώτημα μεταξύ βάσεων δεδομένων. Για παράδειγμα:

INSERT INTO MyWarehouseTable
SELECT * FROM MyLakehouse.dbo.MyLakehouseTable;
  • Αποφύγετε την πρόσληψη δεδομένων χρησιμοποιώντας προτάσεις singleton INSERT , καθώς αυτό προκαλεί χαμηλές επιδόσεις σε ερωτήματα και ενημερώσεις. Εάν οι προτάσεις εισαγωγής μονής τιμής χρησιμοποιήθηκαν διαδοχικά για την πρόσληψη δεδομένων, συνιστούμε να δημιουργήσετε έναν νέο πίνακα χρησιμοποιώντας τη ΔΗΜΙΟΥΡΓΙΑ ΠΙΝΑΚΑΣ AS SELECT (CTAS) ή ΕΙΣΑΓΩΓΉ... ΕΠΙΛΈΞτε μοτίβα, απορρίπτοντας τον αρχικό πίνακα και, στη συνέχεια, δημιουργώντας ξανά τον πίνακά σας από τον πίνακα που δημιουργήσατε χρησιμοποιώντας τη CREATE TABLE AS SELECT (CTAS).
    • Η κατάργηση του υπάρχοντος πίνακα επηρεάζει το σημασιολογικό μοντέλο σας, συμπεριλαμβανομένων τυχόν προσαρμοσμένων μετρήσεων ή προσαρμογών που μπορεί να έχετε κάνει στο μοντέλο σημασιολογίας.
  • Όταν εργάζεστε με εξωτερικά δεδομένα σε αρχεία, συνιστάται τα αρχεία να έχουν μέγεθος τουλάχιστον 4 MB.
  • Για μεγάλα συμπιεσμένα αρχεία CSV, εξετάστε το ενδεχόμενο να διαιρέσετε το αρχείο σας σε πολλαπλά αρχεία.
  • Το Azure Data Lake Υπηρεσία αποθήκευσης (ADLS) Gen2 προσφέρει καλύτερες επιδόσεις σε σχέση με το Azure Blob Υπηρεσία αποθήκευσης (παλαιού τύπου). Εξετάστε τη χρήση ενός λογαριασμού ADLS Gen2 όποτε αυτό είναι εφικτό.
  • Για διοχετεύσεις που εκτελούνται συχνά, εξετάστε το ενδεχόμενο να απομονώσετε τον λογαριασμό σας χώρου αποθήκευσης Azure από άλλες υπηρεσίες που θα μπορούσαν να έχουν πρόσβαση στα ίδια αρχεία ταυτόχρονα.
  • Οι ρητές συναλλαγές σάς επιτρέπουν να ομαδοποιείτε πολλές αλλαγές δεδομένων, ώστε να είναι ορατές μόνο κατά την ανάγνωση ενός ή περισσότερων πινάκων όταν η συναλλαγή είναι πλήρως δεσμευμένη. Έχετε επίσης τη δυνατότητα να επαναφέρετε τη συναλλαγή, εάν οποιαδήποτε από τις αλλαγές αποτύχει.
  • Εάν ένα SELECT είναι εντός μιας συναλλαγής και προηγείται εισαγωγές δεδομένων, τα στατιστικά στοιχεία που δημιουργούνται αυτόματα μπορεί να είναι ανακριβή μετά από μια επαναφορά. Ανακριβή στατιστικά στοιχεία μπορεί να οδηγήσουν σε μη βελτιστοποιημένα σχέδια ερωτημάτων και χρόνους εκτέλεσης. Εάν επαναφέρετε μια συναλλαγή με SELECTs μετά από μια μεγάλη ΕΙΣΑΓΩΓΉ, ενημερώστε τα στατιστικά στοιχεία για τις στήλες που αναφέρονται στην SELECT.

Σημείωμα

Ανεξάρτητα από τον τρόπο με τον οποίο μπορείτε να πραγματοποιήσετε πρόσληψη δεδομένων σε αποθήκες, τα αρχεία parquet που παράγονται από την εργασία πρόσληψης δεδομένων θα βελτιστοποιηθούν με τη βελτιστοποίηση εγγραφής V-Order. Η V-Order βελτιστοποιεί τα αρχεία parquet για να επιτρέπει την αστραπιαία ανάγνωση κάτω από τους μηχανισμούς υπολογιστικής λειτουργίας του Microsoft Fabric, όπως το Power BI, το SQL, το Spark και άλλα. Τα ερωτήματα αποθήκης γενικά επωφελούνται από ταχύτερους χρόνους ανάγνωσης για ερωτήματα με αυτή τη βελτιστοποίηση, εξασφαλίζοντας ακόμα ότι τα αρχεία parquet είναι 100% συμβατά με τις προδιαγραφές ανοιχτού κώδικα. Σε αντίθεση με την Μηχανικός δεδομένων fabric, η V-Order είναι μια καθολική ρύθμιση στην Αποθήκη δεδομένων Synapse που δεν μπορεί να απενεργοποιηθεί.