Κοινοποίηση μέσω


Πρόσληψη δεδομένων στην Αποθήκη

Ισχύει για:✅ Warehouse στο Microsoft Fabric

Η αποθήκη στο Microsoft Fabric προσφέρει ενσωματωμένα εργαλεία πρόσληψης δεδομένων που επιτρέπουν στους χρήστες την πρόσληψη δεδομένων σε αποθήκες σε κλίμακα, χρησιμοποιώντας εμπειρίες χωρίς κώδικα ή εμπλουτισμένες με κώδικα εμπειρίες.

Αποφασίστε ποιο εργαλείο πρόσληψης δεδομένων θα χρησιμοποιήσετε

Για να αποφασίσετε ποια επιλογή πρόσληψης δεδομένων θα χρησιμοποιήσετε, μπορείτε να χρησιμοποιήσετε τα ακόλουθα κριτήρια:

  • Χρησιμοποιήστε την πρόταση COPY (Transact-SQL) για λειτουργίες πρόσληψης δεδομένων εμπλουτισμένων με κώδικα, για τη μεγαλύτερη δυνατή ταχύτητα πρόσληψης δεδομένων ή όταν θέλετε να προσθέσετε πρόσληψη δεδομένων ως μέρος μιας λογικής Transact-SQL.
    • Για να ξεκινήσετε, ανατρέξτε στο θέμα Πρόσληψη δεδομένων με χρήση της πρότασης COPY
    • Η Αποθήκη υποστηρίζει επίσης την παραδοσιακή BULK INSERT δήλωση που είναι συνώνυμη COPY INTO με τις κλασικές επιλογές φόρτωσης.
    • Η COPY πρόταση στην Αποθήκη υποστηρίζει προελεύσεις δεδομένων από λογαριασμούς χώρου αποθήκευσης Azure και φακέλους OneLake lakehouse. Οι πηγές OneLake είναι επί του παρόντος μια δυνατότητα προεπισκόπησης.
  • Χρησιμοποιήστε διοχετεύσεις για ισχυρές ροές εργασιών πρόσληψης δεδομένων χωρίς κώδικα ή με λίγο κώδικα που εκτελούνται επανειλημμένα, βάσει χρονοδιαγράμματος ή που περιλαμβάνουν μεγάλους όγκους δεδομένων.
    • Για να ξεκινήσετε, ανατρέξτε στην ενότητα Πρόσληψη δεδομένων στην αποθήκη σας με χρήση διοχετεύσεων.
    • Χρησιμοποιώντας διοχετεύσεις, μπορείτε να οργανώσετε ισχυρές ροές εργασιών για μια πλήρη εμπειρία Εξαγωγής, Μετασχηματισμού, Φόρτωσης (ETL), η οποία περιλαμβάνει δραστηριότητες που βοηθούν στην προετοιμασία του περιβάλλοντος προορισμού, την εκτέλεση προσαρμοσμένων δηλώσεων Transact-SQL, την εκτέλεση αναζητήσεων ή την αντιγραφή δεδομένων από μια προέλευση σε έναν προορισμό.
  • Χρησιμοποιήστε ροές δεδομένων για μια εμπειρία χωρίς κώδικα που επιτρέπει προσαρμοσμένους μετασχηματισμούς στην προέλευση δεδομένων πριν από την κατάποσή τους.
    • Για να ξεκινήσετε, ανατρέξτε στο θέμα Πρόσληψη δεδομένων με χρήση ροής δεδομένων.
    • Αυτοί οι μετασχηματισμοί περιλαμβάνουν (ενδεικτικά) την αλλαγή τύπων δεδομένων, την προσθήκη ή κατάργηση στηλών ή τη χρήση συναρτήσεων για την παραγωγή υπολογιζόμενων στηλών.
  • Χρησιμοποιήστε την απορρόφηση T-SQL για εμπειρίες πλούσιες σε κώδικα για να δημιουργήσετε νέους πίνακες ή να ενημερώσετε υπάρχοντες με δεδομένα προέλευσης στον ίδιο χώρο εργασίας ή εξωτερικό χώρο αποθήκευσης.
    • Για να ξεκινήσετε, ανατρέξτε στην ενότητα Πρόσληψη δεδομένων στην αποθήκη σας με χρήση Transact-SQL.
    • Μπορείτε να χρησιμοποιήσετε Transact-SQL δυνατότητες όπως INSERT...SELECT, SELECT INTOή CREATE TABLE AS SELECT (CTAS) για να διαβάσετε δεδομένα από πίνακες που αναφέρονται σε άλλες αποθήκες, λίμνες ή βάσεις δεδομένων κατοπτρισμού στον ίδιο χώρο εργασίας ή για να διαβάσετε δεδομένα από OPENROWSET συναρτήσεις που αναφέρονται σε αρχεία στους εξωτερικούς λογαριασμούς χώρου αποθήκευσης Azure.
    • Μπορείτε επίσης να γράψετε ερωτήματα μεταξύ βάσεων δεδομένων μεταξύ διαφορετικών αποθηκών στον χώρο εργασίας σας Fabric.

Υποστηριζόμενες μορφές δεδομένων και προελεύσεις

Η πρόσληψη δεδομένων για την Αποθήκη στο Microsoft Fabric προσφέρει έναν τεράστιο αριθμό μορφών δεδομένων και προελεύσεων που μπορείτε να χρησιμοποιήσετε. Κάθε μία από τις επιλογές που περιγράφονται περιλαμβάνει τη δική της λίστα υποστηριζόμενων τύπων σύνδεσης δεδομένων και μορφών δεδομένων.

Για απορρόφηση T-SQL, οι προελεύσεις δεδομένων πίνακα πρέπει να βρίσκονται στον ίδιο χώρο εργασίας Microsoft Fabric και οι προελεύσεις δεδομένων αρχείων πρέπει να βρίσκονται στο Azure Data Lake ή στο χώρο αποθήκευσης αντικειμένων blob Azure. Τα ερωτήματα μπορούν να εκτελεστούν χρησιμοποιώντας την ονομασία τριών τμημάτων ή τη συνάρτηση OPENROWSET για τα δεδομένα προέλευσης. Οι προελεύσεις δεδομένων πίνακα μπορούν να αναφέρουν σύνολα δεδομένων Delta Lake, ενώ το OPENROWSET() μπορεί να αναφέρεται σε αρχεία Parquet, CSV ή JSONL στο Azure Data Lake ή στον χώρο αποθήκευσης αντικειμένων blob Azure.

Για παράδειγμα, ας υποθέσουμε ότι υπάρχουν δύο αποθήκες με την ονομασία Απόθεμα και Πωλήσεις σε έναν χώρο εργασίας. Ένα ερώτημα όπως το ακόλουθο δημιουργεί έναν νέο πίνακα στην αποθήκη αποθέματος με το περιεχόμενο ενός πίνακα στην αποθήκη αποθέματος, συνδεδεμένο με έναν πίνακα στην αποθήκη πωλήσεων και με εξωτερικά αρχεία που περιέχουν πληροφορίες πελατών:

CREATE TABLE Inventory.dbo.RegionalSalesOrders
AS
SELECT 
    s.SalesOrders,
    i.ProductName,
    c.CustomerName
FROM Sales.dbo.SalesOrders s
JOIN Inventory.dbo.Products i
    ON s.ProductID = i.ProductID
JOIN OPENROWSET( BULK 'abfss://<container>@<storage>.dfs.core.windows.net/<customer-file>.csv' ) AS c
    ON s.CustomerID = c.CustomerID
WHERE s.Region = 'West region';

Note

Η ανάγνωση δεδομένων με χρήση OPENROWSET μπορεί να είναι πιο αργή από την υποβολή ερωτημάτων σε δεδομένα από έναν πίνακα. Εάν σκοπεύετε να έχετε πρόσβαση στα ίδια εξωτερικά δεδομένα επανειλημμένα, εξετάστε το ενδεχόμενο να τα απορροφήσετε σε έναν αποκλειστικό πίνακα για να βελτιώσετε την απόδοση και την αποτελεσματικότητα των ερωτημάτων.

Η πρόταση COPY (Transact-SQL) υποστηρίζει επί του παρόντος τις μορφές αρχείων PARQUET και CSV. Για προελεύσεις δεδομένων, υποστηρίζονται προς το παρόν το Azure Data Lake Storage (ADLS) Gen2 και ο Χώρος αποθήκευσης αντικειμένων blob Azure.

Οι διοχετεύσεις και οι ροές δεδομένων υποστηρίζουν μια μεγάλη ποικιλία προελεύσεων δεδομένων και μορφών δεδομένων. Για περισσότερες πληροφορίες, ανατρέξτε στο θέμα Διοχετεύσεις και ροές δεδομένων.

Βέλτιστες πρακτικές

Η δυνατότητα εντολής COPY στο Warehouse στο Microsoft Fabric χρησιμοποιεί μια απλή, ευέλικτη και γρήγορη διασύνδεση για πρόσληψη δεδομένων υψηλής ταχύτητας για φόρτους εργασίας SQL. Στην τρέχουσα έκδοση, υποστηρίζουμε τη φόρτωση δεδομένων μόνο από εξωτερικούς λογαριασμούς χώρου αποθήκευσης.

Μπορείτε επίσης να χρησιμοποιήσετε τη γλώσσα T-SQL για να δημιουργήσετε έναν νέο πίνακα και, στη συνέχεια, να τον εισαγάγετε και, στη συνέχεια, να ενημερώσετε και να διαγράψετε γραμμές δεδομένων. Τα δεδομένα μπορούν να εισαχθούν από οποιαδήποτε βάση δεδομένων εντός του χώρου εργασίας Microsoft Fabric, χρησιμοποιώντας ερωτήματα μεταξύ βάσεων δεδομένων. Εάν θέλετε να κάνετε πρόσληψη δεδομένων από ένα Lakehouse σε μια αποθήκη, μπορείτε να το κάνετε αυτό με ένα ερώτημα μεταξύ βάσεων δεδομένων. Για παράδειγμα:

INSERT INTO MyWarehouseTable
SELECT * FROM MyLakehouse.dbo.MyLakehouseTable;
  • Αποφύγετε την πρόσληψη δεδομένων χρησιμοποιώντας μεμονωμένες INSERT προτάσεις, καθώς αυτό προκαλεί κακή απόδοση σε ερωτήματα και ενημερώσεις. Εάν χρησιμοποιήθηκαν μεμονωμένες INSERT προτάσεις για την πρόσληψη δεδομένων διαδοχικά, συνιστούμε να δημιουργήσετε έναν νέο πίνακα χρησιμοποιώντας CREATE TABLE AS SELECT (CTAS)INSERT...SELECT ή μοτίβα, να απορρίψετε τον αρχικό πίνακα και, στη συνέχεια, να δημιουργήσετε ξανά τον πίνακα από τον πίνακα που δημιουργήσατε χρησιμοποιώντας CREATE TABLE AS SELECT (CTAS).
    • Η κατάργηση του υπάρχοντος πίνακα επηρεάζει το σημασιολογικό μοντέλο σας, συμπεριλαμβανομένων τυχόν προσαρμοσμένων μετρήσεων ή προσαρμογών που μπορεί να έχετε κάνει στο μοντέλο σημασιολογίας.
  • Όταν εργάζεστε με εξωτερικά δεδομένα σε αρχεία, συνιστάται τα αρχεία να έχουν μέγεθος τουλάχιστον 4 MB.
  • Για μεγάλα συμπιεσμένα αρχεία CSV, εξετάστε το ενδεχόμενο να διαιρέσετε το αρχείο σας σε πολλαπλά αρχεία.
  • Το Azure Data Lake Storage (ADLS) Gen2 προσφέρει καλύτερες επιδόσεις σε ό,τι ο Χώρος αποθήκευσης αντικειμένων blob Azure (παλαιού τύπου). Εξετάστε τη χρήση ενός λογαριασμού ADLS Gen2 όποτε αυτό είναι εφικτό.
  • Για διοχετεύσεις που εκτελούνται συχνά, εξετάστε το ενδεχόμενο να απομονώσετε τον λογαριασμό σας χώρου αποθήκευσης Azure από άλλες υπηρεσίες που θα μπορούσαν να έχουν πρόσβαση στα ίδια αρχεία ταυτόχρονα.
  • Οι ρητές συναλλαγές σάς επιτρέπουν να ομαδοποιείτε πολλές αλλαγές δεδομένων, ώστε να είναι ορατές μόνο κατά την ανάγνωση ενός ή περισσότερων πινάκων όταν η συναλλαγή είναι πλήρως δεσμευμένη. Έχετε επίσης τη δυνατότητα να επαναφέρετε τη συναλλαγή, εάν οποιαδήποτε από τις αλλαγές αποτύχει.
  • Εάν ένα SELECT είναι εντός μιας συναλλαγής και προηγείται εισαγωγές δεδομένων, τα στατιστικά στοιχεία που δημιουργούνται αυτόματα μπορεί να είναι ανακριβή μετά από μια επαναφορά. Ανακριβή στατιστικά στοιχεία μπορεί να οδηγήσουν σε μη βελτιστοποιημένα σχέδια ερωτημάτων και χρόνους εκτέλεσης. Εάν επαναφέρετε μια συναλλαγή με SELECTs μετά από μια μεγάλη ΕΙΣΑΓΩΓΉ, ενημερώστε τα στατιστικά στοιχεία για τις στήλες που αναφέρονται στην SELECT.

Note

Ανεξάρτητα από τον τρόπο με τον οποίο μπορείτε να πραγματοποιήσετε πρόσληψη δεδομένων σε αποθήκες, τα αρχεία parquet που παράγονται από την εργασία πρόσληψης δεδομένων θα βελτιστοποιηθούν με τη βελτιστοποίηση εγγραφής V-Order. Η V-Order βελτιστοποιεί τα αρχεία parquet για να επιτρέπει την αστραπιαία ανάγνωση κάτω από τους μηχανισμούς υπολογιστικής λειτουργίας του Microsoft Fabric, όπως το Power BI, το SQL, το Spark και άλλα. Τα ερωτήματα αποθήκης γενικά επωφελούνται από ταχύτερους χρόνους ανάγνωσης για ερωτήματα με αυτή τη βελτιστοποίηση, εξασφαλίζοντας ακόμα ότι τα αρχεία parquet είναι 100% συμβατά με τις προδιαγραφές ανοιχτού κώδικα. Δεν συνιστάται η απενεργοποίηση του V-Order, καθώς μπορεί να επηρεάσει την απόδοση ανάγνωσης. Για περισσότερες πληροφορίες σχετικά με την παραγγελία V, ανατρέξτε στο θέμα Κατανόηση και διαχείριση της παραγγελίας V για αποθήκη.