Γρήγορη εκκίνηση: Λήψη δεδομένων στο OneLake

Το OneLake είναι η ενιαία, ενοποιημένη λίμνη δεδομένων για το Microsoft Fabric. Κάθε φόρτος εργασίας Fabric διαβάζει και γράφει δεδομένα μέσω του OneLake, επομένως χρειάζεται να φορτώσετε δεδομένα μόνο μία φορά για να τα χρησιμοποιήσετε παντού. Μπορείτε να μεταφέρετε δεδομένα στο OneLake με διάφορους τρόπους:

  • Αποστείλετε αρχεία απευθείας σε μια λίμνη ή αποθήκη.
  • Πρόσληψη δεδομένων χρησιμοποιώντας διοχετεύσεις, ροές δεδομένων ή εμπειρίες ροής.
  • Συνδεθείτε σε εξωτερικά δεδομένα χρησιμοποιώντας συντομεύσεις ή κατοπτρισμό.

Σε αυτήν τη γρήγορη εκκίνηση, μεταφέρετε δεδομένα στο OneLake με δύο τρόπους: αποστέλλετε ένα αρχείο CSV σε ένα lakehouse και δημιουργείτε μια συντόμευση OneLake από ένα δεύτερο lakehouse που οδηγεί πίσω στα ίδια δεδομένα χωρίς να τα αντιγράψετε. Όταν τελειώσετε, έχετε έναν πίνακα Delta με δυνατότητα ερωτήματος και μια συντόμευση, και τα δύο διαθέσιμα σε κάθε μηχανισμό Fabric μέσω του OneLake.

Προαπαιτούμενα

Δημιουργία lakehouse

Όταν δημιουργείτε ένα στοιχείο Fabric, όπως ένα lakehouse, μια αποθήκη ή μια αποθήκη συμβάντων, αυτό το στοιχείο παρέχει χώρο αποθήκευσης στο OneLake για λογαριασμό σας. Σε αυτήν τη γρήγορη εκκίνηση, δημιουργείτε ένα lakehouse, το οποίο σας δίνει μια περιοχή αρχείου (Αρχεία) για μη δομημένα ή ημιδομημένα δεδομένα και μια περιοχή πίνακα Delta (Πίνακες) για δομημένα δεδομένα με δυνατότητα αναζήτησης. Ό,τι τοποθετείτε σε οποιαδήποτε περιοχή αποθηκεύεται στο OneLake και είναι άμεσα προσβάσιμο σε άλλους φόρτους εργασίας Fabric.

  1. Εισέλθετε στην πύλη Fabric και επιλέξτε τον χώρο εργασίας σας.

  2. Επιλέξτε νέο στοιχείο.

  3. Στο τμήμα παραθύρου Νέο στοιχείο , αναζητήστε και επιλέξτε Lakehouse.

  4. Πληκτρολογήστε ένα όνομα, όπως DataLakehouse, και μετά επιλέξτε «Δημιουργία».

    Το lakehouse ανοίγει στην προβολή Explorer , η οποία εμφανίζει κενές ενότητες Πίνακες και Αρχεία . Και οι δύο ενότητες υποστηρίζονται ήδη από το OneLake και είναι έτοιμες για περιεχόμενο.

Αποστολή δείγματος δεδομένων

Σε αυτήν τη γρήγορη εκκίνηση, χρησιμοποιείτε Dim_Products.csv από ένα δημόσια διαθέσιμο σύνολο δεδομένων Fabric δείγματος. Είναι ένας μικρός πίνακας με πληροφορίες προϊόντος από ένα δείγμα λιανοπωλητή καφέ.

  1. Ανοίξτε ένα πρόγραμμα περιήγησης και μεταβείτε στο https://fabrictutorialdata.blob.core.windows.net/sampledata/Coffee/Dim_Products.csv.
  2. Όταν σας ζητηθεί, αποθηκεύστε το αρχείο ως Dim_Products.csv φάκελο στον υπολογιστή σας.

Σε αυτήν την ενότητα, κάνετε αποστολή Dim_Products.csv στα Αρχεία , ώστε να έχετε ανεπεξέργαστα δεδομένα προέλευσης στο OneLake. Η περιοχή "Αρχεία" ενός lakehouse είναι μια ζώνη αποθήκευσης γενικής χρήσης στο OneLake. Σκεφτείτε το ως τη ζώνη προσγείωσης για ακατέργαστα δεδομένα σε όποια μορφή κι αν φτάσουν. Μπορείτε να προσθέσετε CSV, JSON, Parquet, εικόνες, αρχεία καταγραφής ή οτιδήποτε άλλο χωρίς να χρειάζεται να ορίσετε πρώτα ένα σχήμα.

  1. Στην Εξερεύνηση lakehouse, τοποθετήστε τον δείκτη του ποντικιού πάνω από τα Αρχεία, επιλέξτε το μενού περισσότερες επιλογές (...) και, στη συνέχεια, επιλέξτε Αποστολή>αρχείων αποστολής.

  2. Στο παράθυρο Αποστολή αρχείων , επιλέξτε το εικονίδιο φακέλου και αναζητήστε Dim_Products.csv το στον υπολογιστή σας.

  3. Επιλέξτε Αποστολή και, στη συνέχεια, κλείστε το παράθυρο αποστολής.

  4. Επιλέξτε το φάκελο Αρχεία για να δείτε τα περιεχόμενά του και να επιβεβαιώσετε ότι Dim_Products.csv εμφανίζεται.

  5. Επιλέξτε Dim_Products.csv για να δείτε τα δεδομένα του.

    Στιγμιότυπο οθόνης της πύλης Fabric που εμφανίζει μη δομημένα δεδομένα csv στην ενότητα Αρχεία ενός lakehouse.

Το αρχείο βρίσκεται τώρα στο OneLake, αλλά ως ακατέργαστο CSV δεν είναι ακόμα κάτι που μπορεί να ζητήσει η SQL ή το Spark ως πίνακας.

Φόρτωση του αρχείου σε πίνακα Delta

Fabric τυποποιείται στο Delta Lake ως μορφή πίνακα στο OneLake. Όταν φορτώνετε ένα αρχείο στην περιοχή Tables, Fabric διαβάζει το αρχείο προέλευσης, συνάγει ένα σχήμα και εγγράφει τα δεδομένα ως πίνακα Delta. Από εκείνο το σημείο και μετά, κάθε μηχανισμός Fabric μπορεί να υποβάλει ερώτημα στον ίδιο πίνακα χωρίς να αντιγράψετε ή να μετατρέψετε ξανά τα δεδομένα.

  1. Στην Εξερεύνηση lakehouse, ανοίξτε το φάκελο Αρχεία .

  2. Τοποθετήστε τον δείκτη του ποντικιού πάνω από το Dim_Products.csv αρχείο και επιλέξτε το μενού περισσότερες επιλογές (...) και, στη συνέχεια, επιλέξτε Φόρτωση σε πίνακες>Νέος πίνακας.

  3. Στο παράθυρο διαλόγου Φόρτωση σε πίνακα , πληκτρολογήστε dim_products το όνομα του πίνακα, διατηρήστε τις προεπιλογές και επιλέξτε Φόρτωση.

  4. Αφού ολοκληρωθεί η φόρτωση, αναπτύξτε τους Πίνακες και επιλέξτε dim_products για προεπισκόπηση των γραμμών. Το ακατέργαστο CSV στα Αρχεία παραμένει αμετάβλητο και dim_products είναι ένας νέος πίνακας Delta που δημιουργήθηκε από αυτό.

    Ένα στιγμιότυπο οθόνης που εμφανίζει δομημένα δεδομένα πίνακα Delta στην ενότητα Πίνακες μιας λίμνης.

  5. Τοποθετήστε τον δείκτη του ποντικιού επάνω dim_products και επιλέξτε το μενού περισσότερες επιλογές (...) και, στη συνέχεια, επιλέξτε Ιδιότητες.

    Η οθόνη Properties εμφανίζει τις διάφορες λεπτομέρειες για τον πίνακα, συμπεριλαμβανομένης της διεύθυνσης URL και Azure διαδρομής του συστήματος αρχείων Blob (ABFS) που μπορείτε να χρησιμοποιήσετε για να αναφέρετε αυτόν τον πίνακα σε άλλους μηχανισμούς.

Επαναχρησιμοποίηση των δεδομένων με μια συντόμευση από μια δεύτερη λίμνη

Η μεταφόρτωση και η φόρτωση είναι ένας τρόπος για να λάβετε δεδομένα στο OneLake. Το άλλο βασικό μοτίβο είναι η αναφορά σε δεδομένα που υπάρχουν ήδη κάπου αλλού, χωρίς να τα αντιγράφουμε. Αυτό είναι μια συντόμευση: ένας δείκτης στο OneLake που αναφέρεται σε δεδομένα που είναι αποθηκευμένα σε ένα άλλο lakehouse, σε έναν άλλο χώρο εργασίας Fabric ή σε υποστηριζόμενες προελεύσεις εκτός του Fabric, όπως το Azure Data Lake Storage ή το Amazon S3. Τα δεδομένα δεν αντιγράφονται. παραμένει στη θέση πηγής, αλλά μπορείτε να το διαβάσετε μέσω του OneLake σαν να ήταν τοπικό. Τυχόν ενημερώσεις στην πηγή είναι άμεσα ορατές μέσω της συντόμευσης, επομένως δεν χρειάζεται να διατηρείτε αντίγραφα των δεδομένων.

Σε αυτήν την ενότητα, δημιουργείτε μια δεύτερη λίμνη και προσθέτετε μια συντόμευση από αυτήν πίσω στον dim_products πίνακα της πρώτης λίμνης. Αυτό αντικατοπτρίζει τον τρόπο με τον οποίο λειτουργούν συνήθως οι ομάδες, όπου μια ομάδα κατέχει τα επιμελημένα δεδομένα και άλλες ομάδες ή έργα τα καταναλώνουν μέσω συντομεύσεων στους δικούς τους χώρους εργασίας.

  1. Στον χώρο εργασίας σας, επιλέξτε Νέο στοιχείο.
  2. Στο τμήμα παραθύρου Νέο στοιχείο , αναζητήστε και επιλέξτε Lakehouse.
  3. Πληκτρολογήστε ένα όνομα, όπως ShortcutLakehouse, και μετά επιλέξτε «Δημιουργία».
  4. Στην Εξερεύνηση του νέου lakehouse, τοποθετήστε τον δείκτη του ποντικιού πάνω από τους Πίνακες, επιλέξτε το μενού περισσότερες επιλογές (...) και, στη συνέχεια, επιλέξτε Νέα συντόμευση.
  5. Στη σελίδα Νέα συντόμευση, στην περιοχή Εσωτερικές προελεύσεις, επιλέξτε Microsoft OneLake.
  6. Στο πρόγραμμα περιήγησης προέλευσης δεδομένων, επιλέξτε την πρώτη λίμνη που δημιουργήσατε για αυτήν τη γρήγορη εκκίνηση και, στη συνέχεια, επιλέξτε Επόμενο.
  7. Αναπτύξτε τους Πίνακες, επιλέξτε τον dim_products πίνακα και, στη συνέχεια, επιλέξτε Επόμενο.
  8. Ελέγξτε την επιλογή και επιλέξτε Δημιουργία.
  9. Αναπτύξτε τους Πίνακες σε ShortcutLakehouse και επιβεβαιώστε ότι dim_products εμφανίζεται με ένα εικονίδιο συντόμευσης (μια μικρή εικόνα συνδέσμου πάνω από το εικονίδιο του πίνακα). Επιλέξτε το για να κάνετε προεπισκόπηση των γραμμών. Ο πίνακας είναι ο ίδιος όπως στο αρχικό lakehouse, αλλά δεν αντιγράφηκαν δεδομένα.
  10. Τοποθετήστε τον δείκτη του ποντικιού επάνω στον dim_products πίνακα, επιλέξτε περισσότερες επιλογές (...) και, στη συνέχεια, επιλέξτε Διαχείριση συντόμευσης. Στο παράθυρο Διαχείριση συντόμευσης , μπορείτε να προβάλετε τις λεπτομέρειες της συντόμευσης, συμπεριλαμβανομένου του προορισμού συντόμευσης όπου αποθηκεύονται τα αρχικά δεδομένα.

Εκκαθάριση των πόρων

Εάν δεν σκοπεύετε να συνεχίσετε με τις άλλες γρήγορες εκκινήσεις του OneLake, διαγράψτε τις λίμνες για να αποφύγετε τις χρεώσεις αποθήκευσης του OneLake στους εκχωρημένους πόρους του Fabric.

  1. Στον χώρο εργασίας σας, τοποθετήστε τον δείκτη του ποντικιού επάνω από τη λίμνη που θέλετε να διαγράψετε.
  2. Επιλέξτε το μενού περισσότερες επιλογές (...) δίπλα στο lakehouse, επιλέξτε Διαγραφή και επιβεβαιώστε τη διαγραφή.

Η διαγραφή των λιμνών καταργεί επίσης τα περιεχόμενα μέσα σε αυτά: το απεσταλμένο αρχείο, τον dim_products πίνακα Delta και τη συντόμευση.