Κοινοποίηση μέσω


Χρήση σημειωματαρίου για τη φόρτωση δεδομένων στο lakehouse σας

Σε αυτό το εκπαιδευτικό βοήθημα, μάθετε πώς μπορείτε να διαβάσετε/γράψετε δεδομένα στη λίμνη Fabric με ένα σημειωματάριο. Το Fabric υποστηρίζει το Spark API και το Pandas API για την επίτευξη αυτού του στόχου.

Φόρτωση δεδομένων με ένα Apache Spark API

Στο κελί κώδικα του σημειωματαρίου, χρησιμοποιήστε το παρακάτω παράδειγμα κώδικα για να διαβάσετε δεδομένα από την προέλευση και να τα φορτώσετε σε Αρχεία, Πίνακες ή και στις δύο ενότητες της λίμνης σας.

Για να καθορίσετε τη θέση από την οποία θα γίνει η ανάγνωση, μπορείτε να χρησιμοποιήσετε τη σχετική διαδρομή εάν τα δεδομένα προέρχονται από την προεπιλεγμένη λίμνη του τρέχοντος σημειωματαρίου σας. Εναλλακτικά, εάν τα δεδομένα προέρχονται από διαφορετική λίμνη, μπορείτε να χρησιμοποιήσετε την απόλυτη διαδρομή συστήματος αρχείων Azure Blob (ABFS). Αντιγράψτε αυτήν τη διαδρομή από το μενού περιβάλλοντος των δεδομένων.

Στιγμιότυπο οθόνης που εμφανίζει την επιλογή μενού της ενέργειας αντιγραφής.

Αντιγραφή διαδρομής ABFS: Αυτή η επιλογή επιστρέφει την απόλυτη διαδρομή του αρχείου.

Αντιγραφή σχετικής διαδρομής για το Spark: Αυτή η επιλογή επιστρέφει τη σχετική διαδρομή του αρχείου στο προεπιλεγμένο lakehouse σας.

df = spark.read.parquet("location to read from") 

# Keep it if you want to save dataframe as CSV files to Files section of the default lakehouse

df.write.mode("overwrite").format("csv").save("Files/ " + csv_table_name)

# Keep it if you want to save dataframe as Parquet files to Files section of the default lakehouse

df.write.mode("overwrite").format("parquet").save("Files/" + parquet_table_name)

# Keep it if you want to save dataframe as a delta lake, parquet table to Tables section of the default lakehouse

df.write.mode("overwrite").format("delta").saveAsTable(delta_table_name)

# Keep it if you want to save the dataframe as a delta lake, appending the data to an existing table

df.write.mode("append").format("delta").saveAsTable(delta_table_name)

Φόρτωση δεδομένων με το Pandas API

Για την υποστήριξη του Pandas API, το προεπιλεγμένο lakehouse μονταρίζεται αυτόματα στο σημειωματάριο. Το σημείο προσάρτησης είναι /lakehouse/default/. Μπορείτε να χρησιμοποιήσετε αυτό το σημείο προσάρτησης για να διαβάσετε/γράψετε δεδομένα από/προς το προεπιλεγμένο lakehouse. Η επιλογή "Αντιγραφή διαδρομής API αρχείου" από το μενού περιβάλλοντος επιστρέφει τη διαδρομή API αρχείου από αυτό το σημείο προσάρτησης. Η διαδρομή που επιστρέφεται από την επιλογή Αντιγραφή διαδρομής ABFS λειτουργεί επίσης για το Pandas API.

Σημαντικό

Το /lakehouse/default/ σημείο στερέωσης είναι διαθέσιμο μόνο σε φορητούς υπολογιστές. Για ορισμούς εργασιών Spark, χρησιμοποιήστε διαδρομές ABFS και ανατρέξτε στην τεκμηρίωση ορισμού εργασίας Spark.

Στιγμιότυπο οθόνης που εμφανίζει την επιλογή μενού της διαδρομής αντιγραφής αρχείου API.

Αντιγραφή διαδρομής API αρχείου: Αυτή η επιλογή επιστρέφει τη διαδρομή κάτω από το σημείο προσάρτησης του προεπιλεγμένου lakehouse.

Επιλογή 1: Χρήση του προεπιλεγμένου σημείου προσάρτησης lakehouse (συνιστάται για το ίδιο lakehouse)

import pandas as pd
df = pd.read_parquet("/lakehouse/default/Files/sample.parquet")

Επιλογή 2: Χρήση διαδρομών ABFS (απαιτείται για διαφορετικούς ορισμούς εργασιών lakehouses ή Spark)

# Path structure: abfss://WorkspaceName@msit-onelake.dfs.fabric.microsoft.com/LakehouseName.Lakehouse/Files/filename
import pandas as pd
df = pd.read_parquet("abfss://DevExpBuildDemo@msit-onelake.dfs.fabric.microsoft.com/Marketing_LH.Lakehouse/Files/sample.parquet")

Φιλοδώρημα

Για το Spark API, χρησιμοποιήστε την επιλογή Αντιγραφή διαδρομής ABFS ή Αντιγραφή σχετικής διαδρομής για το Spark για να λάβετε τη διαδρομή του αρχείου. Για το Pandas API, χρησιμοποιήστε την επιλογή Αντιγραφή διαδρομής ABFS ή Αντιγραφή διαδρομής API αρχείου για να λάβετε τη διαδρομή του αρχείου.

Ο πιο γρήγορος τρόπος για να έχετε τον κώδικα για να εργαστείτε με το Spark API ή το Pandas API είναι να χρησιμοποιήσετε την επιλογή Φόρτωση δεδομένων και να επιλέξετε το API που θέλετε να χρησιμοποιήσετε. Ο κώδικας δημιουργείται αυτόματα σε ένα νέο κελί κώδικα του σημειωματαρίου.

Στιγμιότυπο οθόνης που δείχνει πού να επιλέξετε την επιλογή φόρτωσης δεδομένων.