Κοινή χρήση μέσω


Χρήση python για Apache Spark

Το Microsoft Fabric παρέχει ενσωματωμένη υποστήριξη Python για το Apache Spark. Η υποστήριξη περιλαμβάνει το PySpark, το οποίο επιτρέπει στους χρήστες να αλληλεπιδρούν με το Spark χρησιμοποιώντας οικεία περιβάλλοντα Spark ή Python.

Μπορείτε να αναλύσετε δεδομένα χρησιμοποιώντας python μέσω ορισμών μαζικής εργασίας Spark ή με αλληλεπιδραστικά σημειωματάρια Fabric. Αυτό το άρθρο παρέχει μια επισκόπηση της ανάπτυξης εφαρμογών Spark στο Synapse χρησιμοποιώντας τη γλώσσα Python.

Δημιουργία και εκτέλεση περιόδων λειτουργίας σημειωματάριου

Το σημειωματάριο Microsoft Fabric είναι ένα περιβάλλον εργασίας web για να δημιουργείτε αρχεία που περιέχουν δυναμικό κώδικα, απεικονίσεις και αφηγηματικό κείμενο. Τα σημειωματάρια είναι ένα καλό σημείο για να επικυρώσετε ιδέες και να χρησιμοποιήσετε γρήγορα πειράματα για να λάβετε πληροφορίες από τα δεδομένα σας. Τα σημειωματάρια χρησιμοποιούνται επίσης ευρέως στην προετοιμασία δεδομένων, την απεικόνιση δεδομένων, την εκμάθηση μηχανής και άλλα σενάρια μεγάλου όγκου δεδομένων.

Για να ξεκινήσετε με την Python στα σημειωματάρια Microsoft Fabric, αλλάξτε την κύρια γλώσσα στο επάνω μέρος του σημειωματάριού σας, ορίζοντας την επιλογή γλώσσας σε PySpark (Python).

%%pyspark
# Enter your Python code here

Μπορείτε να χρησιμοποιήσετε πολλές γλώσσες σε ένα σημειωματάριο καθορίζοντας την εντολή μαγείας γλώσσας στην αρχή ενός κελιού.

Για να μάθετε περισσότερα σχετικά με τα σημειωματάρια στο Microsoft Fabric Analytics, ανατρέξτε στο θέμα Τρόπος χρήσης σημειωματάριων.

Εγκατάσταση πακέτων

Οι βιβλιοθήκες παρέχουν επαναχρησιμοποιήσιμο κώδικα που μπορείτε να συμπεριλάβετε στα προγράμματα ή τα έργα σας. Για να καταστήσετε τον κώδικα συνεργάτη ή τον τοπικά δομημένο κώδικα διαθέσιμο στις εφαρμογές σας, εγκαταστήστε μια βιβλιοθήκη ενσωματωμένη στην περίοδο λειτουργίας του σημειωματάριού σας. Εναλλακτικά, ο διαχειριστής του χώρου εργασίας σας μπορεί να δημιουργήσει ένα περιβάλλον, να εγκαταστήσει τη βιβλιοθήκη σε αυτό και να επισυνάψει το περιβάλλον ως προεπιλεγμένο χώρο εργασίας στη ρύθμιση χώρου εργασίας.

Για να μάθετε περισσότερα σχετικά με τη διαχείριση βιβλιοθήκης στο Microsoft Fabric, ανατρέξτε στο θέμα Διαχείριση βιβλιοθηκών Apache Spark.

Βοηθητικά προγράμματα σημειωματάριου

Το Microsoft Spark Utilities (MSSparkUtils) είναι ένα ενσωματωμένο πακέτο που σας βοηθά να εκτελείτε εύκολα συνήθεις εργασίες. Μπορείτε να χρησιμοποιήσετε το MSSparkUtils για να εργαστείτε με συστήματα αρχείων, να λάβετε μεταβλητές περιβάλλοντος, να αλληλουχήσετε σημειωματάρια και να εργαστείτε με μυστικά. Το MSSparkUtils υποστηρίζεται για σημειωματάρια PySpark.

Για να ξεκινήσετε, εκτελέστε τις ακόλουθες εντολές:

from notebookutils import mssparkutils
mssparkutils.notebook.help()

Για περισσότερες πληροφορίες σχετικά με τις υποστηριζόμενες εντολές MSSparkUtils, ανατρέξτε στο θέμα Χρήση βοηθητικών προγραμμάτων Microsoft Spark.

Χρήση Pandas στο Spark

Το API Pandas στο Spark σάς επιτρέπει να κλιμακώσετε τον φόρτο εργασίας Pandas σε οποιοδήποτε μέγεθος εκτελώντας τον σε πολλαπλούς κόμβους. Εάν είστε ήδη εξοικειωμένοι με τα pandas και θέλετε να χρησιμοποιήσετε το Spark για μεγάλα δεδομένα, το API pandas στο Spark σάς κάνει αμέσως παραγωγικούς.

Μπορείτε να μετεγκαταστήσετε τις εφαρμογές σας χωρίς να τροποποιήσετε τον κώδικα. Μπορείτε να έχετε μια μοναδική βάση κώδικα που λειτουργεί τόσο με pandas, για δοκιμές και μικρότερα σύνολα δεδομένων, όσο και με Spark, για παραγωγή και κατανεμημένα σύνολα δεδομένων. Μπορείτε να εναλλάσσεστε μεταξύ του API pandas και του API Pandas στο Spark εύκολα και χωρίς επιβάρυνση.

Χρόνος εκτέλεσης Python

Ο χρόνος εκτέλεσης Microsoft Fabric είναι ένα επεξεργασμένο περιβάλλον βελτιστοποιημένο για επιστήμη δεδομένων και εκμάθηση μηχανής. Ο χρόνος εκτέλεσης Microsoft Fabric προσφέρει μια σειρά δημοφιλών βιβλιοθηκών ανοιχτού κώδικα Python, όπως βιβλιοθήκες όπως Pandas, PyTorch, scikit-learn και XGBoost.

Απεικόνιση Python

Το οικοσύστημα Python προσφέρει πολλές βιβλιοθήκες γραφημάτων που παρέχονται με πολλές διαφορετικές δυνατότητες. Από προεπιλογή, κάθε παρουσία Spark στο Microsoft Fabric περιέχει ένα σύνολο επιμελημένων και δημοφιλών βιβλιοθηκών ανοιχτού κώδικα. Μπορείτε επίσης να προσθέσετε ή να διαχειριστείτε άλλες βιβλιοθήκες ή εκδόσεις. Για περισσότερες πληροφορίες σχετικά με τη διαχείριση βιβλιοθήκης, ανατρέξτε στο θέμα Σύνοψη βέλτιστων πρακτικών διαχείρισης βιβλιοθήκης.

Για να μάθετε περισσότερα σχετικά με τον τρόπο δημιουργίας απεικονίσεων Python, ανατρέξτε στο θέμα Απεικόνιση Python.