Σημείωμα
Η πρόσβαση σε αυτήν τη σελίδα απαιτεί εξουσιοδότηση. Μπορείτε να δοκιμάσετε να εισέλθετε ή να αλλάξετε καταλόγους.
Η πρόσβαση σε αυτήν τη σελίδα απαιτεί εξουσιοδότηση. Μπορείτε να δοκιμάσετε να αλλάξετε καταλόγους.
Μια βιβλιοθήκη είναι ένα επαναχρησιμοποιήσιμο πακέτο κώδικα — όπως ένα πακέτο Python από το PyPI, ένα πακέτο R από το CRAN ή ένα Java JAR — το οποίο μπορείτε να εισαγάγετε στα σημειωματάριά σας και στους ορισμούς εργασιών Spark για να προσθέσετε λειτουργικότητα χωρίς να το γράψετε από την αρχή. Το Microsoft Fabric παρέχει πολλαπλούς μηχανισμούς για να σας βοηθήσει να διαχειρίζεστε και να χρησιμοποιείτε βιβλιοθήκες.
- Ενσωματωμένες βιβλιοθήκες: Κάθε χρόνος εκτέλεσης Fabric Spark παρέχει ένα πλούσιο σύνολο δημοφιλών προεγκατεστημένων βιβλιοθηκών. Μπορείτε να βρείτε την πλήρη ενσωματωμένη λίστα βιβλιοθήκης στον χρόνο εκτέλεσης Fabric Spark.
- Δημόσιες βιβλιοθήκες: Οι δημόσιες βιβλιοθήκες προέρχονται από αποθετήρια όπως το PyPI και το Conda, τα οποία υποστηρίζονται επί του παρόντος.
- Προσαρμοσμένες βιβλιοθήκες: Οι προσαρμοσμένες βιβλιοθήκες αναφέρονται σε κώδικα που εσείς ή ο οργανισμός σας δημιουργείτε. Το Fabric τις υποστηρίζει σε μορφές .whl, .jar και .tar.gz . Το Fabric υποστηρίζει .tar.gz μόνο για τη γλώσσα R. Για προσαρμοσμένες βιβλιοθήκες Python, χρησιμοποιήστε τη μορφή .whl .
Σύνοψη βέλτιστων πρακτικών διαχείρισης βιβλιοθήκης
Τα παρακάτω σενάρια περιγράφουν βέλτιστες πρακτικές κατά τη χρήση βιβλιοθηκών στο Microsoft Fabric.
Λειτουργίες δημοσίευσης περιβάλλοντος (Quick vs Full)
Όταν εγκαθιστάτε βιβλιοθήκες σε περιβάλλον Fabric, επιλέγετε μια λειτουργία δημοσίευσης που ελέγχει τον τρόπο με τον οποίο παραδίδονται οι βιβλιοθήκες στις περιόδους λειτουργίας Spark.
- Η γρήγορη λειτουργία δημοσιεύεται σε περίπου 5 δευτερόλεπτα. Οι βιβλιοθήκες εγκαθίστανται κατά την έναρξη μιας περιόδου λειτουργίας σημειωματαρίου και όχι κατά τη διάρκεια της δημοσίευσης. Αν ένα πακέτο Γρήγορης κατάστασης λειτουργίας έχει το ίδιο όνομα με ένα πακέτο Πλήρους λειτουργίας, η έκδοση Γρήγορης κατάστασης λειτουργίας αντικαθιστά την έκδοση Πλήρους κατάστασης λειτουργίας μόνο για τη συγκεκριμένη περίοδο λειτουργίας. Χρησιμοποιήστε τη Γρήγορη λειτουργία για γρήγορη, επαναληπτική ανάπτυξη σημειωματάριων και πειραματισμό σε πρώιμο στάδιο.
- Η πλήρης λειτουργία δημιουργεί ένα σταθερό, αναπαραγώγιμο στιγμιότυπο βιβλιοθήκης. Η δημοσίευση διαρκεί συνήθως 3 έως 6 λεπτά, επειδή το σύστημα επιλύει τις εξαρτήσεις και επικυρώνει τη συμβατότητα. Η εκκίνηση της περιόδου λειτουργίας προσθέτει 1 έως 3 λεπτά για την ανάπτυξη εξαρτήσεων, ανάλογα με το μέγεθος της εξάρτησης. Χρησιμοποιήστε την πλήρη λειτουργία για διοχετεύσεις, προγραμματισμένες εκτελέσεις και κοινόχρηστους φόρτους εργασίας που απαιτούν συνεπή, αναπαραγώγιμα περιβάλλοντα.
Πλήρης λειτουργία με προσαρμοσμένη ζωντανή πισίνα
Για να συνδυάσετε τη σταθερότητα της πλήρους λειτουργίας με τη γρήγορη έναρξη της συνεδρίας, ρυθμίστε ένα προσαρμοσμένο χώρο συγκέντρωσης ζωντανής ροής που συνδέεται σε περιβάλλον πλήρους λειτουργίας. Η ζωντανή πισίνα ενυδατώνει τα συμπλέγματα με το στιγμιότυπο βιβλιοθήκης πλήρους λειτουργίας εκ των προτέρων, επιτρέποντας χρόνους έναρξης συνεδρίας περίπου 5 δευτερολέπτων, διατηρώντας παράλληλα το αναπαραγώγιμο στιγμιότυπο.
Για λεπτομέρειες σχετικά με κάθε λειτουργία, ανατρέξτε στο θέμα Διαχείριση βιβλιοθηκών σε περιβάλλοντα Fabric.
Σενάριο 1: Ο διαχειριστής ορίζει προεπιλεγμένες βιβλιοθήκες για τον χώρο εργασίας
Για να ορίσετε προεπιλεγμένες βιβλιοθήκες, πρέπει να είστε ο διαχειριστής του χώρου εργασίας. Ως διαχειριστής, μπορείτε να εκτελέσετε αυτές τις εργασίες:
- Δημιουργία νέου περιβάλλοντος
- Εγκατάσταση των απαιτούμενων βιβλιοθηκών στο περιβάλλον
- Επισύναψη αυτού του περιβάλλοντος ως προεπιλεγμένου χώρου εργασίας
Όταν τα σημειωματάριά σας και οι ορισμοί εργασίας Spark επισυνάπτονται στις ρυθμίσεις χώρου εργασίας, ξεκινούν περιόδους λειτουργίας με τις βιβλιοθήκες εγκατεστημένες στο προεπιλεγμένο περιβάλλον του χώρου εργασίας.
Σενάριο 2: Διατήρηση προδιαγραφών βιβλιοθήκης για ένα ή περισσότερα στοιχεία κώδικα
Εάν έχετε κοινές βιβλιοθήκες για διαφορετικά στοιχεία κώδικα και δεν χρειάζεται να τις ενημερώνετε συχνά, εγκαταστήστε τις βιβλιοθήκες σε ένα περιβάλλον και επισυνάψτε τις στα στοιχεία κώδικα.
Ο χρόνος δημοσίευσης εξαρτάται από τη λειτουργία που επιλέγετε. Η γρήγορη λειτουργία δημοσιεύει σε περίπου 5 δευτερόλεπτα και εγκαθιστά βιβλιοθήκες κατά την έναρξη της συνεδρίας. Η πλήρης λειτουργία επιλύει τις εξαρτήσεις και δημιουργεί ένα σταθερό στιγμιότυπο. Συνήθως χρειάζονται 3 έως 6 λεπτά για τη δημοσίευση και η εκκίνηση της περιόδου λειτουργίας προσθέτει 1 έως 3 λεπτά για την ανάπτυξη εξαρτήσεων.
Το πλεονέκτημα αυτής της προσέγγισης είναι ότι οι βιβλιοθήκες που έχουν εγκατασταθεί με επιτυχία είναι εγγυημένο ότι θα είναι διαθέσιμες όταν ξεκινά μια περίοδος λειτουργίας Spark με συνδεδεμένο το περιβάλλον. Εξοικονομεί την προσπάθεια διατήρησης κοινών βιβλιοθηκών για τα έργα σας και συνιστάται για σενάρια διοχέτευσης λόγω της σταθερότητάς του.
Σενάριο 3: Ενσωματωμένη εγκατάσταση σε αλληλεπιδραστική εκτέλεση
Εάν γράφετε κώδικα αλληλεπιδραστικά σε ένα σημειωματάριο, η ενσωματωμένη εγκατάσταση είναι η καλύτερη προσέγγιση για την προσθήκη βιβλιοθηκών PyPI ή conda ή την επικύρωση προσαρμοσμένων βιβλιοθηκών για μία χρήση. Οι ενσωματωμένες εντολές καθιστούν μια βιβλιοθήκη διαθέσιμη μόνο στην τρέχουσα περίοδο λειτουργίας Spark σημειωματάριου — επιτρέπουν τη γρήγορη εγκατάσταση, αλλά η εγκατεστημένη βιβλιοθήκη δεν διατηρείται σε όλες τις περιόδους λειτουργίας.
Επειδή %pip install μπορεί να δημιουργήσει διαφορετικά δέντρα εξαρτήσεων από εκτέλεση σε εκτέλεση, γεγονός που μπορεί να οδηγήσει σε διενέξεις βιβλιοθηκών, οι ενσωματωμένες εντολές είναι απενεργοποιημένες από προεπιλογή στις εκτελέσεις διοχέτευσης και δεν συνιστώνται για διοχετεύσεις.
Σημείωμα
Οι βιβλιοθήκες που εγκαθίστανται μέσω ενσωματωμένων εντολών (όπως %pip install ή %conda install) και οι βιβλιοθήκες που προστίθενται από ένα σημειωματάριο ή ένα φάκελο "Πόροι" του περιβάλλοντος στοχεύουν στην τρέχουσα περίοδο λειτουργίας ή στο σημειωματάριο. Δεν επηρεάζονται από τη δημοσίευση περιβάλλοντος σε Γρήγορη ή Πλήρη λειτουργία.
Σύνοψη υποστηριζόμενων τύπων βιβλιοθήκης
| Τύπος βιβλιοθήκης | Διαχείριση βιβλιοθήκης περιβάλλοντος | Ενσωματωμένη εγκατάσταση |
|---|---|---|
| Python Public (PyPI & Conda) | Υποστηρίζεται | Υποστηρίζεται |
| Προσαρμοσμένο Python (.whl) | Υποστηρίζεται | Υποστηρίζεται |
| R Δημόσιο (CRAN) | Δεν υποστηρίζεται | Υποστηρίζεται |
| Προσαρμογή R (.tar.gz) | Υποστηρίζεται ως προσαρμοσμένη βιβλιοθήκη | Υποστηρίζεται |
| Γυάλα | Υποστηρίζεται ως προσαρμοσμένη βιβλιοθήκη | Υποστηρίζεται |
Ενσωματωμένη εγκατάσταση
Οι ενσωματωμένες εντολές σάς επιτρέπουν να διαχειρίζεστε βιβλιοθήκες σε μεμονωμένες περιόδους λειτουργίας σημειωματαρίου.
Ενσωματωμένη εγκατάσταση Python
Το σύστημα επανεκκινεί τον διερμηνέα Python για να εφαρμόσει αλλαγές βιβλιοθήκης. Οποιεσδήποτε μεταβλητές έχουν οριστεί πριν εκτελέσετε το κελί εντολών θα χαθούν. Τοποθετήστε όλες τις εντολές για την προσθήκη, τη διαγραφή ή την ενημέρωση πακέτων Python στην αρχή του σημειωματαρίου σας.
Οι ενσωματωμένες εντολές για τη διαχείριση βιβλιοθηκών Python είναι απενεργοποιημένες στις εκτελέσεις διοχέτευσης σημειωματαρίου από προεπιλογή. Για να ενεργοποιήσετε %pip install μια διοχέτευση, προσθέστε _inlineInstallationEnabled ως δυαδική παράμετρο που έχει οριστεί στις True παραμέτρους δραστηριότητας σημειωματάριου.
Σημείωμα
Η %pip install εντολή μπορεί να παράγει ασυνεπή αποτελέσματα από εκτέλεση σε εκτέλεση. Εγκαταστήστε βιβλιοθήκες σε ένα περιβάλλον και χρησιμοποιήστε το περιβάλλον σε μια διοχέτευση.
Η %pip install εντολή δεν υποστηρίζεται στη λειτουργία υψηλής ταυτόχρονης εκτέλεσης.
Στις εκτελέσεις αναφοράς σημειωματαρίου, οι ενσωματωμένες εντολές για τη διαχείριση βιβλιοθηκών Python δεν υποστηρίζονται. Καταργήστε αυτές τις ενσωματωμένες εντολές από το σημειωματάριο αναφοράς για να διασφαλίσετε τη σωστή εκτέλεση.
Χρησιμοποιήστε %pip αντί για !pip. Η !pip εντολή είναι μια ενσωματωμένη εντολή κελύφους IPython με τους ακόλουθους περιορισμούς:
-
!pipΕγκαθιστά ένα πακέτο μόνο στον κόμβο του προγράμματος οδήγησης, όχι στους κόμβους εκτέλεσης. - Τα πακέτα που εγκαθίστανται μέσω
!pipδεν λαμβάνουν υπόψη τις διενέξεις με ενσωματωμένα πακέτα ή πακέτα που έχουν ήδη εισαχθεί σε ένα σημειωματάριο.
%pip χειρίζεται αυτά τα σενάρια. Οι βιβλιοθήκες που εγκαθίστανται μέσω %pip είναι διαθέσιμες τόσο στους κόμβους του προγράμματος οδήγησης όσο και στους κόμβους του εκτελεστή και τίθενται σε ισχύ ακόμη και αν η βιβλιοθήκη έχει ήδη εισαχθεί.
Φιλοδώρημα
Η %conda install εντολή συνήθως απαιτεί περισσότερο χρόνο από την εντολή για την %pip install εγκατάσταση νέων βιβλιοθηκών Python. Ελέγχει τις πλήρεις εξαρτήσεις και επιλύει διενέξεις.
Χρησιμοποιήστε το %conda install για μεγαλύτερη αξιοπιστία και σταθερότητα. Χρησιμοποιήστε αυτήν την επιλογή %pip install εάν είστε βέβαιοι ότι η βιβλιοθήκη που θέλετε να εγκαταστήσετε δεν έρχεται σε διένεξη με τις προεγκατεστημένες βιβλιοθήκες στο περιβάλλον χρόνου εκτέλεσης.
Για όλες τις διαθέσιμες ενσωματωμένες εντολές και διευκρινίσεις Python, ανατρέξτε στο θέμα Εντολές %pip και εντολές %conda.
Διαχείριση δημόσιων βιβλιοθηκών Python μέσω ενσωματωμένων εγκαταστάσεων
Αυτό το παράδειγμα δείχνει πώς μπορείτε να χρησιμοποιήσετε ενσωματωμένες εντολές για τη διαχείριση βιβλιοθηκών. Ας υποθέσουμε ότι θέλετε να χρησιμοποιήσετε το altair, μια ισχυρή βιβλιοθήκη απεικόνισης για Python, για μια εφάπαξ εξερεύνηση δεδομένων και η βιβλιοθήκη δεν είναι εγκατεστημένη στον χώρο εργασίας σας. Το παρακάτω παράδειγμα χρησιμοποιεί εντολές conda για να απεικονίσει τα βήματα.
Μπορείτε να χρησιμοποιήσετε ενσωματωμένες εντολές για να ενεργοποιήσετε την ιδιότητα altair στην περίοδο λειτουργίας σημειωματάριου, χωρίς να επηρεάζονται άλλες περίοδοι λειτουργίας του σημειωματάριου ή άλλων στοιχείων.
Εκτελέστε τις ακόλουθες εντολές σε ένα κελί κώδικα σημειωματάριου. Η πρώτη εντολή εγκαθιστά τη βιβλιοθήκη altair . Επίσης, εγκαταστήστε vega_datasets, το οποίο περιέχει ένα σημασιολογικό μοντέλο που μπορείτε να χρησιμοποιήσετε για να απεικονίσετε.
%conda install altair # install latest version through conda command %conda install vega_datasets # install latest version through conda commandΗ έξοδος του κελιού υποδεικνύει το αποτέλεσμα της εγκατάστασης.
Εισαγάγετε το πακέτο και το μοντέλο σημασιολογίας εκτελώντας τον ακόλουθο κώδικα σε ένα άλλο κελί σημειωματάριου.
import altair as alt from vega_datasets import dataΤώρα μπορείτε να πειραματιστείτε με τη βιβλιοθήκη altair εμβέλειας περιόδου λειτουργίας.
# load a simple dataset as a pandas DataFrame cars = data.cars() alt.Chart(cars).mark_point().encode( x='Horsepower', y='Miles_per_Gallon', color='Origin', ).interactive()
Διαχείριση προσαρμοσμένων βιβλιοθηκών Python μέσω ενσωματωμένων εγκαταστάσεων
Μπορείτε να αποστείλετε τις προσαρμοσμένες βιβλιοθήκες σας Python στον φάκελο πόρων του σημειωματάριού σας ή στο συνημμένο περιβάλλον. Ο φάκελος πόρων είναι ένα ενσωματωμένο σύστημα αρχείων που παρέχεται από κάθε σημειωματάριο και περιβάλλον. Ανατρέξτε στο θέμα Πόροι σημειωματάριου για περισσότερες λεπτομέρειες. Αφού αποστείλετε μια βιβλιοθήκη, μπορείτε να τη σύρετε και να την αποθέσετε σε ένα κελί κώδικα για να δημιουργήσετε αυτόματα την εντολή εγκατάστασης. Ή μπορείτε να εκτελέσετε την ακόλουθη εντολή:
# install the .whl through pip command from the notebook built-in folder
%pip install "builtin/wheel_file_name.whl"
Σημείωμα
Οι προσαρμοσμένες βιβλιοθήκες που εγκαθίστανται από το φάκελο "Πόροι" μέσω ενσωματωμένων εντολών είναι ανά περίοδο λειτουργίας και ανά σημειωματάριο. Δεν επηρεάζονται από τις περιβαλλοντικές εκδόσεις.
Ενσωματωμένη εγκατάσταση R
Για να διαχειριστείτε βιβλιοθήκες R, το Fabric υποστηρίζει τις install.packages()εντολές , remove.packages()και devtools:: . Για όλες τις διαθέσιμες ενσωματωμένες εντολές και διευκρινίσεις R, ανατρέξτε στην εντολή install.packages και εντολή remove.package.
Διαχείριση δημόσιων βιβλιοθηκών R μέσω ενσωματωμένων εγκαταστάσεων
Ακολουθήστε αυτό το παράδειγμα για να δείτε τα βήματα εγκατάστασης μιας δημόσιας βιβλιοθήκης R.
Για να εγκαταστήσετε μια βιβλιοθήκη τροφοδοσίας R:
Αλλάξτε τη γλώσσα εργασίας σε SparkR (R) στην κορδέλα σημειωματάριου.
Εγκαταστήστε τη βιβλιοθήκη του caesar εκτελώντας την ακόλουθη εντολή σε ένα σημειωματάριο.
install.packages("caesar")Τώρα μπορείτε να πειραματιστείτε με τη βιβλιοθήκη caesar με εμβέλεια συνεδρίας με μια δουλειά Spark.
library(SparkR) sparkR.session() hello <- function(x) { library(caesar) caesar(x) } spark.lapply(c("hello world", "good morning", "good evening"), hello)
Διαχείριση βιβλιοθηκών βάζων μέσω ενσωματωμένων εγκαταστάσεων
Μπορείτε να προσθέσετε αρχεία .jar σε περιόδους λειτουργίας σημειωματαρίου με την ακόλουθη εντολή.
%%configure -f
{
"conf": {
"spark.jars": "abfss://<<Lakehouse prefix>>.dfs.fabric.microsoft.com/<<path to JAR file>>/<<JAR file name>>.jar",
}
}
Το προηγούμενο κελί κώδικα χρησιμοποιεί χώρο αποθήκευσης lakehouse ως παράδειγμα. Στην εξερεύνηση σημειωματαρίου, μπορείτε να αντιγράψετε την πλήρη διαδρομή ABFS του αρχείου και να την αντικαταστήσετε στον κώδικα.