Επισκόπηση του υπολογισμού του Apache Spark στο Microsoft Fabric

Ισχύει για:✅ Μηχανική Δεδομένων Fabric και Επιστήμη Δεδομένων

Το Fabric Data Engineering και το Data Science εκτελούνται σε μια πλήρως διαχειριζόμενη υπολογιστική πλατφόρμα Apache Spark. Οι ομάδες εκκίνησης παρέχουν γρήγορη εκκίνηση συνεδρίας, συνήθως σε 5 έως 10 δευτερόλεπτα, χωρίς χειροκίνητη ρύθμιση. Οι προσαρμοσμένοι χώροι συγκέντρωσης Spark σάς επιτρέπουν να συντονίσετε το μέγεθος του κόμβου, τη συμπεριφορά κλιμάκωσης και άλλες υπολογιστικές ρυθμίσεις για τον φόρτο εργασίας σας. Εν ολίγοις, οι πισίνες εκκίνησης παρέχουν γρήγορο, προρυθμισμένο Spark, ενώ οι προσαρμοσμένες πισίνες Spark παρέχουν βαθύτερο έλεγχο και ευελιξία.

Πισίνες εκκίνησης

Οι χώροι συγκέντρωσης εκκίνησης είναι ένας γρήγορος και εύκολος τρόπος για να χρησιμοποιήσετε το Spark στην πλατφόρμα Microsoft Fabric μέσα σε λίγα δευτερόλεπτα. Μπορείτε να χρησιμοποιήσετε αμέσως περιόδους λειτουργίας Spark, αντί να περιμένετε το Spark να ρυθμίσει τους κόμβους για εσάς, το οποίο σας βοηθά να κάνετε περισσότερα με τα δεδομένα και να λάβετε πληροφορίες πιο γρήγορα.

Οι ομάδες εκκίνησης διαθέτουν συμπλέγματα Apache Spark με περιόδους λειτουργίας που είναι πάντα ενεργοποιημενές και έτοιμες για τις αιτήσεις σας. Χρησιμοποιούν μεσαίους κόμβους που κλιμακώνονται δυναμικά με βάση τις ανάγκες σας για εργασία Spark.

Όταν χρησιμοποιείτε έναν χώρο συγκέντρωσης εκκίνησης χωρίς επιπλέον εξαρτήσεις βιβλιοθήκης ή προσαρμοσμένες ιδιότητες Spark, η περίοδος λειτουργίας σας ξεκινά συνήθως σε 5 έως 10 δευτερόλεπτα. Αυτή η γρήγορη εκκίνηση είναι δυνατή καθώς το σύμπλεγμα εκτελείται ήδη και δεν απαιτεί χρόνο προμήθειας.

Σημείωμα

Οι πισίνες εκκίνησης υποστηρίζουν μόνο μεσαίο μέγεθος κόμβου. Εάν επιλέξετε διαφορετικό μέγεθος κόμβου ή προσαρμόσετε τις ρυθμίσεις παραμέτρων υπολογιστικής λειτουργίας, το Fabric χρησιμοποιεί εκκίνηση περιόδου λειτουργίας κατ' απαίτηση, η οποία μπορεί να διαρκέσει 2 έως 5 λεπτά.

Ωστόσο, υπάρχουν πολλά σενάρια όπου η συνεδρία σας μπορεί να χρειαστεί περισσότερο χρόνο για να ξεκινήσει.

Προσαρμοσμένες βιβλιοθήκες ή ιδιότητες Spark: Εάν έχετε διαμορφώσει βιβλιοθήκες ή προσαρμοσμένες ρυθμίσεις στο περιβάλλον σας, το Spark πρέπει να εξατομικεύσει την περίοδο λειτουργίας μόλις δημιουργηθεί. Ο επιπλέον χρόνος εξαρτάται από τον τρόπο δημοσίευσης της βιβλιοθήκης σας:

Γρήγορη λειτουργία: Οι βιβλιοθήκες εγκαθίστανται κατά την έναρξη της περιόδου λειτουργίας. Αναμένετε επιπλέον 30 δευτερόλεπτα έως 5 λεπτά, ανάλογα με τον αριθμό και το μέγεθος των εξαρτήσεών σας.
Πλήρης λειτουργία: Το στιγμιότυπο περιβάλλοντος αναπτύσσεται κατά την έναρξη της περιόδου λειτουργίας, προσθέτοντας συνήθως 1 έως 3 λεπτά.
Πλήρης λειτουργία με προσαρμοσμένη ζωντανή πισίνα: Το στιγμιότυπο είναι ήδη προεγκατεστημένο σε ενυδατωμένα συμπλέγματα, επομένως η εξατομίκευση της βιβλιοθήκης προσθέτει ελάχιστη επιβάρυνση και οι συνεδρίες μπορούν να ξεκινήσουν σε περίπου 5 δευτερόλεπτα.

Σημείωμα

Ο φάκελος "Πόροι" του σημειωματάριου και οι εντολές εγκατάστασης της ενσωματωμένης βιβλιοθήκης (όπως %pip install) είναι μη αυτόματες προσεγγίσεις ανά περίοδο λειτουργίας. Δεν επηρεάζονται από τη δημοσίευση περιβάλλοντος και εγκαθίστανται πάντα κατά τη διάρκεια της ενεργής περιόδου λειτουργίας.

Οι δεξαμενές εκκίνησης στην περιοχή σας χρησιμοποιούνται πλήρως: Σε σπάνιες περιπτώσεις, οι ομάδες εκκίνησης μιας περιοχής ενδέχεται να εξαντληθούν προσωρινά λόγω της υψηλής επισκεψιμότητας. Όταν συμβεί αυτό, το Fabric αναστρέφει ένα νέο σύμπλεγμα για να ικανοποιήσει το αίτημά σας, το οποίο απαιτεί περίπου 2 έως 5 λεπτά. Όταν το νέο σύμπλεγμα είναι διαθέσιμο, ξεκινά η περίοδος λειτουργίας σας. Εάν έχετε επίσης προσαρμοσμένες βιβλιοθήκες για εγκατάσταση, προσθέστε τα επιπλέον 30 δευτερόλεπτα έως 5 λεπτά που απαιτούνται για την εξατομίκευση.

Προηγμένες δυνατότητες δικτύωσης ή ασφάλειας (ιδιωτικές συνδέσεις ή διαχειριζόμενα VNet): Όταν ο χώρος εργασίας σας διαθέτει δυνατότητες δικτύωσης, όπως ιδιωτικές συνδέσεις μισθωτή ή διαχειριζόμενα VNet, οι χώροι συγκέντρωσης εκκίνησης δεν υποστηρίζονται. Σε αυτή την περίπτωση, το Fabric πρέπει να δημιουργήσει ένα σύμπλεγμα κατ' απαίτηση, το οποίο προσθέτει 2 έως 5 λεπτά στην ώρα έναρξης της περιόδου λειτουργίας σας. Εάν έχετε επίσης εξαρτήσεις βιβλιοθήκης, αυτό το βήμα εξατομίκευσης μπορεί να προσθέσει άλλα 30 δευτερόλεπτα έως 5 λεπτά.

Ακολουθούν μερικά παραδείγματα σεναρίων για να απεικονίσεων πιθανών χρόνων έναρξης:

Σενάριο	Τυπικός χρόνος εκκίνησης
Προεπιλεγμένες ρυθμίσεις, δεν υπάρχουν βιβλιοθήκες	5 – 10 δευτερόλεπτα
προεπιλεγμένες ρυθμίσεις + εξαρτήσεις βιβλιοθήκης	5 – 10 δευτερόλεπτα + 30 δευτερόλεπτα – 5 λεπτά (για ρύθμιση βιβλιοθήκης)
Υψηλή κυκλοφορία στην περιοχή, δεν υπάρχουν βιβλιοθήκες	2 – 5 λεπτά
Υψηλή κυκλοφορία + εξαρτήσεις βιβλιοθήκης	2 – 5 λεπτά + 30 δευτερόλεπτα – 5 λεπτά (για βιβλιοθήκες)
Ασφάλεια δικτύου (Ιδιωτικές συνδέσεις/VNet), δεν υπάρχουν βιβλιοθήκες	2 – 5 λεπτά
εξαρτήσεων ασφάλειας δικτύου + βιβλιοθήκης	2 – 5 λεπτά + 30 δευτερόλεπτα – 5 λεπτά (για βιβλιοθήκες)

Σε ό,τι αφορά τη χρέωση και τη χρήση εκχωρημένων πόρων, χρεώνεστε για την κατανάλωση εκχωρημένων πόρων όταν αρχίζετε να εκτελείτε τον ορισμό εργασίας σημειωματάριου ή Apache Spark. Δεν χρεώνεστε για το χρόνο που τα συμπλέγματα είναι αδρανή στην πισίνα.

Για παράδειγμα, εάν υποβάλετε μια εργασία σημειωματάριου σε μια ομάδα εκκίνησης, χρεώνεστε μόνο για τη χρονική περίοδο όπου είναι ενεργή η περίοδος λειτουργίας σημειωματάριου. Ο χρόνος χρέωσης δεν περιλαμβάνει τον χρόνο αδράνειας ή τον χρόνο που απαιτείται για την εξατομίκευση της περιόδου λειτουργίας με το περιβάλλον Spark. Για να μάθετε περισσότερα, ανατρέξτε στο θέμα Ρύθμιση παραμέτρων χώρων συγκέντρωσης εκκίνησης στο Fabric.

Δεξαμενές σπινθήρα

Ένα spark pool είναι ένας τρόπος για να πείτε στο Spark το είδος των πόρων που χρειάζεστε για τις εργασίες ανάλυσης δεδομένων. Μπορείτε να ονομάσετε τον χώρο συγκέντρωσης Spark και να επιλέξετε τον αριθμό και το μέγεθος των κόδων (οι υπολογιστές που κάνουν τη δουλειά). Μπορείτε επίσης να πείτε στο Spark πώς να προσαρμόσει τον αριθμό των κόκκων ανάλογα με την εργασία που έχετε. Η δημιουργία ενός Spark pool είναι δωρεάν. Πληρώνεις μόνο όταν δουλεύεις ένα Σπινθήρα στην πισίνα, και μετά ο Σπαρκ ανοίγει τους κόμβους για σένα.

Εάν δεν χρησιμοποιείτε το Spark pool για 2 λεπτά μετά τη λήξη της περιόδου λειτουργίας, το Spark pool σας θα εκχωρηθεί. Αυτή η προεπιλεγμένη χρονική περίοδος περιόδου λειτουργίας λήξης έχει οριστεί σε 20 λεπτά και μπορείτε να την αλλάξετε εάν θέλετε. Εάν είστε διαχειριστής χώρου εργασίας, μπορείτε επίσης να δημιουργήσετε προσαρμοσμένα spark pool για τον χώρο εργασίας σας και να τα κάνετε την προεπιλεγμένη επιλογή για άλλους χρήστες. Με αυτόν τον τρόπο, μπορείτε να εξοικονομήσετε χρόνο και να αποφύγετε τη ρύθμιση ενός νέου spark pool κάθε φορά που εκτελείτε ένα σημειωματάριο ή μια εργασία Spark. Οι προσαρμοσμένοι χώροι συγκέντρωσης Spark χρειάζονται περίπου τρία λεπτά για να ξεκινήσουν, επειδή το Spark πρέπει να λάβει τους κόμβους από το Azure. Η εξαίρεση είναι όταν χρησιμοποιείτε έναν προσαρμοσμένο χώρο συγκέντρωσης Spark που έχει διαμορφωθεί ως προσαρμοσμένος χώρος συγκέντρωσης ζωντανής ροής με περιβάλλον πλήρους λειτουργίας. Σε αυτήν την περίπτωση, οι συνεδρίες μπορούν να ξεκινήσουν σε περίπου 5 δευτερόλεπτα, επειδή το σύμπλεγμα είναι ήδη ενυδατωμένο με το στιγμιότυπο της βιβλιοθήκης σας.

Μπορείτε ακόμη και να δημιουργήσετε χώρους συγκέντρωσης Spark ενός κόμβου, ορίζοντας τον ελάχιστο αριθμό κόμβων σε έναν, έτσι ώστε ο οδηγός και ο εκτελέσιμος να εκτελούνται σε έναν μοναδικό κόμβο που παρέχεται με ha με δυνατότητα επαναφοράς και είναι κατάλληλος για μικρούς φόρτους εργασίας.

Το μέγεθος και ο αριθμός των κόμβων που μπορείτε να έχετε στον προσαρμοσμένο χώρο συγκέντρωσης Spark εξαρτάται από τη χωρητικότητα του Microsoft Fabric. Η χωρητικότητα είναι ένα μέτρο της υπολογιστικής ισχύος που μπορείτε να χρησιμοποιήσετε. Ένας τρόπος να το σκεφτούμε είναι ότι δύο vCore Apache Spark (μια μονάδα υπολογισμού Spark) ισούται με μία μονάδα χωρητικότητας.

Σημείωμα

Στο Apache Spark, οι χρήστες λαμβάνουν δύο εικονικούς πυρήνες Apache Spark για κάθε μονάδα χωρητικότητας που δεσμεύουν ως μέρος του SKU τους. Μία μονάδα χωρητικότητας = δύο vCore Spark. Για παράδειγμα, το F64 δίνει 128 Spark vCores και ένας πολλαπλασιαστής ριπής 3x αυξάνει αυτήν την τιμή σε 384 Spark vCores.

Για παράδειγμα, ένα SKU F64 εκχωρημένων πόρων Fabric διαθέτει 64 μονάδες εκχωρημένων πόρων, το οποίο ισοδυναμεί με 384 εικονικούς πυρήνες Spark (64 * 2 * 3X πολλαπλασιαστή ριπής). Μπορείτε να χρησιμοποιήσετε αυτούς τους πυρήνες Spark VCore για να δημιουργήσετε κόμβους διαφορετικού μεγέθους για το προσαρμοσμένο Spark pool σας, εφόσον ο συνολικός αριθμός των Spark VCore δεν υπερβαίνει τους 384.

Οι ομάδες σπινθήρων χρεώνονται όπως οι πισίνες εκκίνησης. Δεν πληρώνετε για τα προσαρμοσμένα spark pool που έχετε δημιουργήσει, εκτός εάν έχετε μια ενεργή περίοδο λειτουργίας Spark που δημιουργήθηκε για την εκτέλεση ενός σημειωματάριου ή ορισμού εργασίας Spark. Χρεώνεστε μόνο για τη διάρκεια εκτέλεσης της εργασίας σας. Δεν έχετε χρεωθεί για στάδια όπως η δημιουργία συμπλέγματος και η εκχώρηση μετά την ολοκλήρωση της εργασίας.

Για παράδειγμα, εάν υποβάλετε μια εργασία σημειωματάριου σε ένα προσαρμοσμένο Spark pool, χρεώνεστε μόνο για τη χρονική περίοδο κατά την οποία είναι ενεργή η περίοδος λειτουργίας. Η χρέωση για αυτή την περίοδο λειτουργίας σημειωματάριου διακόπτεται όταν η περίοδος λειτουργίας Spark έχει διακοπεί ή λήξει. Δεν χρεώνεστε για τον χρόνο που απαιτείται για την απόκτηση παρουσιών συμπλέγματος από το cloud ή για τον χρόνο που απαιτείται για την προετοιμασία του περιβάλλοντος Spark.

Πιθανές ρυθμίσεις παραμέτρων προσαρμοσμένου χώρου συγκέντρωσης για το F64 με βάση το προηγούμενο παράδειγμα. Τα μικρότερα μεγέθη κόμβων έχουν εκχωρημένους πόρους σε περισσότερους κόμβους, επομένως, ο μέγιστος αριθμός κόμβων είναι υψηλότερος. Ενώ οι μεγαλύτεροι κόμβοι είναι πλούσιοι σε πόρους, απαιτούνται λιγότεροι κόμβοι:

SKU χωρητικότητας fabric	Μονάδες εκχωρημένων πόρων	Μέγιστος αριθμός εικονικών πυρήνων Spark με παράγοντα ριπής	Μέγεθος κόμβου	Μέγιστος αριθμός κόκκων
F64	64	384	Μικρό	96
F64	64	384	Μεσαία	48
F64	64	384	Μεγάλο	24
F64	64	384	X-Large	12
F64	64	384	XX-Large	6

Σημείωμα

Για να δημιουργήσετε προσαρμοσμένους χώρους συγκέντρωσης, χρειάζεστε δικαιώματα διαχειριστή για τον χώρο εργασίας. Ο διαχειριστής εκχωρημένων πόρων του Microsoft Fabric πρέπει επίσης να εκχωρήσει δικαιώματα που επιτρέπουν στους διαχειριστές χώρου εργασίας να διαστασιολογούν προσαρμοσμένους χώρους συγκέντρωσης Spark. Για να μάθετε περισσότερα, ανατρέξτε στο θέμα Γρήγορα αποτελέσματα με προσαρμοσμένους χώρους συγκέντρωσης Spark στο Fabric.

Κόμβοι

Μια παρουσία χώρου συγκέντρωσης Apache Spark αποτελείται από έναν κόμβο κεφαλής και έναν ή περισσότερους κόμβους εργασίας. Μια παρουσία Spark μπορεί να ξεκινήσει με τουλάχιστον έναν κόμβο. Ο κύριος κόμβος εκτελεί υπηρεσίες διαχείρισης όπως το Livy, το YARN διαχείριση πόρων, το ZooKeeper και το πρόγραμμα οδήγησης Apache Spark. Όλοι οι κόμβοι εκτελούν υπηρεσίες όπως το Node Agent και το YARN Node Manager. Όλοι οι κόμβοι εργαζομένων εκτελούν την υπηρεσία Εκτέλεση Apache Spark.

Σημείωμα

Στο Fabric, η αναλογία κόμβων προς εκτελεστές είναι πάντα 1:1. Όταν ρυθμίζετε μια πισίνα, ένας κόμβος είναι αφιερωμένος στον οδηγό και οι υπόλοιποι κόμβοι χρησιμοποιούνται για τους εκτελεστές. Η μόνη εξαίρεση είναι σε μια διαμόρφωση ενός κόμβου, όπου οι πόροι τόσο για το πρόγραμμα οδήγησης όσο και για τον εκτελεστή μειώνονται στο μισό.

Μεγέθη κόμβων

Ένας χώρος συγκέντρωσης Spark μπορεί να οριστεί με μεγέθη κόμβων που κυμαίνονται από έναν μικρό υπολογιστικό κόμβο (με 4 εικονικούς πυρήνες και 32 GB μνήμης) σε έναν διπλό επιπλέον μεγάλο κόμβο υπολογιστικής λειτουργίας (με 64 εικονικούς πυρήνες και 512 GB μνήμης ανά κόμβο). Τα μεγέθη των κόμβων μπορούν να τροποποιηθούν μετά τη δημιουργία του χώρου συγκέντρωσης, παρόλο που η ενεργή περίοδος λειτουργίας θα πρέπει να επανεκκινηθεί.

Μέγεθος	εικονικοί πυρήνες	Μνήμη
Μικρό	4	32 γιγαμπάιτ
Μεσαία	8	64 γιγαμπάιτ
Μεγάλο	16	128 γιγαμπάιτ
X-Large	32	256 γιγαμπάιτ
XX-Large	64	512 γιγαμπάιτ

Σημείωμα

Τα μεγέθη κόμβων X-Large και XX-Large επιτρέπονται μόνο για μη δοκιμαστικά SKU Fabric.

Αυτόματη κλιμάκωση

Η αυτόματη κλιμάκωση για τα σύνολα Apache Spark επιτρέπει αυτόματη κλιμάκωση των υπολογιστικών πόρων με βάση το μέγεθος της δραστηριότητας. Όταν ενεργοποιείτε τη δυνατότητα αυτόματης κλιμάκωσης, ορίζετε τον ελάχιστο και μέγιστο αριθμό κόφων σε κλίμακα. Όταν απενεργοποιήσετε τη δυνατότητα αυτόματης κλιμάκωσης, ο αριθμός των κόφων που έχουν οριστεί παραμένει σταθερός. Μπορείτε να αλλάξετε αυτήν τη ρύθμιση μετά τη δημιουργία του χώρου συγκέντρωσης, παρόλο που ίσως χρειαστεί να επανεκκινήσετε την παρουσία.

Σημείωμα

Από προεπιλογή, το spark.yarn.executor.decommission.enabled έχει οριστεί σε true, ενεργοποιώντας τον αυτόματο τερματισμό λειτουργίας των υποχρησιμοποιημένων κόμμων για βελτιστοποίηση της υπολογιστικής απόδοσης. Εάν προτιμάται η λιγότερο επιθετική κλιμάκωση προς τα κάτω, αυτή η ρύθμιση παραμέτρων μπορεί να οριστεί σε false

Δυναμική εκχώρηση

Η δυναμική εκχώρηση επιτρέπει στην εφαρμογή Apache Spark να ζητά περισσότερους εκτελεστές, εάν οι εργασίες υπερβαίνουν τον φόρτο που μπορούν να φέρουν οι τρέχοντες εκτελεστές. Επίσης, δημοσιεύει τα εκτελέσιμα αρχεία κατά την ολοκλήρωση των εργασιών και εάν η εφαρμογή Spark μετακινείται σε κατάσταση αδράνειας. Οι χρήστες μεγάλης επιχείρησης συχνά δυσκολεύονται να ρυθμίσουν τις ρυθμίσεις παραμέτρων του εκτελέσιμου κώδικα, επειδή διαφέρουν πολύ σε πολλά διαφορετικά στάδια μιας διαδικασίας εκτέλεσης εργασίας Spark. Αυτές οι ρυθμίσεις παραμέτρων εξαρτώνται επίσης από τον όγκο των επεξεργασμένων δεδομένων, το οποίο αλλάζει κατά διαστήματα. Μπορείτε να ενεργοποιήσετε τη δυναμική εκχώρηση της επιλογής εκτελέσεων ως μέρος της ρύθμισης παραμέτρων του χώρου συγκέντρωσης, η οποία επιτρέπει την αυτόματη εκχώρηση εκτελέσεων στην εφαρμογή Spark με βάση τους κόμβους που είναι διαθέσιμοι στον χώρο συγκέντρωσης Spark.

Όταν ενεργοποιείτε την επιλογή δυναμικής εκχώρησης για κάθε εφαρμογή Spark που υποβλήθηκε, το σύστημα διατηρεί τους εκτελεστές κατά τη διάρκεια του βήματος υποβολής εργασίας με βάση τους ελάχιστους κόμβους. Καθορίζετε τους μέγιστους κόμβους για την υποστήριξη επιτυχημένων σεναρίων αυτόματης κλίμακας.

Γρήγορα αποτελέσματα με τις ρυθμίσεις διαχείρισης Μηχανικής δεδομένων και Επιστήμης δεδομένων για τους εκχωρημένους πόρους Fabric
Ρυθμίσεις διαχείρισης χώρου εργασίας Apache Spark στο Microsoft Fabric

Σχόλια

Ήταν χρήσιμη αυτή η σελίδα;

Last updated on 2026-03-05

Επισκόπηση του υπολογισμού του Apache Spark στο Microsoft Fabric

Πισίνες εκκίνησης

Δεξαμενές σπινθήρα

Κόμβοι

Μεγέθη κόμβων

Αυτόματη κλιμάκωση

Δυναμική εκχώρηση

Σχετικό περιεχόμενο

Σχόλια

Πρόσθετοι πόροι