Τι είναι ο υπολογισμός του Apache Spark στο Microsoft Fabric;
Ισχύει για:✅ Διαχείριση δεδομένων και Επιστήμη δεδομένων στο Microsoft Fabric
Οι εμπειρίες Microsoft Fabric Data Engineering και Data Science λειτουργούν σε μια πλήρως διαχειριζόμενη πλατφόρμα υπολογιστικής λειτουργίας Apache Spark. Αυτή η πλατφόρμα έχει σχεδιαστεί για να παρέχει απαράμιλλη ταχύτητα και αποδοτικότητα. Με τα αρχικά σύνολα εκκίνησης, μπορείτε να περιμένετε γρήγορη προετοιμασία της περιόδου λειτουργίας Apache Spark, συνήθως μέσα σε 5 έως 10 δευτερόλεπτα, χωρίς να χρειάζεται μη αυτόματη ρύθμιση. Λαμβάνετε επίσης την ευελιξία να προσαρμόζετε τους χώρους συγκέντρωσης Apache Spark σύμφωνα με τις συγκεκριμένες απαιτήσεις σας για τη μηχανική δεδομένων και την επιστήμη δεδομένων. Η πλατφόρμα επιτρέπει μια βελτιστοποιημένη και προσαρμοσμένη εμπειρία ανάλυσης.
Οι πισίνες εκκίνησης είναι ένας γρήγορος και εύκολος τρόπος για να χρησιμοποιήσετε το Spark στην πλατφόρμα Microsoft Fabric μέσα σε λίγα δευτερόλεπτα. Μπορείτε να χρησιμοποιήσετε αμέσως περιόδους λειτουργίας Spark, αντί να περιμένετε το Spark να ρυθμίσει τους κόμβους για εσάς, το οποίο σας βοηθά να κάνετε περισσότερα με τα δεδομένα και να λάβετε πληροφορίες πιο γρήγορα.
Οι ομάδες εκκίνησης διαθέτουν συμπλέγματα Apache Spark που είναι πάντα ενεργοποιητικά και έτοιμα για τις αιτήσεις σας. Χρησιμοποιούν μεσαίους κόμβους που κλιμακώνονται δυναμικά με βάση τις ανάγκες σας για εργασία Spark.
Οι χώροι συγκέντρωσης εκκίνησης έχουν επίσης προεπιλεγμένες ρυθμίσεις που σας επιτρέπουν να εγκαθιστάτε βιβλιοθήκες γρήγορα χωρίς να επιβραδύνετε τον χρόνο έναρξης της περιόδου λειτουργίας. Ωστόσο, εάν θέλετε να χρησιμοποιήσετε επιπλέον προσαρμοσμένες ιδιότητες ή βιβλιοθήκες Apache Spark από τις ρυθμίσεις χώρου εργασίας ή εκχωρημένων πόρων σας, το Spark απαιτεί περισσότερο χρόνο για να λάβει τους κόμβους για εσάς. Σε ό,τι αφορά τη χρέωση και τη χρήση εκχωρημένων πόρων, χρεώνεστε για την κατανάλωση εκχωρημένων πόρων όταν αρχίζετε να εκτελείτε τον ορισμό εργασίας σημειωματάριου ή Apache Spark. Δεν χρεώνεστε για το χρόνο που τα συμπλέγματα είναι αδρανή στην πισίνα.
Για παράδειγμα, εάν υποβάλετε μια εργασία σημειωματάριου σε μια ομάδα εκκίνησης, χρεώνεστε μόνο για τη χρονική περίοδο όπου είναι ενεργή η περίοδος λειτουργίας σημειωματάριου. Ο χρόνος που τιμολογείται δεν περιλαμβάνει τον χρόνο αδράνειας ή τον χρόνο που απαιτείται για την εξατομίκευση της περιόδου λειτουργίας με το περιβάλλον Spark.
Ένα spark pool είναι ένας τρόπος για να πείτε στο Spark το είδος των πόρων που χρειάζεστε για τις εργασίες ανάλυσης δεδομένων. Μπορείτε να ονομάσετε τον χώρο συγκέντρωσης Spark και να επιλέξετε τον αριθμό και το μέγεθος των κόδων (οι υπολογιστές που κάνουν τη δουλειά). Μπορείτε επίσης να πείτε στο Spark πώς να προσαρμόσει τον αριθμό των κόκκων ανάλογα με την εργασία που έχετε. Η δημιουργία ενός Spark pool είναι δωρεάν. Πληρώνεις μόνο όταν δουλεύεις ένα Σπινθήρα στην πισίνα, και μετά ο Σπαρκ ανοίγει τους κόμβους για σένα.
Εάν δεν χρησιμοποιείτε το Spark pool για 2 λεπτά μετά τη λήξη της περιόδου λειτουργίας, το Spark pool σας θα εκχωρηθεί. Αυτή η προεπιλεγμένη χρονική περίοδος περιόδου λειτουργίας λήξης έχει οριστεί σε 20 λεπτά και μπορείτε να την αλλάξετε εάν θέλετε. Εάν είστε διαχειριστής χώρου εργασίας, μπορείτε επίσης να δημιουργήσετε προσαρμοσμένα spark pool για τον χώρο εργασίας σας και να τα κάνετε την προεπιλεγμένη επιλογή για άλλους χρήστες. Με αυτόν τον τρόπο, μπορείτε να εξοικονομήσετε χρόνο και να αποφύγετε τη ρύθμιση ενός νέου spark pool κάθε φορά που εκτελείτε ένα σημειωματάριο ή μια εργασία Spark. Οι προσαρμοσμένες ομάδες Spark χρειάζονται περίπου τρία λεπτά για να ξεκινήσουν, επειδή το Spark πρέπει να λάβει τους κόμβους από το Azure.
Μπορείτε ακόμη και να δημιουργήσετε χώρους συγκέντρωσης Spark ενός κόμβου, ορίζοντας τον ελάχιστο αριθμό κόμβων σε έναν, έτσι ώστε ο οδηγός και ο εκτελέσιμος να εκτελούνται σε έναν μοναδικό κόμβο που παρέχεται με ha με δυνατότητα επαναφοράς και είναι κατάλληλος για μικρούς φόρτους εργασίας.
Το μέγεθος και ο αριθμός των κόδων που μπορείτε να έχετε στον προσαρμοσμένο χώρο συγκέντρωσης Spark εξαρτάται από τους εκχωρημένους πόρους Microsoft Fabric που διαθέτετε. Το σύνολο εκχωρημένων πόρων είναι μια μέτρηση της υπολογιστικής ισχύος που μπορείτε να χρησιμοποιήσετε στο Azure. Ένας τρόπος να το σκεφτείτε είναι ότι δύο εικονικοί πυρήνες Apache Spark (μια μονάδα υπολογιστικής ισχύος για Spark) ισούται με μία μονάδα εκχωρημένων πόρων. Για παράδειγμα, ένα SKU F64 εκχωρημένων πόρων Fabric διαθέτει 64 μονάδες εκχωρημένων πόρων, το οποίο ισοδυναμεί με 384 εικονικούς πυρήνες Spark (64 * 2 * 3X πολλαπλασιαστή ριπής). Μπορείτε να χρησιμοποιήσετε αυτούς τους πυρήνες Spark VCore για να δημιουργήσετε κόμβους διαφορετικού μεγέθους για το προσαρμοσμένο Spark pool σας, εφόσον ο συνολικός αριθμός των Spark VCore δεν υπερβαίνει τους 384.
Οι ομάδες σπινθήρων χρεώνονται όπως οι πισίνες εκκίνησης. Δεν πληρώνετε για τα προσαρμοσμένα spark pool που έχετε δημιουργήσει, εκτός εάν έχετε μια ενεργή περίοδο λειτουργίας Spark που δημιουργήθηκε για την εκτέλεση ενός σημειωματάριου ή ορισμού εργασίας Spark. Χρεώνεστε μόνο για τη διάρκεια εκτέλεσης της εργασίας σας. Δεν έχετε χρεωθεί για στάδια όπως η δημιουργία συμπλέγματος και η εκχώρηση μετά την ολοκλήρωση της εργασίας.
Για παράδειγμα, εάν υποβάλετε μια εργασία σημειωματάριου σε ένα προσαρμοσμένο Spark pool, χρεώνεστε μόνο για τη χρονική περίοδο κατά την οποία είναι ενεργή η περίοδος λειτουργίας. Η χρέωση για αυτή την περίοδο λειτουργίας σημειωματάριου διακόπτεται όταν η περίοδος λειτουργίας Spark έχει διακοπεί ή λήξει. Δεν χρεώνεστε για τον χρόνο που απαιτείται για την απόκτηση παρουσιών συμπλέγματος από το cloud ή για τον χρόνο που απαιτείται για την προετοιμασία του περιβάλλοντος Spark.
Πιθανές ρυθμίσεις παραμέτρων προσαρμοσμένου χώρου συγκέντρωσης για το F64 με βάση το προηγούμενο παράδειγμα:
SKU χωρητικότητας fabric | Μονάδες εκχωρημένων πόρων | Εικονικοί πυρήνες Spark | Μέγεθος κόμβου | Μέγιστος αριθμός κόκκων |
---|---|---|---|---|
F64 | 64 | 384 | Μικρό | 96 |
F64 | 64 | 384 | Μεσαία | 48 |
F64 | 64 | 384 | Μεγάλο | 24 |
F64 | 64 | 384 | X-Large | 12 |
F64 | 64 | 384 | XX-Large | 6 |
Σημείωση
Για να δημιουργήσετε προσαρμοσμένους χώρους συγκέντρωσης, χρειάζεστε δικαιώματα διαχειριστή για τον χώρο εργασίας. Επίσης, ο διαχειριστής εκχωρημένων πόρων του Microsoft Fabric πρέπει να εκχωρήσει δικαιώματα για να επιτρέψει στους διαχειριστές χώρων εργασίας να προσαρμόσουν το μέγεθος των προσαρμοσμένων ομάδων Spark. Για να μάθετε περισσότερα, ανατρέξτε στο θέμα Γρήγορα αποτελέσματα με προσαρμοσμένες ομάδες Spark στο Fabric
Μια παρουσία ομάδας Apache Spark αποτελείται από έναν κόμβο κεφαλής και κόμβους εργαζομένων, μπορεί να ξεκινήσει τουλάχιστον έναν κόμβο σε μια παρουσία Spark. Ο επικεφαλής κόμβος εκτελεί επιπλέον υπηρεσίες διαχείρισης, όπως η Livy, η Yarn Resource Manager, ο Ζωοφύλακας και ο οδηγός Apache Spark. Όλοι οι κόμβοι εκτελούν υπηρεσίες όπως node Agent και Yarn Node Manager. Όλοι οι κόμβοι εργαζομένων εκτελούν την υπηρεσία Εκτέλεση Apache Spark.
Ένας χώρος συγκέντρωσης Spark μπορεί να οριστεί με μεγέθη κόμβων που κυμαίνονται από έναν μικρό υπολογιστικό κόμβο (με 4 εικονικούς πυρήνες και 32 GB μνήμης) σε έναν διπλό επιπλέον μεγάλο κόμβο υπολογιστικής λειτουργίας (με 64 εικονικούς πυρήνες και 512 GB μνήμης ανά κόμβο). Τα μεγέθη των κόμβων μπορούν να τροποποιηθούν μετά τη δημιουργία του χώρου συγκέντρωσης, παρόλο που η ενεργή περίοδος λειτουργίας θα πρέπει να επανεκκινηθεί.
Μέγεθος | εικονικοί πυρήνες | Μνήμη |
---|---|---|
Μικρό | 4 | 32 GB |
Μεσαία | 8 | 64 GB |
Μεγάλο | 16 | 128 GB |
X-Large | 32 | 256 GB |
XX-Large | 64 | 512 GB |
Σημείωση
Τα μεγέθη κόμβων X-Large και XX-Large επιτρέπονται μόνο για μη δοκιμαστικά SKU Fabric.
Η αυτόματη κλιμάκωση για τα σύνολα Apache Spark επιτρέπει αυτόματη κλιμάκωση των υπολογιστικών πόρων με βάση το μέγεθος της δραστηριότητας. Όταν ενεργοποιείτε τη δυνατότητα αυτόματης κλιμάκωσης, ορίζετε τον ελάχιστο και μέγιστο αριθμό κόφων σε κλίμακα. Όταν απενεργοποιήσετε τη δυνατότητα αυτόματης κλιμάκωσης, ο αριθμός των κόφων που έχουν οριστεί παραμένει σταθερός. Μπορείτε να αλλάξετε αυτήν τη ρύθμιση μετά τη δημιουργία του χώρου συγκέντρωσης, παρόλο που ίσως χρειαστεί να επανεκκινήσετε την παρουσία.
Σημείωση
Από προεπιλογή, το spark.yarn.executor.decommission.enabled έχει οριστεί σε true, ενεργοποιώντας τον αυτόματο τερματισμό λειτουργίας των υποχρησιμοποιημένων κόμμων για βελτιστοποίηση της υπολογιστικής απόδοσης. Εάν προτιμάται η λιγότερο επιθετική κλιμάκωση προς τα κάτω, αυτή η ρύθμιση παραμέτρων μπορεί να οριστεί σε false
Η δυναμική εκχώρηση επιτρέπει στην εφαρμογή Apache Spark να ζητά περισσότερους εκτελεστές, εάν οι εργασίες υπερβαίνουν τον φόρτο που μπορούν να φέρουν οι τρέχοντες εκτελεστές. Επίσης, δημοσιεύει τα εκτελέσιμα αρχεία κατά την ολοκλήρωση των εργασιών και εάν η εφαρμογή Spark μετακινείται σε κατάσταση αδράνειας. Οι χρήστες μεγάλης επιχείρησης συχνά δυσκολεύονται να ρυθμίσουν τις ρυθμίσεις παραμέτρων του εκτελέσιμου κώδικα, επειδή διαφέρουν πολύ σε πολλά διαφορετικά στάδια μιας διαδικασίας εκτέλεσης εργασίας Spark. Αυτές οι ρυθμίσεις παραμέτρων εξαρτώνται επίσης από τον όγκο των επεξεργασμένων δεδομένων, το οποίο αλλάζει κατά διαστήματα. Μπορείτε να ενεργοποιήσετε τη δυναμική εκχώρηση της επιλογής εκτελέσεων ως μέρος της ρύθμισης παραμέτρων του χώρου συγκέντρωσης, η οποία επιτρέπει την αυτόματη εκχώρηση εκτελέσεων στην εφαρμογή Spark με βάση τους κόμβους που είναι διαθέσιμοι στον χώρο συγκέντρωσης Spark.
Όταν ενεργοποιείτε την επιλογή δυναμικής εκχώρησης για κάθε εφαρμογή Spark που υποβλήθηκε, το σύστημα διατηρεί τους εκτελεστές κατά τη διάρκεια του βήματος υποβολής εργασίας με βάση τους ελάχιστους κόμβους. Καθορίζετε τους μέγιστους κόμβους για την υποστήριξη επιτυχημένων σεναρίων αυτόματης κλίμακας.