Ενοποίηση Git ορισμού εργασίας Spark
Αυτό το άρθρο εξηγεί πώς λειτουργεί η ενοποίηση Git για τους ορισμούς εργασίας Spark (SJD) στο Microsoft Fabric. Μάθετε πώς μπορείτε να ρυθμίσετε μια σύνδεση αποθετηρίου δεδομένων, να διαχειριστείτε τις αλλαγές ορισμού εργασίας Spark μέσω του ελέγχου προέλευσης και να τις αναπτύξετε σε διάφορους χώρους εργασίας.
Η ενεργοποίηση της ενοποίησης Git για τους ορισμούς εργασίας Spark στο Azure DevOps σάς επιτρέπει να παρακολουθείτε τις αλλαγές μέσω πλήρους ιστορικού git. Εάν επιλεγεί το PySpark ή το SparkR, το αρχείο κύριου ορισμού και το αρχείο αναφοράς περιλαμβάνονται ως μέρος της δέσμευσης. Επίσης, παρακολουθούνται οι αλλαγές στον πηγαίο κώδικα σε αυτά τα αρχεία.
Σημαντικό
Αυτή η δυνατότητα είναι σε προεπισκόπηση.
Ρύθμιση σύνδεσης
Από τις ρυθμίσεις του χώρου εργασίας σας, μπορείτε εύκολα να ρυθμίσετε μια σύνδεση στο αποθετήριο δεδομένων σας για τη δέσμευση και τον συγχρονισμό αλλαγών. Για να ρυθμίσετε τη σύνδεση, ανατρέξτε στο άρθρο Γρήγορα αποτελέσματα με την ενοποίηση Git. Αφού συνδεθείτε, τα στοιχεία σας, όπως οι ορισμοί εργασίας Spark, θα είναι ορατά στον πίνακα ελέγχου Προέλευση.
Αφού δεσμεύσετε τον ορισμό εργασίας Spark στο αποθετήριο δεδομένων Git, η δομή φακέλου ορισμού εργασίας εμφανίζεται στο αποθετήριο δεδομένων.
Αναπαράσταση ορισμού εργασίας Spark στο Git
Η παρακάτω εικόνα είναι ένα παράδειγμα της δομής αρχείου κάθε στοιχείου ορισμού εργασίας Spark στο αποθετήριο δεδομένων:
Όταν τοποθετείτε το στοιχείο ορισμού εργασίας Spark στο αποθετήριο δεδομένων, δημιουργείται ένας φάκελος git για κάθε στοιχείο και ονομάζεται σύμφωνα με αυτό το σχήμα: <Όνομα> στοιχείου + "SparkJobDefinition". Μην μετονομάσετε τον φάκελο όπως χρησιμοποιείται για την παρακολούθηση του στοιχείου στον χώρο εργασίας. Για παράδειγμα, εάν το όνομα του στοιχείου είναι "sjd1", το όνομα του φακέλου git θα είναι "sjd1SparkJobDefinition".
Υπάρχουν δύο υποφάκελοι στον φάκελο Git. Είναι η κύρια και η αναφορά. Ο κύριος φάκελος περιέχει το αρχείο κύριου ορισμού και ο φάκελος αναφοράς περιέχει το αρχείο αναφοράς.
Επιπλέον των κύριων αρχείων και των αρχείων αναφοράς, υπάρχει επίσης ένα αρχείο SparkJobDefinitionV1.json . Διατηρεί τα μετα-δεδομένα για το στοιχείο ορισμού εργασίας Spark, επομένως μην τα τροποποιήσετε. Το αρχείο .platform περιέχει τις πληροφορίες πλατφόρμας που σχετίζονται με τη ρύθμιση> του Git, δεν πρέπει να τροποποιηθούν επίσης.
Σημείωμα
- Εάν επιλέξετε Java ή Scala ως γλώσσα, τα κύρια αρχεία και τα αρχεία αναφοράς δεν θα δεσμευτούν κατά την αποστολή τους ως αρχείο .jar.
- Το συνημμένο περιβάλλον διατηρείται σε έναν ορισμό εργασίας Spark μετά τον συγχρονισμό από το αποθετήριο δεδομένων σε έναν χώρο εργασίας Fabric. Προς το παρόν, δεν υποστηρίζονται περιβάλλοντα αναφοράς μεταξύ χώρων εργασίας. Πρέπει να συνδεθείτε με μη αυτόματο τρόπο σε ένα νέο περιβάλλον ή να χρησιμοποιήσετε τις προεπιλεγμένες ρυθμίσεις χώρου εργασίας για να εκτελέσετε τον ορισμό εργασίας.
- Ο ορισμός εργασίας Spark διατηρεί το προεπιλεγμένο αναγνωριστικό lakehouse κατά τον συγχρονισμό από το αποθετήριο σε έναν χώρο εργασίας Fabric. Εάν καταχωρήσετε ένα σημειωματάριο στην προεπιλεγμένη λίμνη, θα χρειαστεί να αναφέρετε με μη αυτόματο τρόπο ένα στοιχείο lakehouse που μόλις δημιουργήθηκε. Για περισσότερες πληροφορίες, ανατρέξτε στο θέμα Ενοποίηση Git lakehouse.