Κοινοποίηση μέσω


Πειραματικό Fabric Runtime 2.0 (Προεπισκόπηση)

Σημείωμα

Το Fabric Runtime 2.0 βρίσκεται αυτήν τη στιγμή σε πειραματικό στάδιο προεπισκόπησης. Για περισσότερες πληροφορίες, ανατρέξτε στους περιορισμούς και τις σημειώσεις.

Το Fabric Runtime παρέχει απρόσκοπτη ενοποίηση στο οικοσύστημα Microsoft Fabric, προσφέροντας ένα ισχυρό περιβάλλον για έργα μηχανικής δεδομένων και επιστήμης δεδομένων που υποστηρίζονται από το Apache Spark.

Αυτό το άρθρο παρουσιάζει το Fabric Runtime 2.0 Experimental (Preview), τον πιο πρόσφατο χρόνο εκτέλεσης που έχει σχεδιαστεί για υπολογισμούς μεγάλων δεδομένων στο Microsoft Fabric. Υπογραμμίζει τα βασικά χαρακτηριστικά και στοιχεία που καθιστούν αυτήν την έκδοση ένα σημαντικό βήμα προς τα εμπρός για επεκτάσιμα αναλυτικά στοιχεία και προηγμένους φόρτους εργασίας.

Το Fabric Runtime 2.0 ενσωματώνει τα ακόλουθα στοιχεία και αναβαθμίσεις που έχουν σχεδιαστεί για να βελτιώσουν τις δυνατότητες επεξεργασίας δεδομένων σας:

  • Apache Spark 4.0
  • Λειτουργικό σύστημα: Azure Linux 3.0 (Mariner 3.0)
  • Ιάβα: 21
  • Σκάλα: 2.13
  • Python: 3.12
  • Λίμνη Δέλτα: 4.0

Ενεργοποίηση χρόνου εκτέλεσης 2.0

Μπορείτε να ενεργοποιήσετε το Runtime 2.0 είτε σε επίπεδο χώρου εργασίας είτε σε επίπεδο στοιχείου περιβάλλοντος. Χρησιμοποιήστε τη ρύθμιση χώρου εργασίας για να εφαρμόσετε το Runtime 2.0 ως προεπιλογή για όλους τους φόρτους εργασίας Spark στον χώρο εργασίας σας. Εναλλακτικά, δημιουργήστε ένα στοιχείο περιβάλλοντος με χρόνο εκτέλεσης 2.0 για χρήση με συγκεκριμένα σημειωματάρια ή ορισμούς εργασιών Spark, το οποίο παρακάμπτει την προεπιλογή του χώρου εργασίας.

Ενεργοποιήστε το Runtime 2.0 στις ρυθμίσεις χώρου εργασίας

Για να ορίσετε το Runtime 2.0 ως προεπιλογή για ολόκληρο τον χώρο εργασίας σας:

  1. Μεταβείτε στην καρτέλα Ρυθμίσεις χώρου εργασίας εντός του χώρου εργασίας Fabric σας.

    Στιγμιότυπο οθόνης που δείχνει πού να επιλέξετε την έκδοση χρόνου εκτέλεσης για τις ρυθμίσεις του Workspace.

  2. Μεταβείτε στην καρτέλα Data Engineering/Science και επιλέξτε Ρυθμίσεις Spark.

  3. Επιλέξτε την καρτέλα Περιβάλλον .

  4. Στην αναπτυσσόμενη λίστα Έκδοση χρόνου εκτέλεσης , επιλέξτε 2.0 Πειραματική (Spark 4.0, Delta 4.0) και αποθηκεύστε τις αλλαγές σας. Αυτή η ενέργεια ορίζει το Runtime 2.0 ως τον προεπιλεγμένο χρόνο εκτέλεσης για τον χώρο εργασίας σας.

Ενεργοποίηση χρόνου εκτέλεσης 2.0 σε ένα στοιχείο περιβάλλοντος

Για να χρησιμοποιήσετε το Runtime 2.0 με συγκεκριμένα σημειωματάρια ή ορισμούς εργασιών Spark:

  1. Δημιουργήστε ένα νέο στοιχείο Περιβάλλοντος ή ανοιχτό και υπάρχον.

  2. Στην αναπτυσσόμενη λίστα Χρόνος εκτέλεσης, επιλέξτε 2.0 Πειραματικό (Spark 4.0, Delta 4.0)Save και Publish τις αλλαγές σας.

    Στιγμιότυπο οθόνης που δείχνει πού να επιλέξετε την έκδοση χρόνου εκτέλεσης για το στοιχείο Περιβάλλον.

    Σημαντικό

    Μπορεί να χρειαστούν περίπου 2-5 λεπτά για να ξεκινήσουν οι συνεδρίες Spark 2.0, καθώς οι ομάδες εκκίνησης δεν αποτελούν μέρος της πρώιμης πειραματικής κυκλοφορίας.

  3. Στη συνέχεια, μπορείτε να χρησιμοποιήσετε αυτό το στοιχείο Περιβάλλον με το δικό σας Notebook ή Spark Job Definition.

Τώρα μπορείτε να αρχίσετε να πειραματίζεστε με τις πιο πρόσφατες βελτιώσεις και λειτουργίες που παρουσιάστηκαν στο Fabric Runtime 2.0 (Spark 4.0 και Delta Lake 4.0).

Πειραματική δημόσια προεπισκόπηση

Το πειραματικό στάδιο προεπισκόπησης χρόνου εκτέλεσης Fabric 2.0 σάς παρέχει πρώιμη πρόσβαση σε νέες δυνατότητες και API τόσο από το Spark 4.0 όσο και από το Delta Lake 4.0. Η προεπισκόπηση σάς επιτρέπει να χρησιμοποιείτε αμέσως τις πιο πρόσφατες βελτιώσεις που βασίζονται στο Spark, διασφαλίζοντας ομαλή ετοιμότητα και μετάβαση για μελλοντικές αλλαγές, όπως οι νεότερες εκδόσεις Java, Scala και Python.

Φιλοδώρημα

Για ενημερωμένες πληροφορίες, μια λεπτομερή λίστα αλλαγών και συγκεκριμένες σημειώσεις έκδοσης για τους χρόνους εκτέλεσης Fabric, ελέγξτε και εγγραφείτε στις εκδόσεις και τις ενημερώσεις Spark Runtimes.

Περιορισμοί και σημειώσεις

Το Fabric Runtime 2.0 βρίσκεται επί του παρόντος σε ένα πειραματικό στάδιο δημόσιας προεπισκόπησης, σχεδιασμένο για τους χρήστες να εξερευνούν και να πειραματίζονται με τις πιο πρόσφατες δυνατότητες και API από το Spark και το Delta Lake στα περιβάλλοντα ανάπτυξης ή δοκιμής. Ενώ αυτή η έκδοση προσφέρει πρόσβαση σε βασικές λειτουργίες, υπάρχουν ορισμένοι περιορισμοί:

  • Μπορείτε να χρησιμοποιήσετε περιόδους λειτουργίας Spark 4.0, να συντάξετε κώδικα σε σημειωματάρια, να προγραμματίσετε ορισμούς εργασιών Spark και να χρησιμοποιήσετε το PySpark, το Scala και το Spark SQL. Ωστόσο, η γλώσσα R δεν υποστηρίζεται σε αυτήν την πρώιμη έκδοση.

  • Μπορείτε να εγκαταστήσετε βιβλιοθήκες απευθείας στον κώδικά σας με pip και conda. Μπορείτε να ορίσετε τις ρυθμίσεις Spark μέσω των επιλογών %%configure σε σημειωματάρια και ορισμούς εργασιών Spark (SJD).

  • Μπορείτε να διαβάσετε και να γράψετε στο Lakehouse με το Delta Lake 4.0, αλλά ορισμένες προηγμένες λειτουργίες όπως η σειρά V, η εγγενής γραφή Parquet, η αυτόματη συμπίεση, η βελτιστοποίηση εγγραφής, η συγχώνευση χαμηλής τυχαίας αναπαραγωγής, η συγχώνευση, η εξέλιξη σχήματος και το ταξίδι στο χρόνο δεν περιλαμβάνονται σε αυτήν την πρώιμη έκδοση.

  • Το Spark Advisor δεν είναι διαθέσιμο αυτήν τη στιγμή. Ωστόσο, εργαλεία παρακολούθησης όπως το Spark UI και τα αρχεία καταγραφής υποστηρίζονται σε αυτήν την πρώιμη έκδοση.

  • Δυνατότητες όπως οι ενοποιήσεις Data Science, συμπεριλαμβανομένου του Copilot και των συνδέσεων όπως το Kusto, το SQL Analytics, το Cosmos DB και το MySQL Java Connector, δεν υποστηρίζονται προς το παρόν σε αυτήν την πρώιμη έκδοση. Οι βιβλιοθήκες Data Science δεν υποστηρίζονται σε περιβάλλοντα PySpark. Το PySpark λειτουργεί μόνο με μια βασική ρύθμιση Conda, η οποία περιλαμβάνει μόνο το PySpark χωρίς επιπλέον βιβλιοθήκες.

  • Οι ενοποιήσεις με το στοιχείο περιβάλλοντος και τον κώδικα του Visual Studio δεν υποστηρίζονται σε αυτήν την πρώιμη έκδοση.

  • Δεν υποστηρίζει την ανάγνωση και εγγραφή δεδομένων σε λογαριασμούς Χώρου αποθήκευσης Azure γενικής χρήσης v2 (GPv2) με πρωτόκολλα WASB ή ABFS.

Σημείωμα

Μοιραστείτε τα σχόλιά σας σχετικά με το Fabric Runtime στην πλατφόρμα Ideas. Φροντίστε να αναφέρετε την έκδοση και το στάδιο κυκλοφορίας στο οποίο αναφέρεστε. Εκτιμούμε τα σχόλια της κοινότητας και δίνουμε προτεραιότητα στις βελτιώσεις βάσει ψήφων, διασφαλίζοντας ότι ανταποκρινόμαστε στις ανάγκες των χρηστών.

Βασικά σημεία

Apache Spark 4.0

Το Apache Spark 4.0 σηματοδοτεί ένα σημαντικό ορόσημο ως η εναρκτήρια κυκλοφορία της σειράς 4.x, ενσωματώνοντας τη συλλογική προσπάθεια της ζωντανής κοινότητας ανοιχτού κώδικα.

Σε αυτήν την έκδοση, το Spark SQL εμπλουτίζεται σημαντικά με ισχυρά νέα χαρακτηριστικά που έχουν σχεδιαστεί για να ενισχύουν την εκφραστικότητα και την ευελιξία για φόρτους εργασίας SQL, όπως υποστήριξη τύπου δεδομένων VARIUM, συναρτήσεις SQL που ορίζονται από το χρήστη, μεταβλητές περιόδου λειτουργίας, σύνταξη σωλήνων και ταξινόμηση συμβολοσειρών. Το PySpark βλέπει συνεχή αφοσίωση τόσο στο λειτουργικό του εύρος όσο και στη συνολική εμπειρία προγραμματιστή, φέρνοντας ένα εγγενές API σχεδίασης, ένα νέο API πηγής δεδομένων Python, υποστήριξη για Python UDTF και ενοποιημένο προφίλ για PySpark UDF, μαζί με πολλές άλλες βελτιώσεις. Το Structured Streaming εξελίσσεται με βασικές προσθήκες που παρέχουν μεγαλύτερο έλεγχο και ευκολία εντοπισμού σφαλμάτων, ιδίως την εισαγωγή του Arbitrary State API v2 για πιο ευέλικτη διαχείριση κατάστασης και της πηγής δεδομένων κατάστασης για ευκολότερο εντοπισμό σφαλμάτων.

Μπορείτε να ελέγξετε την πλήρη λίστα και τις λεπτομερείς αλλαγές εδώ: https://spark.apache.org/releases/spark-release-4-0-0.html.

Σημείωμα

Στο Spark 4.0, το SparkR αποσύρεται και ενδέχεται να καταργηθεί σε μελλοντική έκδοση.

Λίμνη Δέλτα 4.0

Το Delta Lake 4.0 σηματοδοτεί μια συλλογική δέσμευση να γίνει το Delta Lake διαλειτουργικό σε όλες τις μορφές, πιο εύκολο στην εργασία και πιο αποδοτικό. Το Delta 4.0 είναι μια έκδοση ορόσημο γεμάτη με ισχυρά νέα χαρακτηριστικά, βελτιστοποιήσεις απόδοσης και θεμελιώδεις βελτιώσεις για το μέλλον των λιμνών ανοιχτών δεδομένων.

Μπορείτε να ελέγξετε την πλήρη λίστα και τις λεπτομερείς αλλαγές που εισήχθησαν με το Delta Lake 3.3 και 4.0 εδώ: https://github.com/delta-io/delta/releases/tag/v3.3.0. https://github.com/delta-io/delta/releases/tag/v4.0.0.

Σημαντικό

Οι συγκεκριμένες δυνατότητες του Delta Lake 4.0 είναι πειραματικές και λειτουργούν μόνο σε εμπειρίες Spark, όπως σημειωματάρια και ορισμούς εργασιών Spark. Εάν πρέπει να χρησιμοποιήσετε τους ίδιους πίνακες Delta Lake σε πολλούς φόρτους εργασίας Microsoft Fabric, μην ενεργοποιήσετε αυτές τις δυνατότητες. Για να μάθετε περισσότερα σχετικά με τις εκδόσεις πρωτοκόλλου και τις δυνατότητες που είναι συμβατές με όλες τις εμπειρίες Microsoft Fabric, διαβάστε το θέμα Διαλειτουργικότητα μορφής πίνακα Delta Lake.