Τι είναι το autotune για διαμορφώσεις Apache Spark στο Fabric;

Ο Αυτόματος συντονισμός προσαρμόζει αυτόματα τις διαμορφώσεις του Apache Spark για να μειώσει τον χρόνο εκτέλεσης του φόρτου εργασίας και να βελτιώσει τις επιδόσεις. Σας βοηθά να αποφύγετε τον χειροκίνητο συντονισμό, ο οποίος συνήθως απαιτεί επαναλαμβανόμενες δοκιμές και σφάλματα. Ο Αυτόματος συντονισμός χρησιμοποιεί δεδομένα ιστορικού εκτέλεσης από τους φόρτους εργασίας σας για να ανακαλύψει και να εφαρμόσει επαναληπτικά αποτελεσματικές ρυθμίσεις για κάθε φόρτο εργασίας.

Note

Ο αυτόματος συντονισμός ερωτημάτων στο Microsoft Fabric βρίσκεται αυτήν τη στιγμή σε προεπισκόπηση. Είναι διαθέσιμη σε όλες τις περιοχές παραγωγής, αλλά είναι απενεργοποιημένη από προεπιλογή. Ενεργοποιήστε το σε μια ρύθμιση παραμέτρων Spark περιβάλλοντος ή για μία περίοδο λειτουργίας σε σημειωματάριο ή κώδικα ορισμού εργασίας Spark.

Προεπιλογές και απαιτήσεις διαμόρφωσης

Προεπιλεγμένη συμπεριφορά: Ο Αυτόματος συντονισμός είναι απενεργοποιημένος από προεπιλογή.
Δεν απαιτείται ρύθμιση όταν είναι απενεργοποιημένη: Εάν δεν ενεργοποιήσετε τον αυτόματο συντονισμό, το Spark χρησιμοποιεί την τυπική συμπεριφορά ρύθμισης παραμέτρων.
Απαιτούμενη ρύθμιση για τη χρήση του αυτόματου συντονισμού: Ορίστε spark.ms.autotune.enabled=true ένα από τα εξής:
- Σε επίπεδο περιβάλλοντος, ώστε όλα τα σημειωματάρια και οι εργασίες που χρησιμοποιούν αυτό το περιβάλλον να κληρονομούν τη ρύθμιση. Δείτε την ενότητα Ενεργοποίηση αυτόματου συντονισμού.
- Μόνο σε ένα σημειωματάριο ή σε μία περίοδο λειτουργίας Spark Job Definition. Δείτε την ενότητα Ενεργοποίηση αυτόματου συντονισμού για μία περίοδο λειτουργίας.

Συντονισμός ερωτημάτων

Ο Αυτόματος συντονισμός συντονίζει αυτές τις τρεις ρυθμίσεις Apache Spark για κάθε ερώτημα:

spark.sql.shuffle.partitions: Ορίζει το πλήθος διαμερισμάτων για την αναδιάταξη δεδομένων κατά τη διάρκεια συνδέσμων ή συναθροίσεων. Η προεπιλογή είναι 200.
spark.sql.autoBroadcastJoinThreshold: Ορίζει το μέγιστο μέγεθος πίνακα, σε byte, για μετάδοση σε κόμβους εργαζομένων κατά τη διάρκεια μιας ένωσης. Η προεπιλογή είναι 10 MB.
spark.sql.files.maxPartitionBytes: Ορίζει τα μέγιστα byte που θα συσκευάζονται σε ένα διαμέρισμα κατά την ανάγνωση αρχείων. Ισχύει για προελεύσεις αρχείων Parquet, JSON και ORC. Η προεπιλογή είναι 128 MB.

Ο συντονισμός ερωτημάτων αυτόματου συντονισμού εξετάζει κάθε ερώτημα και δημιουργεί ένα ξεχωριστό μοντέλο εκμάθησης μηχανής για αυτό το ερώτημα. Λειτουργεί καλύτερα για:

Επαναλαμβανόμενα ερωτήματα
Ερωτήματα μεγάλης διάρκειας (πάνω από 15 δευτερόλεπτα)
Ερωτήματα API SQL Apache Spark (όχι RDD API)

Μπορείτε να χρησιμοποιήσετε τον αυτόματο συντονισμό με σημειωματάρια, ορισμούς εργασιών Spark και διοχετεύσεις. Το όφελος διαφέρει ανάλογα με την πολυπλοκότητα του ερωτήματος και το σχήμα των δεδομένων. Στις δοκιμές, τα μεγαλύτερα κέρδη εμφανίζονται σε μοτίβα διερευνητικής ανάλυσης δεδομένων, όπως αναγνώσεις, ενώσεις, συναθροίσεις και ταξινομήσεις.

Πώς λειτουργεί ο αυτόματος συντονισμός

Ο Αυτόματος συντονισμός χρησιμοποιεί έναν επαναληπτικό βρόχο βελτιστοποίησης:

Ξεκινήστε από τις προεπιλεγμένες τιμές ρύθμισης παραμέτρων Spark.
Δημιουργήστε υποψήφιες διαμορφώσεις γύρω από μια γραμμή βάσης (centroid).
Προβλέψτε τον καλύτερο υποψήφιο χρησιμοποιώντας ένα μοντέλο που έχει εκπαιδευτεί σε προηγούμενες εκτελέσεις.
Εφαρμόστε τον υποψήφιο και εκτελέστε το ερώτημα.
Τα αποτελέσματα εκτέλεσης τροφοδοσίας επιστρέφουν στο μοντέλο.

Με την πάροδο του χρόνου, η βασική γραμμή μετατοπίζεται προς καλύτερες ρυθμίσεις, ενώ μειώνει τον κίνδυνο παλινδρόμησης. Η χρήση όλων των συλλεγόμενων σημείων δεδομένων συμβάλλει επίσης στη μείωση της επίδρασης των ανωμαλιών.

Ενεργοποίηση αυτόματου συντονισμού

Ο Αυτόματος συντονισμός είναι διαθέσιμος σε όλες τις περιοχές παραγωγής, αλλά είναι απενεργοποιημένος από προεπιλογή. Για να την ενεργοποιήσετε σε επίπεδο περιβάλλοντος, ορίστε την ιδιότητα spark.ms.autotune.enabled=true Spark σε ένα νέο ή υπάρχον περιβάλλον. Όλα τα σημειωματάρια και οι εργασίες που χρησιμοποιούν αυτό το περιβάλλον κληρονομούν τη ρύθμιση.

Ο αυτόματος συντονισμός περιλαμβάνει ενσωματωμένη ανίχνευση παλινδρόμησης. Για παράδειγμα, εάν ένα ερώτημα επεξεργάζεται έναν ασυνήθιστα μεγάλο όγκο δεδομένων, ο αυτόματος συντονισμός μπορεί να παραλείψει αυτόματα τον συντονισμό για αυτήν την εκτέλεση. Σε πολλά σενάρια, ο αυτόματος συντονισμός χρειάζεται περίπου 20 έως 25 επαναλήψεις για να συγκλίνει σε ισχυρές ρυθμίσεις.

Note

Ο αυτόματος συντονισμός είναι συμβατός με το Runtime 1.2. Δεν μπορείτε να το ενεργοποιήσετε σε εκδόσεις χρόνου εκτέλεσης μεταγενέστερες από την 1.2. Δεν εκτελείται όταν είναι ενεργοποιημένη η λειτουργία υψηλής ταυτόχρονης εκτέλεσης ή το ιδιωτικό τελικό σημείο . Ο Αυτόματος συντονισμός λειτουργεί με αυτόματη κλιμάκωση σε οποιαδήποτε διαμόρφωση αυτόματης κλιμάκωσης.

Μπορείτε επίσης να ενεργοποιήσετε τον αυτόματο συντονισμό για μία μόνο περίοδο λειτουργίας, ορίζοντας την ιδιότητα Spark στο σημειωματάριό σας ή τον ορισμό εργασίας Spark.

Ενεργοποίηση αυτόματου συντονισμού για μία περίοδο λειτουργίας

%%sql
SET spark.ms.autotune.enabled=TRUE

%%pyspark
spark.conf.set('spark.ms.autotune.enabled', 'true')

%%spark
spark.conf.set("spark.ms.autotune.enabled", "true")

%%sparkr
library(SparkR)
sparkR.conf("spark.ms.autotune.enabled", "true")

Απενεργοποίηση αυτόματου συντονισμού για μία περίοδο λειτουργίας

Για να απενεργοποιήσετε τον αυτόματο συντονισμό σε ένα σημειωματάριο ή τον ορισμό εργασίας Spark, εκτελέστε μία από τις ακόλουθες εντολές ως το πρώτο κελί ή την πρώτη γραμμή κώδικα.

%%sql 
SET spark.ms.autotune.enabled=FALSE

%%pyspark
spark.conf.set('spark.ms.autotune.enabled', 'false')

%%spark  
spark.conf.set("spark.ms.autotune.enabled", "false")

%%sparkr
library(SparkR)
sparkR.conf("spark.ms.autotune.enabled", "false")

Μελέτη περίπτωσης

Όταν εκτελείτε ένα ερώτημα Apache Spark, ο αυτόματος συντονισμός δημιουργεί ένα μοντέλο για αυτό το σχήμα ερωτήματος και μαθαίνει τις καλύτερες ρυθμίσεις με την πάροδο του χρόνου. Για παράδειγμα, ξεκινήστε με αυτό το ερώτημα φίλτρου:

%%pyspark
df.filter(df.country == "country-A")

Ο Αυτόματος συντονισμός μαθαίνει από αυτήν την εκτέλεση. Εάν αργότερα αλλάξετε μόνο την τιμή φίλτρου, το σχήμα του ερωτήματος παραμένει παρόμοιο:

%%pyspark
df.filter(df.country == "country-B")

Ο Αυτόματος συντονισμός μπορεί να επαναχρησιμοποιήσει προηγούμενες εκμαθήσεις για αυτό το παρόμοιο μοτίβο ερωτημάτων, το οποίο βοηθά στη διατήρηση των επιδόσεων χωρίς μη αυτόματο επανασυντονισμό.

Logs

Για κάθε ερώτημα, ο αυτόματος συντονισμός υπολογίζει τις προτεινόμενες τιμές για τις τρεις υποστηριζόμενες ρυθμίσεις παραμέτρων Spark. Για να ελέγξετε τις συστάσεις, ελέγξτε τα αρχεία καταγραφής προγραμμάτων οδήγησης για καταχωρήσεις που ξεκινούν με [Αυτόματος συντονισμός].

Οι συνήθεις καταστάσεις καταγραφής περιλαμβάνουν:

Status	Description
`AUTOTUNE_DISABLED`	Skipped. Ο αυτόματος συντονισμός είναι απενεργοποιημένος, επομένως δεν εφαρμόζεται η συλλογή και η βελτιστοποίηση τηλεμετρίας.
`QUERY_TUNING_DISABLED`	Skipped. Ο συντονισμός ερωτημάτων είναι απενεργοποιημένος.
`QUERY_PATTERN_NOT_MATCH`	Skipped. Το μοτίβο ερωτήματος δεν συμφωνεί με τους υποστηριζόμενους τύπους ερωτημάτων μόνο για ανάγνωση.
`QUERY_DURATION_TOO_SHORT`	Skipped. Το ερώτημα διήρκεσε λιγότερο από 15 δευτερόλεπτα, το οποίο είναι πολύ σύντομο για αποτελεσματικό συντονισμό.
`QUERY_TUNING_SUCCEED`	Success. Ολοκληρώθηκε ο συντονισμός ερωτημάτων και εφαρμόστηκαν βελτιστοποιημένες ρυθμίσεις Spark.

Σημείωση διαφάνειας

Σε ευθυγράμμιση με το Πρότυπο Responsible AI, αυτή η ενότητα εξηγεί πώς χρησιμοποιείται και επικυρώνεται ο αυτόματος συντονισμός.

Σκοπός του autotune

Ο αυτόματος συντονισμός έχει σχεδιαστεί για να βελτιώνει την αποδοτικότητα του φόρτου εργασίας του Apache Spark για επαγγελματίες δεδομένων. Το:

Συντονίζει αυτόματα τις διαμορφώσεις του Apache Spark για μείωση του χρόνου εκτέλεσης.
Μειώνει την προσπάθεια χειροκίνητου συντονισμού.
Χρησιμοποιεί ιστορικά δεδομένα φόρτου εργασίας για να βελτιώσει επαναληπτικά τις επιλογές διαμόρφωσης.

Επικύρωση του autotune

Το Autotune υποβάλλεται σε εκτεταμένη επικύρωση για να διασφαλιστεί η αποτελεσματικότητα και η ασφάλεια:

Χρησιμοποιεί αυστηρές δοκιμές σε διάφορους φόρτους εργασίας Spark για να επαληθεύσει την αποτελεσματικότητα του αλγορίθμου συντονισμού.
Σημεία αναφοράς σε σχέση με τις τυπικές μεθόδους βελτιστοποίησης Spark για την επίδειξη πλεονεκτημάτων απόδοσης.
Περιλαμβάνει πραγματικές περιπτωσιολογικές μελέτες για να δείξει πρακτική αξία.
Ακολουθεί αυστηρά πρότυπα ασφάλειας και απορρήτου για την προστασία των δεδομένων των χρηστών.

Τα δεδομένα χρήστη χρησιμοποιούνται αποκλειστικά για τη βελτίωση των επιδόσεων του φόρτου εργασίας σας, με ισχυρή προστασία για την πρόληψη της κακής χρήσης ή της έκθεσης ευαίσθητων πληροφοριών.

Όρια συγχρονισμού και ουρά στο Apache Spark για Microsoft Fabric
Υπολογισμός Apache Spark σε Microsoft Fabric

Σχόλια

Ήταν χρήσιμη αυτή η σελίδα;

Last updated on 2026-03-05