Was ist Autotune für Apache Spark-Konfigurationen in Fabric?

Autotune passt Apache Spark-Konfigurationen automatisch an, um die Workloadausführungszeit zu reduzieren und die Leistung zu verbessern. Es hilft Ihnen, manuelle Optimierungen zu vermeiden, die normalerweise wiederholtes Versuch und Irrtum erfordern. Autotune verwendet verlaufsgeschichtliche Ausführungsdaten aus Ihren Workloads, um effektive Einstellungen für jede Workload iterativ zu ermitteln und anzuwenden.

Hinweis

Die Autotune-Abfrageoptimierung in Microsoft Fabric befindet sich derzeit in der Vorschauphase. Sie ist in allen Produktionsregionen verfügbar, ist aber standardmäßig deaktiviert. Aktivieren Sie sie in einer Spark-Konfiguration in einer Umgebung oder für eine einzelne Sitzung im Notizbuch- oder SparkAuftragsdefinitionscode.

Konfigurationsstandardwerte und -anforderungen

Standardverhalten: Autotune ist standardmäßig deaktiviert .
Kein erforderliches Setup bei deaktivierter Einstellung: Wenn Sie Autotune nicht aktivieren, verwendet Spark sein Standardkonfigurationsverhalten.
Erforderliche Einrichtung für die Verwendung von Autotune: Legen Sie spark.ms.autotune.enabled=true eine der folgenden Optionen fest:
- Auf Umgebungsebene erben alle Notizbücher und Aufträge, die diese Umgebung verwenden, die Einstellung. Siehe "Autotune aktivieren".
- Nur in einem Notizbuch oder in einer Spark-Auftragsdefinitionssitzung. Siehe Aktivieren von Autotune für eine einzelne Sitzung.

Abfrageoptimierung

Autotune optimiert diese drei Apache Spark-Einstellungen bei jeder Abfrage:

spark.sql.shuffle.partitions: Legt die Partitionsanzahl für das Datenshuffling während Verknüpfungen oder Aggregationen fest. Der Standardwert ist 200.
spark.sql.autoBroadcastJoinThreshold: Legt die maximale Tabellengröße in Byte fest, die während eines Joins zu Arbeitsknoten übertragen werden soll. Der Standardwert ist 10 MB.
spark.sql.files.maxPartitionBytes: Legt die maximale Anzahl von Bytes fest, die beim Lesen von Dateien in eine Partition verpackt werden sollen. Gilt für Parquet-, JSON- und ORC-Datenquellen. Der Standardwert ist 128 MB.

Die Autotune-Abfrageoptimierung untersucht jede Abfrage und erstellt ein separates Machine Learning-Modell für diese Abfrage. Es funktioniert am besten für:

Wiederholte Abfragen
Lang andauernde Abfragen (mehr als 15 Sekunden)
Apache Spark SQL-API-Abfragen (nicht RDD-API)

Sie können Autotune mit Notizbüchern, Spark Job Definitions und Pipelines verwenden. Der Vorteil variiert je nach Abfragekomplexität und Daten-Shape. Bei Tests werden die größten Gewinne in explorativen Datenanalysemustern wie Lesevorgängen, Verknüpfungen, Aggregationen und Sortierungen angezeigt.

Funktionsweise von Autotune

Autotune verwendet eine iterative Optimierungsschleife:

Beginnen Sie mit den Standardmäßigen Spark-Konfigurationswerten.
Generieren Sie Kandidatenkonfigurationen um einen Basisplan (Centroid).
Vorhersagen Sie den besten Kandidaten mithilfe eines Modells, das auf vorherigen Läufen trainiert wurde.
Setzen Sie den Kandidaten ein und führen Sie die Abfrage aus.
Führen Sie die Ausführungsergebnisse in das Modell zurück.

Im Laufe der Zeit verschiebt sich die Basislinie in Richtung besserer Einstellungen und verringert gleichzeitig das Regressionsrisiko. Die Verwendung aller gesammelten Datenpunkte hilft auch, die Wirkung von Anomalien zu verringern.

Aktivierung von Autotune

Autotune ist in allen Produktionsregionen verfügbar, ist aber standardmäßig deaktiviert. Um sie auf Umgebungsebene zu aktivieren, legen Sie die Spark-Eigenschaft spark.ms.autotune.enabled=true in einer neuen oder vorhandenen Umgebung fest. Alle Notizbücher und Aufträge, die diese Umgebung verwenden, erben die Einstellung.

Autotune enthält integrierte Regressionserkennung. Wenn eine Abfrage beispielsweise eine ungewöhnlich große Datenmenge verarbeitet, kann Autotune die Optimierung für diese Ausführung automatisch überspringen. In vielen Szenarien benötigt Autotune etwa 20 bis 25 Iterationen, um zu optimalen Einstellungen zu konvergieren.

Hinweis

Autotune ist mit Runtime 1.2 kompatibel. Sie können sie nicht für Laufzeitversionen aktivieren, die später als 1.2 sind. Sie wird nicht ausgeführt, wenn der Modus für hohe Parallelität oder der private Endpunkt aktiviert ist. Autotune funktioniert mit der automatischen Skalierung in jeder automatischen Konfiguration.

Sie können autotune auch für eine einzelne Sitzung aktivieren, indem Sie die Spark-Eigenschaft in Ihrem Notizbuch oder der Spark-Auftragsdefinition festlegen.

Aktivieren von Autotune für eine einzelne Sitzung

%%sql
SET spark.ms.autotune.enabled=TRUE

%%pyspark
spark.conf.set('spark.ms.autotune.enabled', 'true')

%%spark
spark.conf.set("spark.ms.autotune.enabled", "true")

%%sparkr
library(SparkR)
sparkR.conf("spark.ms.autotune.enabled", "true")

Deaktivieren von Autotune für eine einzelne Sitzung

Führen Sie einen der folgenden Befehle als erste Zelle oder erste Codezeile aus, um Autotune in einem Notizbuch oder in der SparkAuftragsdefinition zu deaktivieren.

%%sql 
SET spark.ms.autotune.enabled=FALSE

%%pyspark
spark.conf.set('spark.ms.autotune.enabled', 'false')

%%spark  
spark.conf.set("spark.ms.autotune.enabled", "false")

%%sparkr
library(SparkR)
sparkR.conf("spark.ms.autotune.enabled", "false")

Fallstudie

Wenn Sie eine Apache Spark-Abfrage ausführen, erstellt Autotune ein Modell für dieses Abfrage-Shape und lernt die besten Einstellungen im Laufe der Zeit. Beginnen Sie beispielsweise mit dieser Filterabfrage:

%%pyspark
df.filter(df.country == "country-A")

Autotune lernt aus diesem Durchlauf. Wenn Sie später nur den Filterwert ändern, bleibt das Abfrage-Shape ähnlich:

%%pyspark
df.filter(df.country == "country-B")

Autotune kann frühere Erkenntnisse für dieses ähnliche Abfragemuster wiederverwenden, was dazu beiträgt, die Leistung ohne manuelles Anpassen aufrechtzuerhalten.

Protokolle

Für jede Abfrage berechnet Autotune empfohlene Werte für die drei unterstützten Spark-Konfigurationen. Um Empfehlungen zu prüfen, überprüfen Sie die Treiberprotokolle auf Einträge, die mit [Autotune] beginnen.

Zu den allgemeinen Protokollstatus gehören:

Der Status	Beschreibung
`AUTOTUNE_DISABLED`	Übersprungen. Autotune ist deaktiviert, sodass die Telemetriesammlung und -optimierung nicht angewendet werden.
`QUERY_TUNING_DISABLED`	Übersprungen. Die Abfrageoptimierung ist deaktiviert.
`QUERY_PATTERN_NOT_MATCH`	Übersprungen. Das Abfragemuster entspricht nicht den unterstützten schreibgeschützten Abfragetypen.
`QUERY_DURATION_TOO_SHORT`	Übersprungen. Die Abfrage wurde für weniger als 15 Sekunden ausgeführt, was zu kurz für eine effektive Optimierung ist.
`QUERY_TUNING_SUCCEED`	Erfolg. Die Abfrageoptimierung wurde abgeschlossen und optimierte Spark-Einstellungen angewendet.

Transparenzhinweis

In Übereinstimmung mit dem Responsible AI Standard wird in diesem Abschnitt erläutert, wie Autotune verwendet und überprüft wird.

Zweck von Autotune

Autotune wurde entwickelt, um die Effizienz der Apache Spark-Workload für Datenexperten zu verbessern. Es hat folgende Aufgaben:

Optimiert Apache Spark-Konfigurationen automatisch, um die Ausführungszeit zu reduzieren.
Reduziert den manuellen Optimierungsaufwand.
Verwendet historische Workloaddaten, um Konfigurationsoptionen iterativ zu verfeinern.

Überprüfung von Autotune

Autotune wird einer umfassenden Überprüfung unterzogen, um die Effektivität und Sicherheit zu gewährleisten:

Verwendet strenge Tests für verschiedene Spark-Workloads, um die Effektivität des Optimierungsalgorithmus zu überprüfen.
Benchmarks mit standardmäßigen Spark-Optimierungsmethoden, um Leistungsvorteile zu veranschaulichen.
Enthält praxisnahe Fallstudien, um praktische Werte zu zeigen.
Folgt strengen Sicherheits- und Datenschutzstandards, um Benutzerdaten zu schützen.

Benutzerdaten werden ausschließlich verwendet, um die Leistung Ihrer Workload mit robusten Schutzmaßnahmen zu verbessern, um Missbrauch oder Offenlegung vertraulicher Informationen zu verhindern.

Feedback

War diese Seite hilfreich?

Last updated on 2026-03-11