什麼是 Fabric 中 Apache Spark 設定的自動調整？

Autotune 會自動調整 Apache Spark 配置，以縮短工作負載執行時間並提升效能。它幫助你避免手動調整，而手動調校通常需要反覆嘗試錯誤。 Autotune 利用你工作負載的歷史執行資料，反覆發現並套用每個工作負載的有效設定。

注意

Microsoft Fabric 中的自動調音查詢調整目前仍處於預覽階段。它在所有生產區域都有，但預設是被關閉的。可在 Spark 設定環境中啟用，或在筆記本或 Spark 工作定義程式碼中啟用單一會話。

設定預設與需求

預設行為：自動調音預設 是關閉 的。
關機時無需設定：如果你沒有啟用自動調音，Spark 會使用其標準設定行為。
使用自動調音的必要設定：設定 spark.ms.autotune.enabled=true 如下：
- 在環境層級中，所有使用該環境的筆記本和任務都會繼承該設定。請參見啟用自動調音。
- 只限於一本筆記簿或 Spark 工作定義的會話裡。請參見「啟用自動調音以進行單次會話」。

查詢微調

Autotune 會針對每個查詢調整以下三種 Apache Spark 設定：

spark.sql.shuffle.partitions：設定連接或聚合時資料洗牌所需的分割區數量。預設值為 200。
spark.sql.autoBroadcastJoinThreshold：設定在加入時向工作節點廣播的最大資料表大小（位元組）。預設值為 10 MB。
spark.sql.files.maxPartitionBytes：設定讀取檔案時，將最大位元組打包到一個分割區。適用於 Parquet、JSON 和 ORC 檔案來源。預設值為 128 MB。

自動調音查詢調整會檢視每個查詢，並為該查詢建立獨立的機器學習模型。它最適合以下情況：

重複的查詢
長時間查詢（超過 15 秒）
Apache Spark SQL API 查詢（非 RDD API）

你可以用自動調音搭配筆記本、Spark 工作定義和管道。效益會依查詢複雜度和資料形狀而異。在測試中，探索性資料分析模式如讀取、連接、聚合與排序，取得最大效益。

自動調音的運作原理

自動調音使用迭代優化迴圈：

從預設的 Spark 設定值開始。
在基線（重心）周圍產生候選配置。
利用先前訓練的模型預測最佳候選者。
申請候選人並執行查詢。
將執行結果回饋到模型中。

隨著時間推移，基線會轉向更佳的環境，同時降低退化風險。利用所有收集到的數據點也有助於減少異常現象的影響。

啟用自動調整

自動調音在所有生產區域都有，但預設是關閉的。為了在環境層級啟用，將 Spark 屬性 spark.ms.autotune.enabled=true 設在新的或現有的環境中。所有使用該環境的筆記本和工作都會繼承該設定。

自動調音內建回歸偵測功能。例如，若查詢處理異常龐大的資料量，自動調音可以自動跳過該次的調校。在許多情況下，自動調音大約需要 20 到 25 次迭代才能達到強音設定。

注意

自動調音相容於 Runtime 1.2。你無法在 1.2 之後的執行版本啟用它。當啟用高並行模式或私有端點時，它無法執行。 Autotune 可以與任何自動縮放配置一起運作。

你也可以在筆記本或 Spark 工作定義中設定 Spark 屬性，為單一會話啟用自動調音。

啟用單場自動調音

%%sql
SET spark.ms.autotune.enabled=TRUE

%%pyspark
spark.conf.set('spark.ms.autotune.enabled', 'true')

%%spark
spark.conf.set("spark.ms.autotune.enabled", "true")

%%sparkr
library(SparkR)
sparkR.conf("spark.ms.autotune.enabled", "true")

在單一場次中關閉自動調音

要在筆記本或 Spark Job Definition 中停用自動調音，請在程式碼的第一格或第一行執行以下指令之一。

%%sql 
SET spark.ms.autotune.enabled=FALSE

%%pyspark
spark.conf.set('spark.ms.autotune.enabled', 'false')

%%spark  
spark.conf.set("spark.ms.autotune.enabled", "false")

%%sparkr
library(SparkR)
sparkR.conf("spark.ms.autotune.enabled", "false")

案例研究

當你執行 Apache Spark 查詢時，自動調音會建立該查詢形狀的模型，並隨時間學習最佳設定。例如，從這個篩選查詢開始：

%%pyspark
df.filter(df.country == "country-A")

Autotune 會從這次操作中學習。如果你之後只改變篩選器值，查詢形狀仍保持相似：

%%pyspark
df.filter(df.country == "country-B")

自動調音可以重複利用先前學習的經驗來處理類似的查詢模式，有助於在不需手動重新調校的情況下維持效能。

日誌

對於每個查詢，自動調音會計算三種支援的 Spark 配置的建議值。要檢查推薦，請查看驅動程式日誌中以 [Autotune] 開頭的條目。

常見的日誌狀態包括：

狀態	描述
`AUTOTUNE_DISABLED`	已略過。自動調音被關閉，因此不會套用遙測數據收集和優化功能。
`QUERY_TUNING_DISABLED`	已略過。查詢調整功能已停用。
`QUERY_PATTERN_NOT_MATCH`	已略過。查詢模式與支援的唯讀查詢類型不符。
`QUERY_DURATION_TOO_SHORT`	已略過。查詢的執行時間不到 15 秒，這對於有效的性能調整來說太短。
`QUERY_TUNING_SUCCEED`	成功。查詢調整完成並優化了 Spark 設定。

透明度注意事項

依據負責任 AI 標準，本節說明自動調音的使用與驗證。

自動調整的目的

Autotune 旨在提升 Apache Spark 工作負載效率，以改善資料專業人員的工作效能。這樣做：

自動調整 Apache Spark 配置以縮短執行時間。
減少手動調校的負擔。
利用歷史工作負載資料來迭代優化配置選擇。

自動調整功能的驗證

Autotune 經過嚴格驗證，以確保效能與安全性：

透過在不同 Spark 工作負載中進行嚴格測試，驗證調整演算法的有效性。
以標準 Spark 優化方法為基準測試，以展示效能效益。
包含真實案例研究以展示實際價值。
遵循嚴格的安全與隱私標準，以保護用戶資料。

使用者資料專門用來增強工作負載的效能，透過強固保護防止誤用或暴露敏感性資訊。

意見反應

此頁面對您有幫助嗎？

Last updated on 2026-03-11