อะไรคือ autotune สําหรับการกําหนดค่า Apache Spark ใน Fabric?

Autotune จะปรับการกําหนดค่า Apache Spark โดยอัตโนมัติเพื่อลดเวลาดําเนินการปริมาณงานและปรับปรุงประสิทธิภาพ ช่วยให้คุณหลีกเลี่ยงการปรับแต่งด้วยตนเอง ซึ่งโดยทั่วไปจะต้องลองผิดลองถูกซ้ําๆ Autotune ใช้ข้อมูลการดําเนินการในอดีตจากปริมาณงานของคุณเพื่อค้นหาและใช้การตั้งค่าที่มีประสิทธิภาพสําหรับแต่ละปริมาณงานซ้ําๆ

Note

การปรับแต่งคิวรีอัตโนมัติใน Microsoft Fabric อยู่ในการแสดงตัวอย่าง มีให้บริการในทุกภูมิภาคการผลิต แต่จะถูกปิดใช้งานโดยค่าเริ่มต้น เปิดใช้งานในการตั้งค่าคอนฟิก Spark ของสภาพแวดล้อม หรือสําหรับเซสชันเดียวในสมุดบันทึกหรือโค้ดคําจํากัดความงาน Spark

ค่าเริ่มต้นและข้อกําหนดของการกําหนดค่า

ลักษณะการทํางานเริ่มต้น: การปรับอัตโนมัติจะ ปิด อยู่ตามค่าเริ่มต้น
ไม่จําเป็นต้องตั้งค่าเมื่อปิด: หากคุณไม่เปิดใช้งานการปรับอัตโนมัติ Spark จะใช้ลักษณะการกําหนดค่ามาตรฐาน
การตั้งค่าที่จําเป็นเพื่อใช้การปรับอัตโนมัติ: ตั้งค่า spark.ms.autotune.enabled=true อย่างใดอย่างหนึ่ง:
- ในระดับสภาพแวดล้อม เพื่อให้สมุดบันทึกและงานทั้งหมดที่ใช้สภาพแวดล้อมนั้นสืบทอดการตั้งค่า ดู เปิดใช้งานการปรับอัตโนมัติ
- ในสมุดบันทึกเดียวหรือเซสชัน Spark Job Definition เท่านั้น ดู เปิดใช้งานการปรับอัตโนมัติสําหรับเซสชันเดียว

การปรับแต่งคิวรี

Autotune จะปรับแต่งการตั้งค่า Apache Spark ทั้งสามนี้สําหรับแต่ละคิวรี:

spark.sql.shuffle.partitions: ตั้งค่าจํานวนพาร์ติชันสําหรับการสับเปลี่ยนข้อมูลระหว่างการรวมหรือการรวม ค่าเริ่มต้นคือ 200.
spark.sql.autoBroadcastJoinThreshold: ตั้งค่าขนาดตารางสูงสุดเป็นไบต์เพื่อออกอากาศไปยังโหนดผู้ปฏิบัติงานระหว่างการรวม ค่าเริ่มต้นคือ 10 MB.
spark.sql.files.maxPartitionBytes: ตั้งค่าไบต์สูงสุดที่จะบรรจุลงในพาร์ติชันเดียวเมื่ออ่านไฟล์ นําไปใช้กับแหล่งที่มาของไฟล์ Parquet, JSON และ ORC ค่าเริ่มต้นคือ 128 MB.

การปรับแต่งคิวรีอัตโนมัติจะตรวจสอบแต่ละคิวรีและสร้างโมเดลแมชชีนเลิร์นนิงแยกต่างหากสําหรับคิวรีนั้น ใช้งานได้ดีที่สุดสําหรับ:

การสืบค้นซ้ําๆ
คิวรีที่ทํางานเป็นเวลานาน (มากกว่า 15 วินาที)
การสืบค้น Apache Spark SQL API (ไม่ใช่ RDD API)

คุณสามารถใช้การปรับอัตโนมัติกับสมุดบันทึก ข้อกําหนดงาน Spark และไปป์ไลน์ ประโยชน์จะแตกต่างกันไปตามความซับซ้อนของคิวรีและรูปร่างข้อมูล ในการทดสอบ กําไรที่ใหญ่ที่สุดจะปรากฏในรูปแบบการวิเคราะห์ข้อมูลเชิงสํารวจ เช่น การอ่าน การรวม การรวม และการเรียงลําดับ

ออโต้จูนทํางานอย่างไร

Autotune ใช้ลูปการเพิ่มประสิทธิภาพแบบวนซ้ํา:

เริ่มต้นจากค่าการกําหนดค่า Spark เริ่มต้น
สร้างการตั้งค่าคอนฟิกผู้สมัครรอบพื้นฐาน (เซนทรอยด์)
คาดการณ์ผู้สมัครที่ดีที่สุดโดยใช้แบบจําลองที่ได้รับการฝึกอบรมในการเรียกใช้ก่อนหน้านี้
ใช้ผู้สมัครและดําเนินการสืบค้น
ฟีดผลลัพธ์การดําเนินการกลับเข้าไปในแบบจําลอง

เมื่อเวลาผ่านไป พื้นฐานจะเปลี่ยนไปสู่การตั้งค่าที่ดีขึ้นในขณะที่ลดความเสี่ยงในการถดถอย การใช้จุดข้อมูลที่รวบรวมทั้งหมดยังช่วยลดผลกระทบของความผิดปกติอีกด้วย

เปิดใช้งานการปรับอัตโนมัติ

Autotune พร้อมใช้งานในทุกภูมิภาคการผลิต แต่จะถูกปิดใช้งานตามค่าเริ่มต้น เมื่อต้องการเปิดใช้งานในระดับสภาพแวดล้อม ให้ตั้งค่าคุณสมบัติ spark.ms.autotune.enabled=true Spark ในสภาพแวดล้อมใหม่หรือที่มีอยู่ สมุดบันทึกและงานทั้งหมดที่ใช้สภาพแวดล้อมนั้นจะสืบทอดการตั้งค่า

Autotune มีการตรวจจับการถดถอยในตัว ตัวอย่างเช่น ถ้าคิวรีประมวลผลข้อมูลจํานวนมากผิดปกติ autotune สามารถข้ามการปรับแต่งสําหรับการเรียกใช้นั้นได้โดยอัตโนมัติ ในหลายสถานการณ์ ออโต้จูนต้องทําซ้ําประมาณ 20 ถึง 25 ครั้งเพื่อมาบรรจบกันในการตั้งค่าที่แข็งแกร่ง

Note

Autotune เข้ากันได้กับรันไทม์ 1.2 คุณไม่สามารถเปิดใช้งานในรุ่นรันไทม์ที่ใหม่กว่า 1.2 ไม่ทํางานเมื่อเปิดใช้งานโหมดการทํางานพร้อมกันสูงหรือจุดสิ้นสุดส่วนตัว Autotune ทํางานร่วมกับการปรับขนาดอัตโนมัติในการกําหนดค่าการปรับขนาดอัตโนมัติใดๆ

คุณยังสามารถเปิดใช้งานการปรับอัตโนมัติสําหรับเซสชันเดียวโดยการตั้งค่าคุณสมบัติ Spark ในสมุดบันทึกหรือข้อกําหนดงาน Spark ของคุณ

เปิดใช้งานการปรับอัตโนมัติสําหรับเซสชันเดียว

%%sql
SET spark.ms.autotune.enabled=TRUE

%%pyspark
spark.conf.set('spark.ms.autotune.enabled', 'true')

%%spark
spark.conf.set("spark.ms.autotune.enabled", "true")

%%sparkr
library(SparkR)
sparkR.conf("spark.ms.autotune.enabled", "true")

ปิดใช้งานการปรับอัตโนมัติสําหรับเซสชันเดียว

หากต้องการปิดใช้งานการปรับอัตโนมัติในสมุดบันทึกหรือ Spark Job Definition ให้เรียกใช้คําสั่งใดคําสั่งหนึ่งต่อไปนี้เป็นเซลล์แรกหรือบรรทัดแรกของโค้ด

%%sql 
SET spark.ms.autotune.enabled=FALSE

%%pyspark
spark.conf.set('spark.ms.autotune.enabled', 'false')

%%spark  
spark.conf.set("spark.ms.autotune.enabled", "false")

%%sparkr
library(SparkR)
sparkR.conf("spark.ms.autotune.enabled", "false")

กรณีศึกษา

เมื่อคุณเรียกใช้คิวรี Apache Spark autotune จะสร้างแบบจําลองสําหรับรูปร่างคิวรีนั้น และเรียนรู้การตั้งค่าที่ดีที่สุดเมื่อเวลาผ่านไป ตัวอย่างเช่น เริ่มต้นด้วยแบบสอบถามตัวกรองนี้:

%%pyspark
df.filter(df.country == "country-A")

Autotune เรียนรู้จากการวิ่งครั้งนี้ ถ้าคุณเปลี่ยนเฉพาะค่าตัวกรองในภายหลัง รูปร่างแบบสอบถามจะยังคงคล้ายกัน:

%%pyspark
df.filter(df.country == "country-B")

Autotune สามารถนําการเรียนรู้ก่อนหน้านี้กลับมาใช้ใหม่สําหรับรูปแบบการสืบค้นที่คล้ายกันนี้ ซึ่งช่วยรักษาประสิทธิภาพโดยไม่ต้องปรับใหม่ด้วยตนเอง

Logs

สําหรับแต่ละคิวรี autotune จะคํานวณค่าที่แนะนําสําหรับการกําหนดค่า Spark ที่รองรับสามรายการ หากต้องการตรวจสอบคําแนะนํา ให้ตรวจสอบบันทึกไดรเวอร์สําหรับรายการที่ขึ้นต้นด้วย [Autotune]

สถานะบันทึกทั่วไป ได้แก่

Status	Description
`AUTOTUNE_DISABLED`	Skipped. Autotune ถูกปิดใช้งาน ดังนั้นจึงไม่มีการใช้การรวบรวมและเพิ่มประสิทธิภาพการวัดและส่งข้อมูลทางไกล
`QUERY_TUNING_DISABLED`	Skipped. การปรับแต่งคิวรีถูกปิดใช้งาน
`QUERY_PATTERN_NOT_MATCH`	Skipped. รูปแบบคิวรีไม่ตรงกับชนิดคิวรีแบบอ่านอย่างเดียวที่ได้รับการสนับสนุน
`QUERY_DURATION_TOO_SHORT`	Skipped. คิวรีทํางานน้อยกว่า 15 วินาที ซึ่งสั้นเกินไปสําหรับการปรับแต่งที่มีประสิทธิภาพ
`QUERY_TUNING_SUCCEED`	Success. มีการใช้การตั้งค่า Spark ที่ปรับคิวรีเสร็จสมบูรณ์และปรับให้เหมาะสม

หมายเหตุความโปร่งใส

เพื่อให้สอดคล้องกับมาตรฐาน AI ที่มีความรับผิดชอบ ส่วนนี้จะอธิบายวิธีการใช้และตรวจสอบความถูกต้องของการปรับอัตโนมัติ

วัตถุประสงค์ของ autotune

Autotune ได้รับการออกแบบมาเพื่อปรับปรุงประสิทธิภาพปริมาณงาน Apache Spark สําหรับผู้เชี่ยวชาญด้านข้อมูล มัน:

ปรับแต่งการกําหนดค่า Apache Spark โดยอัตโนมัติเพื่อลดเวลาในการดําเนินการ
ลดความพยายามในการปรับแต่งด้วยตนเอง
ใช้ข้อมูลปริมาณงานในอดีตเพื่อปรับแต่งตัวเลือกการกําหนดค่าซ้ําๆ

การตรวจสอบความถูกต้องของ autotune

Autotune ผ่านการตรวจสอบอย่างละเอียดเพื่อช่วยให้มั่นใจในประสิทธิภาพและความปลอดภัย:

ใช้การทดสอบอย่างเข้มงวดในปริมาณงาน Spark ที่หลากหลายเพื่อตรวจสอบประสิทธิภาพของอัลกอริทึมการปรับแต่ง
เปรียบเทียบกับวิธีการเพิ่มประสิทธิภาพ Spark มาตรฐานเพื่อแสดงให้เห็นถึงประโยชน์ด้านประสิทธิภาพ
รวมกรณีศึกษาในโลกแห่งความเป็นจริงเพื่อแสดงคุณค่าในทางปฏิบัติ
ปฏิบัติตามมาตรฐานความปลอดภัยและความเป็นส่วนตัวที่เข้มงวดเพื่อปกป้องข้อมูลผู้ใช้

ข้อมูลผู้ใช้ถูกใช้เพื่อปรับปรุงประสิทธิภาพการทํางานของปริมาณงานของคุณโดยเฉพาะด้วยการป้องกันที่แข็งแกร่งเพื่อป้องกันการใช้งานในทางที่ผิดหรือการเปิดเผยข้อมูลที่มีความละเอียดอ่อน

คำติชม

หน้านี้มีประโยชน์หรือไม่

Last updated on 2026-03-05