Apa itu autotune untuk konfigurasi Apache Spark di Fabric?

Autotune secara otomatis menyesuaikan konfigurasi Apache Spark untuk mempercepat eksekusi beban kerja dan untuk mengoptimalkan performa keseluruhan. Autotune menghemat waktu dan sumber daya dibandingkan dengan penyetelan manual yang, membutuhkan upaya, sumber daya, waktu, dan eksperimen yang luas. Autotune menggunakan data eksekusi historis dari beban kerja Anda untuk secara berulang menemukan dan menerapkan konfigurasi paling efektif untuk beban kerja tertentu.

Penting

Fitur ini sedang dalam tahap pratinjau.

Catatan

Fitur penyetelan kueri penyetelan otomatis di Microsoft Fabric saat ini dalam pratinjau. Autotune tersedia di semua wilayah produksi tetapi dinonaktifkan secara default. Anda dapat mengaktifkannya melalui pengaturan konfigurasi Spark dalam lingkungan atau dalam satu sesi dengan menyertakan pengaturan Spark masing-masing di buku catatan Spark atau kode Definisi Pekerjaan Spark Anda.

Penyetelan kueri

Autotune mengonfigurasi tiga pengaturan Apache Spark untuk setiap kueri Anda secara terpisah:

spark.sql.shuffle.partitions - Mengatur jumlah partisi untuk pengacakan data selama gabungan atau agregasi. Nilai defaultnya adalah 200.
spark.sql.autoBroadcastJoinThreshold - Mengatur ukuran tabel maksimum dalam byte yang disiarkan ke semua simpul pekerja saat operasi gabungan dijalankan. Nilai defaultnya adalah 10 MB.
spark.sql.files.maxPartitionBytes - Mendefinisikan jumlah maksimum byte untuk dikemas ke dalam satu partisi saat membaca file. Berfungsi untuk sumber berbasis file Parquet, JSON, dan ORC. Defaultnya adalah 128 MB.

Petunjuk / Saran

Penyetelan kueri otomatis memeriksa kueri individual dan membangun model pembelajaran mesin (ML) yang berbeda untuk setiap kueri. Ini secara khusus menargetkan:

Kueri berulang
Kueri yang berjalan lama (dengan waktu eksekusi lebih dari 15 detik)
Kueri Apache Spark SQL API (tidak termasuk kueri yang ditulis dalam API RDD, yang jarang terjadi), tetapi kami mengoptimalkan semua kueri terlepas dari bahasa (Scala, PySpark, R, Spark SQL) Fitur ini kompatibel dengan notebook, definisi pekerjaan Apache Spark, dan alur. Manfaatnya bervariasi berdasarkan kompleksitas kueri, metode yang digunakan, dan strukturnya. Pengujian ekstensif telah menunjukkan bahwa keuntungan terbesar diwujudkan dengan kueri yang terkait dengan analisis data eksploratif, seperti membaca data, menjalankan gabungan, agregasi, dan pengurutan.

Intuisi berbasis AI di balik penyetelan otomatis

Fitur autotune menggunakan proses berulang untuk mengoptimalkan performa kueri. Ini dimulai dengan konfigurasi default dan menggunakan model pembelajaran mesin untuk mengevaluasi efektivitas. Saat pengguna mengirimkan kueri, sistem mengambil model yang disimpan berdasarkan interaksi sebelumnya. Ini menghasilkan konfigurasi potensial di sekitar pengaturan default bernama sentroid. Kandidat terbaik yang diprediksi oleh model kemudian diterapkan. Setelah eksekusi kueri, data performa dikirim kembali ke sistem untuk memperbaiki model.

Perulangan umpan balik secara bertahap mengalihkan sentroid ke pengaturan optimal. Ini menyempurnakan performa dari waktu ke waktu sambil meminimalkan risiko regresi. Pembaruan berkelanjutan berdasarkan kueri pengguna memungkinkan penyempurnaan tolok ukur performa. Selain itu, proses memperbarui konfigurasi sentroid untuk memastikan model bergerak ke pengaturan yang lebih efisien secara bertahap. Hal ini dicapai dengan mengevaluasi performa sebelumnya dan menggunakannya untuk memandu penyesuaian di masa mendatang. Ini menggunakan semua poin data untuk mengurangi dampak anomali.

Dari perspektif AI yang bertanggung jawab, fitur autotune mencakup mekanisme transparansi yang dirancang untuk memberi Anda informasi tentang penggunaan dan manfaat data Anda. Keamanan dan privasi selaras dengan standar Microsoft. Pemantauan yang sedang berlangsung mempertahankan performa dan integritas sistem pasca-peluncuran.

Aktifkan penyetelan otomatis

Autotune tersedia di semua wilayah produksi tetapi dinonaktifkan secara default. Anda dapat mengaktifkannya melalui pengaturan konfigurasi Spark dalam lingkungan. Untuk mengaktifkan autotune, buat lingkungan baru atau, untuk lingkungan yang ada, atur properti Spark 'spark.ms.autotune.enabled = true' seperti yang ditunjukkan pada cuplikan layar di bawah ini. Pengaturan ini kemudian diwariskan oleh semua buku catatan dan pekerjaan yang berjalan di lingkungan tersebut, secara otomatis menyetelnya.

Autotune mencakup mekanisme bawaan untuk memantau performa dan mendeteksi regresi performa. Misalnya, jika kueri memproses data dalam jumlah besar yang tidak biasa, autotune secara otomatis akan dinonaktifkan. Biasanya memerlukan 20 hingga 25 iterasi untuk mempelajari dan mengidentifikasi konfigurasi optimal.

Catatan

Autotune kompatibel dengan Fabric Runtime 1.1 dan Runtime 1.2. Ini tidak dapat diaktifkan pada versi runtime yang lebih tinggi dari 1.2. Autotune tidak berfungsi saat mode konkurensi tinggi atau saat endpoint privat diaktifkan. Namun, autotune terintegrasi dengan mulus dengan penskalaan otomatis, terlepas dari konfigurasi apapun.

Anda dapat mengaktifkan penyetelan otomatis dalam satu sesi dengan menyertakan pengaturan Spark masing-masing di buku catatan Spark atau kode Definisi Pekerjaan Spark Anda.

%%sql
SET spark.ms.autotune.enabled=TRUE

%%pyspark
spark.conf.set('spark.ms.autotune.enabled', 'true')

%%spark
spark.conf.set("spark.ms.autotune.enabled", "true")

%%sparkr
library(SparkR)
sparkR.conf("spark.ms.autotune.enabled", "true")

Anda dapat mengontrol penyetelan otomatis melalui pengaturan Spark untuk buku catatan Spark atau kode definisi kerja Spark Anda masing-masing. Untuk menonaktifkan autotune, jalankan perintah berikut sebagai sel pertama dalam notebook atau baris kode (SJD).

%%sql 
SET spark.ms.autotune.enabled=FALSE

%%pyspark
spark.conf.set('spark.ms.autotune.enabled', 'false')

%%spark  
spark.conf.set('spark.ms.autotune.enabled', 'false')

%%sparkr
library(SparkR)
sparkR.conf("spark.ms.autotune.enabled", "false")

Studi kasus

Saat Anda menjalankan kueri Apache Spark, autotune membuat model ML yang dikustomisasi yang didedikasikan untuk mengoptimalkan eksekusi kueri. Ini menganalisis pola kueri dan kebutuhan sumber daya. Pertimbangkan kueri awal yang memfilter himpunan data berdasarkan atribut tertentu, seperti negara. Meskipun contoh ini menggunakan pemfilteran geografis, prinsip ini berlaku secara universal untuk atribut atau operasi apa pun dalam kueri:

%%pyspark
df.filter(df.country == "country-A")

Autotune belajar dari kueri ini, mengoptimalkan eksekusi berikutnya. Saat kueri berubah, misalnya, dengan mengubah nilai filter atau menerapkan transformasi data yang berbeda, esensi struktural kueri sering kali tetap konsisten:

%%pyspark
df.filter(df.country == "country-B")

Meskipun ada perubahan, autotune mengidentifikasi struktur dasar kueri baru, menerapkan pengoptimalan yang dipelajari sebelumnya. Kemampuan ini memastikan efisiensi tinggi berkelanjutan tanpa perlu konfigurasi ulang manual untuk setiap perulangan kueri baru.

Log

Untuk setiap kueri Anda, Autotune menentukan pengaturan paling optimal untuk tiga konfigurasi Spark. Anda dapat melihat pengaturan yang disarankan dengan menavigasi ke log. Konfigurasi yang direkomendasikan oleh autotune terletak di log driver, khususnya entri yang dimulai dengan [Autotune].

Anda dapat menemukan berbagai jenis entri di log Anda. Berikut ini adalah poin-poin kunci:

Keadaan	Deskripsi
AUTOTUNE_NONAKTIF	Dilewati. Autotune dinonaktifkan; mencegah pengambilan data telemetri dan pengoptimalan kueri. Aktifkan Autotune untuk sepenuhnya menggunakan kemampuannya sambil menghormati privasi pelanggan.".
Penyetelan Kuery Dinonaktifkan	Dilewati. Penyetelan kueri autotuning dinonaktifkan. Aktifkan untuk menyempurnakan pengaturan untuk kueri Spark SQL Anda.
POLA_PERTANYAAN_TIDAK_SESUAI	Dilewati. Pola kueri tidak cocok. Autotune efektif untuk kueri baca-saja.
DURASI_PERTANYAAN_TERLALU_PENDEK	Dilewati. Durasi kueri Anda terlalu pendek untuk dioptimalkan. Autotune memerlukan kueri yang lebih panjang untuk penyetelan yang efektif. Kueri harus dijalankan setidaknya selama 15 detik.
PENYETELAN_QUERY_BERHASIL	Sukses. Penyetelan kueri selesai. Pengaturan spark optimal diterapkan.

Catatan transparansi

Sesuai dengan Standar AI yang Bertanggung Jawab, bagian ini bertujuan untuk mengklarifikasi penggunaan dan validasi fitur Autotune, mempromosikan transparansi dan mengaktifkan pengambilan keputusan berdasarkan informasi.

Tujuan penyetelan otomatis

Autotune dikembangkan untuk meningkatkan efisiensi beban kerja Apache Spark, terutama untuk profesional data. Fungsi utamanya meliputi:

Mengotomatiskan penyetelan konfigurasi Apache Spark untuk mengurangi waktu eksekusi.
Meminimalkan upaya penyetelan manual.
Menggunakan data beban kerja historis untuk menyempurnakan konfigurasi secara berulang.

Validasi autotune

Autotune menjalani pengujian ekstensif untuk memastikan efektivitas dan keamanannya:

Pengujian ketat dengan beragam beban kerja Spark untuk memverifikasi kemanjuran algoritma penyetelan.
Melakukan tolok ukur terhadap standar metode pengoptimalan Spark untuk menunjukkan manfaat performa.
Studi kasus dunia nyata menyoroti nilai praktis Autotune.
Kepatuhan terhadap standar keamanan dan privasi yang ketat untuk melindungi data pengguna.

Data pengguna secara eksklusif digunakan untuk meningkatkan performa beban kerja Anda, dengan perlindungan yang kuat untuk mencegah penyalahgunaan atau paparan informasi sensitif.

Batas konkurensi dan antrean di Apache Spark untuk Microsoft Fabric

Saran dan Komentar

Apakah halaman ini membantu?

Last updated on 2025-07-18