Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Pengoptimalan prediktif secara otomatis berjalan OPTIMIZE pada tabel terkelola Unity Catalog. Databricks merekomendasikan untuk mengaktifkan pengoptimalan prediktif untuk semua tabel terkelola Unity Catalog untuk menyederhanakan pemeliharaan data dan mengurangi biaya penyimpanan. Lihat Pengoptimalan prediktif untuk tabel yang dikelola oleh Unity Catalog.
Perintah OPTIMIZE menulis ulang file data untuk meningkatkan tata letak data untuk tabel. Untuk tabel dengan pengklusteran cair diaktifkan, OPTIMIZE tulis ulang file data untuk mengelompokkan data dengan kunci pengklusteran cair. Untuk tabel dengan partisi yang ditentukan, pemadatan file dan tata letak data dilakukan dalam partisi.
Tabel tanpa pengklusteran cair dapat secara opsional menyertakan ZORDER BY klausul untuk meningkatkan pengklusteran data pada penulisan ulang. Databricks merekomendasikan penggunaan pengklusteran cair alih-alih partisi, ZORDER, atau pendekatan tata letak data lainnya.
Catatan
ZORDER adalah sebuah pengoptimalan khusus Delta Lake. Tabel Apache Iceberg menggunakan strategi pengklusteran dan pengurutan sebagai gantinya.
Lihat OPTIMIZE.
Penting
Di Databricks Runtime 16.0 ke atas, Anda dapat menggunakan OPTIMIZE FULL untuk memaksa pengklusteran ulang untuk tabel dengan fitur pengklusteran cair diaktifkan. Lihat Force reclustering untuk semua rekaman.
Contoh sintaks
Untuk memicu pemadatan, jalankan perintah OPTIMIZE:
SQL
OPTIMIZE table_name
Phyton
API Python DeltaTable secara khusus untuk Delta Lake.
from delta.tables import *
deltaTable = DeltaTable.forName(spark, "table_name")
deltaTable.optimize().executeCompaction()
Scala
API Scala DeltaTable secara khusus ditujukan untuk Delta Lake.
import io.delta.tables._
val deltaTable = DeltaTable.forName(spark, "table_name")
deltaTable.optimize().executeCompaction()
Jika Anda memiliki sejumlah besar data dan hanya ingin mengoptimalkan subsetnya, tentukan predikat partisi opsional menggunakan WHERE:
SQL
OPTIMIZE table_name WHERE date >= '2022-11-18'
Phyton
API Python DeltaTable secara khusus untuk Delta Lake.
from delta.tables import *
deltaTable = DeltaTable.forName(spark, "table_name")
deltaTable.optimize().where("date='2021-11-18'").executeCompaction()
Scala
API Scala DeltaTable secara khusus ditujukan untuk Delta Lake.
import io.delta.tables._
val deltaTable = DeltaTable.forName(spark, "table_name")
deltaTable.optimize().where("date='2021-11-18'").executeCompaction()
Catatan
- Pengoptimalan pengemasan kotak bersifat idempoten, sehingga jika dijalankan dua kali pada himpunan data yang sama, pengulangan kedua tidak berpengaruh.
- Bin-packing bertujuan untuk menghasilkan file data yang seimbang dari segi ukurannya di disk, tetapi tidak selalu dari segi jumlah tuple per file. Namun, kedua ukuran tersebut paling sering berhubungan.
- API Python dan Scala untuk mengeksekusi
OPTIMIZEoperasi tersedia dari Databricks Runtime 11.3 LTS ke atas.
Pembaca tabel Delta menggunakan isolasi snapshot, yang berarti bahwa mereka tidak terganggu ketika OPTIMIZE menghapus file yang tidak perlu dari log transaksi.
OPTIMIZE tidak membuat perubahan terkait data pada tabel, jadi pembacaan sebelum dan sesudah OPTIMIZE memiliki hasil yang sama. Menjalankan OPTIMIZE di atas tabel yang merupakan sumber streaming tidak memengaruhi aliran saat ini atau masa mendatang yang memperlakukan tabel ini sebagai sumber.
OPTIMIZE mengembalikan statistik file (min, max, total, dan sebagainya) untuk file yang dihapus dan file yang ditambahkan oleh operasi. Optimalkan statistik juga berisi statistik Z-Ordering, jumlah batch, dan partisi yang dioptimalkan.
Anda juga dapat memampatkan file kecil secara otomatis menggunakan pemadatan otomatis. Lihat Pemadatan otomatis.
Seberapa sering saya harus menjalankan OPTIMIZE?
Aktifkan pengoptimalan prediktif untuk tabel terkelola Unity Catalog untuk memastikan bahwa OPTIMIZE berjalan secara otomatis saat hemat biaya.
Ketika Anda memilih seberapa sering untuk menjalankan OPTIMIZE, ada konsekuensi antara kinerja dan biaya. Untuk performa kueri pengguna akhir yang lebih baik, jalankan OPTIMIZE lebih sering. Ini akan dikenakan biaya yang lebih tinggi karena peningkatan penggunaan sumber daya. Untuk mengoptimalkan biaya, jalankan lebih jarang.
Databricks merekomendasikan agar Anda mulai dengan menjalankan OPTIMIZE setiap hari, kemudian menyesuaikan frekuensi untuk menyeimbangkan biaya dan kompromi performa.
Apa jenis instans terbaik untuk menjalankan OPTIMIZE (bin-packing dan Z-Ordering)?
Kedua operasi adalah operasi intensif CPU yang melakukan banyak sekali dekode dan kode Parquet.
Databricks merekomendasikan jenis instans komputasi yang dioptimalkan .
OPTIMIZE juga mendapat manfaat dari SSD yang terpasang.