BUAT INDEKS FILTER BLOOM

Berlaku untuk:centang ditandai ya pemeriksaan Databricks SQL ditandai ya Databricks Runtime

Membuat indeks filter Bloom untuk data baru atau yang ditulis ulang; ini tidak membuat filter Bloom untuk data yang ada. Perintah gagal jika nama tabel atau salah satu kolom tidak ada. Jika pemfilteran Bloom diaktifkan untuk kolom, opsi filter Bloom yang ada digantikan oleh opsi baru.

Sintaks

CREATE BLOOMFILTER INDEX
ON [TABLE] table_name
FOR COLUMNS( { columnName1 [ options ] } [, ...] )
[ options ]

options
  OPTIONS ( { key1 [ = ] val1 } [, ...] )

Parameter

Meskipun tidak dimungkinkan untuk membangun indeks filter Bloom untuk data yang sudah ditulis, perintah OPTIMIZE memperbarui filter Bloom untuk data yang diatur ulang. Oleh karena itu, Anda dapat mengisi ulang filter Bloom dengan menjalankan OPTIMIZE pada tabel:

  • Jika sebelumnya Anda belum mengoptimalkan tabel.
  • Dengan ukuran file yang berbeda, mengharuskan file data ditulis ulang.
  • ZORDER Dengan (atau berbeda ZORDER, jika sudah ada), mengharuskan file data ditulis ulang.

Anda dapat menyempurnakan filter Bloom dengan menentukan opsi di tingkat kolom atau di tingkat tabel:

  • fpp: Probabilitas positif palsu. Tingkat positif palsu yang diinginkan per filter Bloom tertulis. Ini memengaruhi jumlah bit yang diperlukan untuk menempatkan satu item di filter Bloom dan memengaruhi ukuran filter Bloom. Nilai harus lebih besar dari 0 dan lebih kecil dari atau sama dengan 1. Nilai defaultnya adalah 0,1 yang memerlukan 5 bit per item.
  • numItems: Jumlah item berbeda yang dapat dimuat file. Pengaturan ini penting untuk kualitas pemfilteran karena memengaruhi jumlah total bit yang digunakan dalam filter Bloom (jumlah item - jumlah bit per item). Jika pengaturan ini salah, filter Bloom diisi dengan sangat jarang, membuang-buang ruang disk dan memperlambat kueri yang harus mengunduh file ini, atau terlalu penuh dan kurang akurat (FPP yang lebih tinggi). Nilai harus lebih besar dari 0. Defaultnya adalah 1 juta item.
  • maxExpectedFpp: Probabilitas positif palsu maksimum yang diharapkan di mana filter Bloom ditulis ke disk. Jika FPP yang diharapkan lebih besar dari ambang batas ini, selektivitas filter Bloom terlalu rendah; waktu dan sumber daya yang diperlukan untuk menggunakan filter Bloom melebihi kegunaannya. Nilai harus antara 0 dan 1. Defaultnya adalah 1.0 (dinonaktifkan).

Opsi ini hanya memainkan peran saat menulis data. Anda dapat mengonfigurasi properti ini di berbagai tingkat hierarkis: operasi tulis, tingkat tabel, dan tingkat kolom. Tingkat kolom lebih diutamakan daripada tingkat tabel dan operasi, dan tingkat tabel lebih diutamakan daripada tingkat operasi.

Lihat Indeks filter Bloom.