Menggunakan fitur pemeliharaan tabel untuk mengelola tabel delta di Fabric

Lakehouse di Microsoft Fabric menyediakan fitur pemeliharaan Tabel untuk mengelola tabel delta secara efisien dan membuatnya selalu siap untuk analitik. Panduan ini menjelaskan fitur pemeliharaan tabel di Lakehouse dan kemampuannya.

Kemampuan utama fitur pemeliharaan tabel lakehouse:

  • Lakukan pemeliharaan tabel ad-hoc menggunakan tindakan klik kanan kontekstual dalam tabel delta dalam penjelajah Lakehouse.
  • Terapkan pemadatan bin, V-Order, dan pembersihan file lama yang tidak direferensikan.

Catatan

Untuk tugas pemeliharaan lanjutan, seperti mengelompokkan beberapa perintah pemeliharaan tabel, mengaturnya berdasarkan jadwal, pendekatan yang berentrik kode adalah pilihan yang direkomendasikan. Untuk mempelajari selengkapnya, lihat artikel pengoptimalan tabel Delta Lake dan Pesanan V. Dimungkinkan juga untuk menggunakan API Lakehouse untuk mengotomatiskan operasi pemeliharaan tabel, untuk mempelajari lebih lanjut lihat Mengelola Lakehouse dengan Microsoft Fabric REST API.

Jenis file yang didukung

Pemeliharaan tabel Lakehouse hanya berlaku untuk tabel delta Lake. Tabel Apache Hive warisan yang menggunakan PARQUET, ORC, AVRO, CSV, dan format lainnya tidak didukung.

Operasi pemeliharaan tabel

Fitur pemeliharaan tabel menawarkan tiga operasi.

  • Optimalkan: Mengonsolidasikan beberapa file Parquet kecil ke dalam file besar. Mesin pemrosesan Big Data, dan semua mesin Fabric, mendapat manfaat dari memiliki ukuran file yang lebih besar. Memiliki ukuran file di atas 128 MB, dan secara optimal mendekati 1 GB, meningkatkan kompresi dan distribusi data, di seluruh node kluster. Ini mengurangi kebutuhan untuk memindai banyak file kecil untuk operasi baca yang efisien. Ini adalah praktik terbaik umum untuk menjalankan strategi pengoptimalan setelah memuat tabel besar.
  • V-Order: Menerapkan pengurutan, pengodean, dan kompresi yang dioptimalkan ke file parket Delta untuk memungkinkan operasi baca cepat di semua mesin Fabric. V-Order terjadi selama perintah optimalkan, dan disajikan sebagai opsi untuk grup perintah dalam pengalaman pengguna. Untuk mempelajari selengkapnya tentang V-Order, lihat Pengoptimalan tabel Delta Lake dan V-Order.
  • Vakum: Menghapus file lama yang tidak lagi dirujuk oleh log tabel Delta. File harus lebih lama dari ambang retensi, dan ambang retensi file default adalah tujuh hari. Semua tabel delta di OneLake memiliki periode retensi yang sama. Periode retensi file sama terlepas dari mesin komputasi Fabric yang Anda gunakan. Pemeliharaan ini penting untuk mengoptimalkan biaya penyimpanan. Menetapkan periode retensi yang lebih pendek berdampak pada kemampuan perjalanan waktu Delta. Ini adalah praktik terbaik umum untuk mengatur interval retensi ke setidaknya tujuh hari, karena rekam jepret lama dan file yang tidak dikomit masih dapat digunakan oleh pembaca dan penulis tabel bersamaan. Membersihkan file aktif dengan perintah VACUUM dapat menyebabkan kegagalan pembaca atau bahkan kerusakan tabel jika file yang tidak dilakukan dihapus.

Menjalankan pemeliharaan tabel ad-hoc pada tabel Delta menggunakan Lakehouse

Cara menggunakan fitur:

  1. Dari akun Microsoft Fabric Anda, navigasikan ke Lakehouse yang diinginkan.

  2. Dari bagian Tabel penjelajah Lakehouse, klik kanan pada tabel atau gunakan elipsis untuk mengakses menu kontekstual.

  3. Pilih entri menu Pemeliharaan.

  4. Periksa opsi pemeliharaan dalam dialog sesuai kebutuhan Anda. Untuk informasi selengkapnya, lihat bagian Operasi pemeliharaan tabel di artikel ini.

  5. Pilih Jalankan sekarang untuk menjalankan pekerjaan pemeliharaan tabel.

  6. Lacak eksekusi pekerjaan pemeliharaan oleh panel pemberitahuan, atau pengalaman Hub Pemantauan.

    Cuplikan layar memperlihatkan kotak dialog muat ke tabel dengan nama tabel terisi.

Bagaimana cara kerja pemeliharaan tabel?

Setelah Jalankan sekarang dipilih, pekerjaan pemeliharaan Spark dikirimkan untuk eksekusi.

  1. Pekerjaan Spark dikirimkan menggunakan identitas pengguna dan hak istimewa tabel.
  2. Pekerjaan Spark menggunakan kapasitas Fabric dari ruang kerja/pengguna yang mengirimkan pekerjaan.
  3. Jika ada pekerjaan pemeliharaan lain yang berjalan pada tabel, pekerjaan baru ditolak.
  4. Pekerjaan pada tabel yang berbeda dapat dijalankan secara paralel.
  5. Pekerjaan pemeliharaan tabel dapat dengan mudah dilacak di Hub Pemantauan. Cari teks "TableMaintenance" dalam kolom nama aktivitas di halaman utama hub pemantauan.