Bagikan melalui


Ukuran tabel di Azure Databricks

Ukuran tabel yang dilaporkan untuk tabel Azure Databricks berbeda dari ukuran total direktori file yang sesuai dalam penyimpanan objek cloud. Halaman ini membahas mengapa perbedaan ini ada dan rekomendasi untuk mengontrol biaya.

Mengapa ukuran tabel saya tidak cocok dengan ukuran direktori?

Ukuran tabel yang dilaporkan di Azure Databricks melalui UI dan DESCRIBE perintah merujuk ke ukuran total file data pada disk untuk file-file yang direferensikan dalam versi tabel saat ini. Sebagian besar operasi yang menulis ke tabel memerlukan penulisan ulang file data yang mendasarinya, tetapi file data lama dipertahankan untuk jangka waktu tertentu untuk mendukung kueri perjalanan waktu.

Catatan

Jika Anda secara teratur menghapus atau memperbarui rekaman dalam tabel, vektor penghapusan dapat mempercepat kueri dan mengurangi ukuran total file data. Lihat Vektor penghapusan di Databricks.

Menghitung metrik penyimpanan untuk tabel

Berlaku untuk:ditandai dengan ya Databricks Runtime 18.0 ke atas

Untuk memahami mengapa ukuran penyimpanan total berbeda dari ukuran tabel, gunakan ANALYZE TABLE … COMPUTE STORAGE METRICS. Perintah ini menyediakan perincian terperinci alokasi penyimpanan, membantu Anda:

  • Mengidentifikasi peluang pengoptimalan biaya: Lihat berapa banyak penyimpanan yang dapat diklaim kembali dengan VACUUM
  • Menganalisis pengeluaran terkait penelusuran waktu: Memahami biaya penyimpanan data historis
  • Melacak pola penyimpanan: Memantau bagaimana penyimpanan tabel berkembang dari waktu ke waktu dengan menjalankan perintah secara berkala
  • Mengaudit penyimpanan di seluruh tabel: Jalankan perintah dalam sebuah perulangan untuk menganalisis seluruh sumber daya data Anda

Perintah mengembalikan metrik komprehensif termasuk:

  • Total ukuran penyimpanan: Melengkapi jejak termasuk semua data, metadata, dan log
  • Data aktif: Ukuran versi tabel saat ini
  • Data yang dapat dikosongkan: Ruang yang dapat diklaim kembali
  • Data perjalanan waktu: Data historis untuk pemutaran kembali

Ini sangat berharga untuk tabel terkelola Unity Catalog di mana Azure Databricks secara otomatis mengelola penyimpanan melalui pengoptimalan prediktif.

Lihat METRIK PENYIMPANAN KOMPUTASI untuk sintaks dan contoh lengkap.

Menggunakan pengoptimalan prediktif untuk mengontrol ukuran data

Databricks merekomendasikan penggunaan tabel terkelola Unity Catalog dengan pengoptimalan prediktif diaktifkan. Dengan tabel terkelola dan pengoptimalan prediktif, Databricks secara otomatis menjalankan OPTIMIZE dan VACUUM perintah untuk mencegah penumpukan file data yang tidak digunakan. Harapkan selalu ada perbedaan ukuran antara versi tabel saat ini dan ukuran total file data di penyimpanan objek cloud. Ini karena file data yang tidak direferensikan dalam versi saat ini diperlukan untuk mendukung kueri perjalanan waktu. Lihat pengoptimalan prediktif untuk tabel terkelola Unity Catalog.

Metrik file apa yang dilaporkan VACUUM ?

Saat Anda membersihkan file data yang tidak digunakan dengan VACUUM atau menggunakan DRY RUN untuk mempratinjau file yang diatur untuk dihapus, metrik melaporkan jumlah file dan ukuran data yang dihapus. Ukuran dan jumlah file yang dihapus oleh VACUUM bervariasi secara drastis, tetapi tidak jarang ukuran file yang dihapus melebihi ukuran total versi tabel saat ini.

Metrik file apa yang dilaporkan OPTIMIZE ?

Saat OPTIMIZE berjalan pada tabel target, file data baru menggabungkan rekaman dari file data yang ada. Perubahan yang dilakukan selama OPTIMIZE hanya memengaruhi organisasi data, dan tidak ada perubahan pada konten data yang mendasar yang terjadi. Ukuran total file data yang terkait dengan tabel meningkat setelah OPTIMIZE berjalan, karena file ringkas baru berdampingan dalam direktori yang berisi dengan file data yang tidak lagi direferensikan.

Ukuran tabel yang dilaporkan setelah OPTIMIZE umumnya lebih kecil dari ukuran sebelum OPTIMIZE berjalan, karena ukuran total file data yang direferensikan oleh versi tabel saat ini berkurang dengan pemadatan data. VACUUM harus dijalankan setelah ambang batas retensi tercapai untuk menghapus file data yang mendasarinya.

Catatan

Anda mungkin melihat metrik serupa untuk operasi seperti REORG TABLE atau DROP FEATURE. Semua operasi yang memerlukan penulisan ulang file data meningkatkan ukuran total data dalam direktori yang berisi hingga VACUUM menghapus file data yang tidak lagi direferensikan dalam versi tabel saat ini.