Bagikan melalui


Pengantar Databricks Lakehouse Monitoring

Artikel ini menjelaskan Pemantauan Databricks Lakehouse. Ini mencakup manfaat memantau data Anda dan memberikan gambaran umum tentang komponen dan penggunaan Databricks Lakehouse Monitoring.

Pemantauan Databricks Lakehouse memungkinkan Anda memantau properti statistik dan kualitas data di semua tabel di akun Anda. Anda juga dapat menggunakannya untuk melacak performa model pembelajaran mesin dan titik akhir penyajian model dengan memantau tabel inferensi yang berisi input dan prediksi model. Diagram menunjukkan aliran data melalui data dan alur ML di Databricks, dan bagaimana Anda dapat menggunakan pemantauan untuk terus melacak kualitas data dan performa model.

Gambaran umum Pemantauan Databricks Lakehouse

Mengapa menggunakan Databricks Lakehouse Monitoring?

Untuk menarik wawasan yang berguna dari data Anda, Anda harus memiliki keyakinan pada kualitas data Anda. Pemantauan data Anda menyediakan langkah-langkah kuantitatif yang membantu Anda melacak dan mengonfirmasi kualitas dan konsistensi data Anda dari waktu ke waktu. Saat Anda mendeteksi perubahan dalam distribusi data tabel atau performa model terkait, tabel yang dibuat oleh Databricks Lakehouse Monitoring dapat menangkap dan memberi tahu Anda perubahan tersebut dan dapat membantu Anda mengidentifikasi penyebabnya.

Databricks Lakehouse Monitoring membantu Anda menjawab pertanyaan seperti berikut:

  • Seperti apa integritas data, dan bagaimana perubahannya dari waktu ke waktu? Misalnya, berapa pecahan nilai null atau nol dalam data saat ini, dan apakah nilai tersebut meningkat?
  • Seperti apa distribusi statistik data, dan bagaimana perubahannya dari waktu ke waktu? Misalnya, apa persentil ke-90 dari kolom numerik? Atau, apa distribusi nilai dalam kolom kategoris, dan bagaimana perbedaannya dengan kemarin?
  • Apakah ada penyimpangan antara data saat ini dan garis besar yang diketahui, atau antara jendela waktu data yang berturut-turut?
  • Seperti apa distribusi statistik atau penyimpangan subset atau iringan data?
  • Bagaimana input dan prediksi model ML bergeser dari waktu ke waktu?
  • Bagaimana performa model tren dari waktu ke waktu? Apakah versi model A berkinerja lebih baik daripada versi B?

Selain itu, Databricks Lakehouse Monitoring memungkinkan Anda mengontrol granularitas waktu pengamatan dan menyiapkan metrik kustom.

Persyaratan

Berikut ini diperlukan untuk menggunakan Databricks Lakehouse Monitoring:

  • Ruang kerja Anda harus diaktifkan untuk Unity Catalog dan Anda harus memiliki akses ke Databricks SQL.
  • Hanya tabel Delta yang didukung untuk pemantauan, dan tabel harus merupakan salah satu jenis tabel berikut: tabel terkelola, tabel eksternal, tampilan, tampilan materialisasi, atau tabel streaming.
  • Monitor yang dibuat atas tampilan materialisasi dan tabel streaming tidak mendukung pemrosesan bertahap.
  • Tidak semua wilayah didukung. Untuk dukungan regional, lihat kolom Komputasi tanpa server untuk buku catatan dan alur kerja dalam tabel Fitur dengan ketersediaan regional terbatas.

Catatan

Databricks Lakehouse Monitoring menggunakan komputasi tanpa server untuk alur kerja. Untuk informasi tentang melacak pengeluaran Pemantauan Lakehouse, lihat Melihat pengeluaran Pemantauan Lakehouse.

Cara kerja Pemantauan Lakehouse di Databricks

Untuk memantau tabel di Databricks, Anda membuat monitor yang dilampirkan ke tabel. Untuk memantau performa model pembelajaran mesin, Anda melampirkan monitor ke tabel inferensi yang menyimpan input model dan prediksi yang sesuai.

Databricks Lakehouse Monitoring menyediakan jenis analisis berikut: rangkaian waktu, rekam jepret, dan inferensi.

Jenis profil Deskripsi
Deret waktu Gunakan untuk tabel yang berisi himpunan data rangkaian waktu berdasarkan kolom tanda waktu. Pemantauan menghitung metrik kualitas data di seluruh jendela berbasis waktu dari rangkaian waktu.
Inferensi Gunakan untuk tabel yang berisi log permintaan untuk model. Setiap baris adalah permintaan, dengan kolom untuk tanda waktu , input model, prediksi yang sesuai, dan label kebenaran dasar (opsional). Pemantauan membandingkan performa model dan metrik kualitas data di seluruh jendela berbasis waktu log permintaan.
Snapshot Gunakan untuk semua jenis tabel lainnya. Pemantauan menghitung metrik kualitas data atas semua data dalam tabel. Tabel lengkap diproses dengan setiap refresh.

Bagian ini secara singkat menjelaskan tabel input yang digunakan oleh Databricks Lakehouse Monitoring dan tabel metrik yang dihasilkannya. Diagram menunjukkan hubungan antara tabel input, tabel metrik, monitor, dan dasbor.

Diagram Pemantauan Databricks Lakehouse

Tabel utama dan tabel garis besar

Selain tabel yang akan dipantau, yang disebut "tabel utama", Anda dapat secara opsional menentukan tabel garis besar untuk digunakan sebagai referensi untuk mengukur penyimpangan, atau perubahan nilai dari waktu ke waktu. Tabel garis besar berguna saat Anda memiliki sampel seperti apa data yang Anda harapkan. Idenya adalah bahwa penyimpangan kemudian dihitung relatif terhadap nilai dan distribusi data yang diharapkan.

Tabel garis besar harus berisi himpunan data yang mencerminkan kualitas data input yang diharapkan, dalam hal distribusi statistik, distribusi kolom individual, nilai yang hilang, dan karakteristik lainnya. Ini harus cocok dengan skema tabel yang dipantau. Pengecualian adalah kolom tanda waktu untuk tabel yang digunakan dengan rangkaian waktu atau profil inferensi. Jika kolom hilang dalam tabel utama atau tabel garis besar, pemantauan menggunakan heuristik upaya terbaik untuk menghitung metrik output.

Untuk monitor yang menggunakan profil rekam jepret, tabel garis besar harus berisi rekam jepret data di mana distribusi mewakili standar kualitas yang dapat diterima. Misalnya, pada data distribusi nilai, seseorang mungkin mengatur garis besar ke kelas sebelumnya di mana nilai didistribusikan secara merata.

Untuk monitor yang menggunakan profil rangkaian waktu, tabel garis besar harus berisi data yang mewakili jendela waktu di mana distribusi data mewakili standar kualitas yang dapat diterima. Misalnya, pada data cuaca, Anda mungkin mengatur garis besar ke minggu, bulan, atau tahun di mana suhu mendekati suhu normal yang diharapkan.

Untuk monitor yang menggunakan profil inferensi, pilihan yang baik untuk garis besar adalah data yang digunakan untuk melatih atau memvalidasi model yang sedang dipantau. Dengan cara ini, pengguna dapat diberi tahu ketika data telah melayang relatif terhadap apa model dilatih dan divalidasi. Tabel ini harus berisi kolom fitur yang sama dengan tabel utama, dan juga harus memiliki hal yang sama model_id_col yang ditentukan untuk InferenceLog tabel utama sehingga data dikumpulkan secara konsisten. Idealnya, set pengujian atau validasi yang digunakan untuk mengevaluasi model harus digunakan untuk memastikan metrik kualitas model yang sebanding.

Tabel metrik dan dasbor

Monitor tabel membuat dua tabel metrik dan dasbor. Nilai metrik dihitung untuk seluruh tabel, dan untuk jendela waktu dan subset data (atau "irisan") yang Anda tentukan saat membuat monitor. Selain itu, untuk analisis inferensi, metrik dihitung untuk setiap ID model. Untuk detail selengkapnya tentang tabel metrik, lihat Memantau tabel metrik.

  • Tabel metrik profil berisi statistik ringkasan. Lihat skema tabel metrik profil.
  • Tabel metrik drift berisi statistik yang terkait dengan penyimpangan data dari waktu ke waktu. Jika tabel garis besar disediakan, penyimpangan juga dipantau relatif terhadap nilai dasar. Lihat skema tabel metrik drift.

Tabel metrik adalah tabel Delta dan disimpan dalam skema Katalog Unity yang Anda tentukan. Anda dapat melihat tabel ini menggunakan UI Databricks, mengkuerinya menggunakan Databricks SQL, dan membuat dasbor dan pemberitahuan berdasarkan tabel tersebut.

Untuk setiap monitor, Databricks secara otomatis membuat dasbor untuk membantu Anda memvisualisasikan dan menyajikan hasil monitor. Dasbor sepenuhnya dapat disesuaikan seperti dasbor warisan lainnya.

Mulai menggunakan Pemantauan Lakehouse di Databricks

Lihat artikel berikut ini untuk memulai: