Tabel inferensi untuk memantau dan men-debug model

Penting

Fitur ini ada di Pratinjau Publik.

Penting

Artikel ini menjelaskan pengalaman menggunakan tabel inferensi versi lama, yang hanya relevan untuk throughput yang telah ditetapkan dan titik akhir penyajian model kustom.

  • Mulai 20 Februari 2026, tabel inferensi warisan tidak dapat diaktifkan pada model baru atau yang sudah ada yang melayani titik akhir.
  • Mulai 30 April 2026, pengalaman tabel inferensi warisan tidak akan lagi didukung.

Databricks merekomendasikan tabel inferensi yang didukung AI Gateway untuk ketersediaannya pada model kustom, model fondasi, dan agen yang melayani titik akhir. Lihat Memigrasikan ke tabel inferensi Gateway AI untuk instruksi tentang migrasi ke tabel inferensi dengan dukungan Gateway AI.

Catatan

Jika Anda melayani aplikasi AI gen di Databricks, Anda dapat menggunakan pemantauan AI gen Databricks untuk menyiapkan tabel inferensi secara otomatis dan melacak metrik operasional dan kualitas untuk aplikasi Anda.

Artikel ini menjelaskan tabel inferensi untuk memantau model yang dilayani. Diagram berikut menunjukkan alur kerja umum dengan tabel inferensi. Tabel inferensi secara otomatis menangkap permintaan masuk dan respons keluar untuk endpoint layanan model dan mencatatnya sebagai tabel Delta Unity Catalog. Anda dapat menggunakan data dalam tabel ini untuk memantau, men-debug, dan meningkatkan model ML.

alur kerja tabel Inferensi

Apa itu tabel inferensi?

Memantau performa model dalam alur kerja produksi adalah aspek penting dari siklus hidup model AI dan ML. Tabel inferensi mempermudah pemantauan dan diagnostik untuk model dengan terus mencatat input permintaan dan respons (prediksi) dari endpoint Model Serving AI Mosaic dan menyimpannya ke dalam tabel Delta di Unity Catalog. Anda kemudian dapat menggunakan semua kemampuan platform Databricks, seperti kueri Databricks SQL, notebook, dan pembuatan profil data untuk memantau, men-debug, dan mengoptimalkan model Anda.

Anda dapat mengaktifkan tabel inferensi pada model yang sudah ada atau yang baru dibuat yang melayani titik akhir, dan permintaan ke titik akhir tersebut kemudian secara otomatis dicatat ke tabel di UC.

Beberapa aplikasi umum untuk tabel inferensi adalah sebagai berikut:

  • Memantau data dan kualitas model. Anda dapat terus memantau performa model dan penyimpangan data menggunakan pembuatan profil data. Pembuatan profil data secara otomatis menghasilkan dasbor kualitas data dan model yang dapat Anda bagikan dengan pemangku kepentingan. Selain itu, Anda dapat mengaktifkan pemberitahuan untuk mengetahui kapan Anda perlu melatih kembali model Anda berdasarkan pergeseran dalam data masuk atau pengurangan performa model.
  • Menyelesaikan masalah produksi. Tabel Inferensi mencatat data seperti kode status HTTP, waktu eksekusi model, dan kode JSON untuk permintaan dan respons. Anda dapat menggunakan data performa ini untuk tujuan mengurai kesalahan. Anda juga dapat menggunakan data historis dalam Tabel Inferensi untuk membandingkan performa model pada permintaan historis.
  • Buat korpus pelatihan. Dengan menggabungkan Tabel Inferensi dengan label kebenaran dasar, Anda dapat membuat korpus pelatihan yang dapat Anda gunakan untuk melatih kembali atau menyempurnakan dan meningkatkan model Anda. Dengan Menggunakan Pekerjaan Lakeflow, Anda dapat menyiapkan perulangan umpan balik berkelanjutan dan mengotomatiskan pelatihan ulang.

Persyaratan

  • Ruang kerja Anda harus mengaktifkan Katalog Unity.
  • Pembuat titik akhir dan pengubah harus memiliki izin Dapat Mengelola pada titik akhir. Lihat Daftar kontrol akses.
  • Pembuat titik akhir dan pengubah harus memiliki izin berikut di Katalog Unity:
    • USE CATALOG hak akses pada katalog yang ditentukan.
    • USE SCHEMA hak akses pada skema yang ditentukan.
    • CREATE TABLE hak akses dalam skema.

Mengaktifkan dan menonaktifkan tabel inferensi

Bagian ini memperlihatkan kepada Anda cara mengaktifkan atau menonaktifkan tabel inferensi menggunakan UI Databricks. Anda juga dapat menggunakan API; lihat Mengaktifkan tabel inferensi pada titik akhir penyajian model menggunakan API untuk instruksi.

Pemilik tabel inferensi adalah pengguna yang membuat titik akhir. Semua daftar kontrol akses (ACL) pada tabel mengikuti izin Katalog Unity standar dan dapat dimodifikasi oleh pemilik tabel.

Peringatan

Tabel inferensi bisa menjadi rusak jika Anda melakukan salah satu hal berikut:

  • Ubah skema tabel.
  • Ubah nama tabel.
  • Hapus tabel.
  • Kehilangan izin pada katalog atau skema Unity Catalog.

Dalam kasus ini, status auto_capture_config dari titik akhir menunjukkan keadaan FAILED untuk tabel payload. Jika ini terjadi, Anda harus membuat titik akhir baru untuk terus menggunakan tabel inferensi.

Untuk mengaktifkan tabel inferensi selama pembuatan titik akhir, gunakan langkah-langkah berikut:

  1. Klik Melayani di antarmuka pengguna Databricks Mosaic AI.

  2. Klik Buat titik akhir penayangan.

  3. Pilih Aktifkan tabel inferensi.

  4. Di menu drop-down, pilih katalog dan skema yang diinginkan tempat Anda ingin tabel berada.

    katalog dan skema untuk tabel inferensi

  5. Nama tabel default adalah <catalog>.<schema>.<endpoint-name>_payload. Jika diinginkan, Anda dapat memasukkan awalan tabel kustom.

  6. Klik Buat titik akhir penayangan.

Anda juga dapat mengaktifkan tabel inferensi pada titik akhir yang ada. Untuk mengedit konfigurasi titik akhir yang sudah ada, lakukan hal berikut:

  1. Navigasi ke halaman titik akhir Anda.
  2. Klik Sunting konfigurasi.
  3. Ikuti instruksi sebelumnya, dimulai dengan langkah 3.
  4. Setelah selesai, klik Perbarui endpoint layanan.

Ikuti instruksi berikut untuk menonaktifkan tabel inferensi:

  1. Navigasi ke halaman titik akhir Anda.
  2. Klik Sunting konfigurasi.
  3. Klik Aktifkan tabel inferensi untuk menghapus tanda centang.
  4. Setelah Anda puas dengan spesifikasi titik akhir, klik Perbarui.

Migrasi ke tabel inferensi Gateway AI

Penting

Setelah titik akhir bermigrasi untuk menggunakan tabel inferensi Gateway AI, titik akhir tidak dapat beralih kembali ke tabel warisan.

Catatan

Tabel inferensi AI Gateway memiliki skema yang berbeda dibandingkan dengan tabel inferensi warisan.

Untuk informasi harga, lihat halaman harga Mosaic AI Gateway.

Bagian ini menjelaskan cara bermigrasi dari tabel inferensi warisan ke tabel inferensi Gateway AI.

Ada dua langkah utama untuk memperbarui konfigurasi:

  1. Perbarui titik akhir penyajian untuk menonaktifkan tabel inferensi warisan.
  2. Perbarui titik akhir penyajian untuk mengaktifkan tabel inferensi Gateway AI.

Menggunakan UI untuk memigrasikan konfigurasi tabel inferensi

Untuk sejumlah kecil titik akhir penyajian, edit konfigurasi titik akhir di UI:

  1. Klik Melayani di antarmuka pengguna Databricks Mosaic AI dan navigasikan ke halaman titik akhir Anda.

  2. Klik Sunting konfigurasi.

  3. Klik Aktifkan tabel inferensi untuk menghapus tanda centang.

  4. klik Perbarui dan tunggu status titik akhir menjadi Siap.

    Contoh cuplikan layar untuk menonaktifkan tabel inferensi warisan

Ikuti instruksi berikut untuk mengaktifkan tabel inferensi Gateway AI:

  1. Klik Melayani di antarmuka pengguna Databricks Mosaic AI dan navigasikan ke halaman titik akhir Anda.

  2. Klik AI Gateway Edit.

  3. Klik Aktifkan tabel inferensi.

  4. Di menu drop-down, pilih katalog dan skema yang diinginkan tempat Anda ingin tabel berada.

  5. Nama tabel default adalah <catalog>.<schema>.<endpoint-name>_payload. Secara opsional, masukkan awalan tabel kustom.

  6. Klik Perbarui.

    Contoh cuplikan layar untuk mengaktifkan tabel inferensi Gateway AI

Menggunakan buku catatan untuk memigrasikan konfigurasi tabel inferensi

Untuk banyak titik akhir, Anda dapat menggunakan API untuk mengotomatiskan proses migrasi. Databricks menyediakan buku catatan contoh yang memigrasikan batch titik akhir layanan dan contoh cara memigrasikan data yang ada dari tabel inferensi lama ke tabel inferensi Gerbang AI.

Memigrasikan ke buku catatan tabel inferensi Gateway AI

Ambil buku catatan

alur kerja : Memantau performa model menggunakan tabel inferensi

Untuk memantau performa model menggunakan tabel inferensi, ikuti langkah-langkah berikut:

  1. Aktifkan tabel inferensi di titik akhir Anda, baik selama pembuatan titik akhir atau dengan memperbaruinya setelahnya.
  2. Jadwalkan alur kerja untuk memproses payload JSON dalam tabel inferensi dengan membongkarnya sesuai dengan skema titik akhir.
  3. (Opsional) Gabungkan permintaan dan respons yang tidak dikemas dengan label kebenaran dasar untuk memungkinkan metrik kualitas model dihitung.
  4. Buat monitor di atas tabel Delta yang dihasilkan dan refresh metrik.

Buku catatan pemula mengimplementasikan alur kerja ini.

Buku catatan pemula untuk memantau tabel inferensi

Notebook berikut menerapkan langkah-langkah yang diuraikan di atas untuk membongkar permintaan dari tabel inferensi pembuatan profil data. Notebook dapat dijalankan sesuai permintaan, atau pada jadwal berulang menggunakan Lakeflow Jobs.

Buku catatan permulaan pembuatan profil data tabel inferensi

Ambil buku catatan

Buku catatan awal untuk memantau kualitas teks dari antarmuka yang menangani LLM

Buku catatan berikut membongkar permintaan dari tabel inferensi, menghitung serangkaian metrik evaluasi teks (seperti keterbacaan dan toksisitas), dan memungkinkan pemantauan atas metrik ini. Notebook dapat dijalankan sesuai permintaan, atau pada jadwal berulang menggunakan Lakeflow Jobs.

Notebook awal untuk pemprofilan data tabel inferensi LLM

Ambil buku catatan

Mengkueri dan menganalisis hasil dalam tabel inferensi

Setelah model yang dilayani siap, semua permintaan yang dibuat untuk model Anda dicatat secara otomatis ke tabel inferensi, bersama dengan respons. Anda bisa menampilkan tabel di UI, mengkueri tabel dari DBSQL atau buku catatan, atau mengkueri tabel menggunakan REST API.

Untuk menampilkan tabel di UI: Pada halaman titik akhir, klik nama tabel inferensi untuk membuka tabel di Catalog Explorer.

tautan ke nama tabel inferensi di halaman titik akhir

Untuk mengkueri tabel dari DBSQL atau buku catatan Databricks: Anda bisa menjalankan kode yang mirip dengan yang berikut ini untuk mengkueri tabel inferensi.

SELECT * FROM <catalog>.<schema>.<payload_table>

Jika Anda mengaktifkan tabel inferensi menggunakan UI, payload_table adalah nama tabel yang Anda tetapkan saat membuat titik akhir. Jika Anda mengaktifkan tabel inferensi menggunakan API, payload_table dilaporkan di bagian state respons auto_capture_config. Misalnya, lihat Mengaktifkan tabel inferensi pada model yang melayani titik akhir menggunakan API.

Catatan performa

Setelah memanggil titik akhir, Anda dapat melihat pemanggilan yang dicatat ke tabel inferensi Anda dalam waktu satu jam setelah mengirim permintaan penilaian. Selain itu, Azure Databricks menjamin pengiriman log terjadi setidaknya sekali, sehingga mungkin, meskipun tidak mungkin, log duplikat tersebut dikirim.

skema tabel penarikan kesimpulan Katalog Unity

Setiap permintaan dan respons yang dicatat ke tabel inferensi ditulis ke tabel Delta dengan skema berikut:

Catatan

Jika Anda memanggil endpoint dengan sekumpulan input, seluruh batch dicatat sebagai satu baris.

Nama kolom Deskripsi Jenis
databricks_request_id Pengidentifikasi permintaan yang dihasilkan Azure Databricks yang dilampirkan pada semua permintaan penyajian model. TALI
client_request_id Pengidentifikasi permintaan opsional yang dihasilkan klien yang dapat ditentukan dalam isi permintaan pemrosesan model. Lihat Tentukan client_request_id untuk informasi selengkapnya. TALI
date Tanggal UTC ketika permintaan untuk melayani model diterima. TANGGAL
timestamp_ms Stempel waktu dalam milidetik epoch ketika permintaan penyajian model diterima. panjang
status_code Kode status HTTP yang dikembalikan dari model. INT
sampling_fraction Fraksi penyampelan yang digunakan dalam kasus ketika permintaan telah dikurangi samplingnya. Nilai ini berada antara 0 dan 1, di mana 1 menunjukkan bahwa 100% permintaan masuk telah disertakan. Ganda
execution_time_ms Waktu eksekusi dalam milidetik yang modelnya melakukan inferensi. Ini tidak termasuk latensi jaringan overhead dan hanya mewakili waktu yang diperlukan model untuk menghasilkan prediksi. panjang
request Isi JSON permintaan mentah yang dikirim ke endpoint yang melayani model. TALI
response Isi JSON respons mentah yang dikembalikan oleh model yang melayani titik akhir. TALI
request_metadata Peta metadata yang terkait dengan model yang melayani titik akhir yang terkait dengan permintaan. Peta ini berisi nama titik akhir, nama model, dan versi model yang digunakan untuk titik akhir Anda. PETA<STRING, STRING>

Menentukan client_request_id

Bidang client_request_id adalah nilai opsional yang dapat diberikan pengguna dalam model yang melayani isi permintaan. Hal ini memungkinkan pengguna untuk memberikan pengidentifikasi mereka sendiri untuk permintaan yang muncul di tabel inferensi akhir di bawah client_request_id dan dapat digunakan untuk menggabungkan permintaan mereka dengan tabel lain yang menggunakan client_request_id, seperti menggabungkan dengan label kebenaran dasar. Untuk menentukan client_request_id, sertakan sebagai kunci tingkat atas payload permintaan. Jika tidak client_request_id ditentukan, nilai muncul sebagai null di baris yang sesuai dengan permintaan.

{
  "client_request_id": "<user-provided-id>",
  "dataframe_records": [
    {
      "sepal length (cm)": 5.1,
      "sepal width (cm)": 3.5,
      "petal length (cm)": 1.4,
      "petal width (cm)": 0.2
    },
    {
      "sepal length (cm)": 4.9,
      "sepal width (cm)": 3,
      "petal length (cm)": 1.4,
      "petal width (cm)": 0.2
    },
    {
      "sepal length (cm)": 4.7,
      "sepal width (cm)": 3.2,
      "petal length (cm)": 1.3,
      "petal width (cm)": 0.2
    }
  ]
}

client_request_id nantinya dapat digunakan untuk gabungan label kebenaran dasar jika ada tabel lain yang memiliki label yang terkait dengan client_request_id.

Batasan

  • Kunci yang dikelola pelanggan tidak didukung.
  • Untuk endpoint yang menghosting model fondasi , tabel inferensi hanya didukung pada throughput yang telah disediakan beban kerja.
  • Azure Firewall dapat mengakibatkan kegagalan untuk membuat tabel Delta Katalog Unity, jadi tidak didukung secara default. Hubungi tim akun Databricks Anda untuk mengaktifkannya.
  • Saat tabel inferensi diaktifkan, batas untuk total konkurensi maksimum di semua model yang digunakan dalam satu titik akhir adalah 128. Hubungi tim akun Azure Databricks Anda untuk meminta peningkatan batas ini.
  • Jika tabel inferensi berisi lebih dari 500K file, tidak ada data tambahan yang dicatat. Untuk menghindari melebihi batas ini, jalankan OPTIMIZE atau siapkan retensi pada tabel Anda dengan menghapus data yang lebih lama. Untuk memeriksa jumlah file dalam tabel Anda, jalankan DESCRIBE DETAIL <catalog>.<schema>.<payload_table>.
  • Pengiriman log tabel inferensi saat ini adalah upaya terbaik, tetapi Anda dapat mengharapkan log tersedia dalam waktu 1 jam dari permintaan. Hubungi tim akun Databricks Anda untuk informasi selengkapnya.

Untuk batasan umum pada titik akhir penyajian model, lihat Batas dan wilayah Penyajian Model.