Aktifkan pengukuran: Infrastruktur pendukung

2025-03-11

Artikel ini merinci infrastruktur yang diperlukan untuk mengukur kualitas dan bagaimana Databricks menyediakannya. Mengukur kualitas tidak mudah dan membutuhkan investasi infrastruktur yang signifikan.

Pengelogan jejak terperinci

Inti logika aplikasi RAG Anda adalah serangkaian langkah dalam rantai. Untuk mengevaluasi dan men-debug kualitas, Anda perlu menerapkan instrumentasi yang melacak input dan output rantai, bersama dengan setiap langkah rantai, dan input dan output terkait. Instrumentasi yang Anda tempatkan harus bekerja dengan cara yang sama dalam pengembangan dan produksi.

Di Databricks, MLflow Tracing menyediakan kemampuan ini. Dengan MLflow Trace Logging, Anda mengimplementasikan kode Anda di lingkungan produksi, dan mendapatkan pelacakan yang sama selama pengembangan dan dalam produksi. Jejak produksi dicatat sebagai bagian dari Tabel Inferensi.

Antarmuka Peninjauan untuk Pemangku Kepentingan

Paling sering, sebagai pengembang, Anda bukan ahli domain dalam konten aplikasi yang Anda kembangkan. Untuk mengumpulkan umpan balik dari pakar manusia yang dapat menilai kualitas output aplikasi, Anda memerlukan antarmuka yang memungkinkan mereka berinteraksi dengan versi awal aplikasi dan memberikan umpan balik terperinci. Selanjutnya, Anda memerlukan cara untuk memuat output aplikasi tertentu bagi pemangku kepentingan untuk menilai kualitasnya.

Antarmuka ini harus melacak output aplikasi dan umpan balik terkait secara terstruktur, menyimpan jejak aplikasi lengkap dan umpan balik terperinci dalam tabel data.

Di Databricks, Aplikasi Tinjauan Evaluasi Agen menyediakan kemampuan tersebut.

Kerangka kerja metrik kualitas, biaya, dan latensi

Anda memerlukan cara untuk menentukan metrik yang secara komprehensif mengukur kualitas setiap komponen rantai Anda dan aplikasi end-to-end. Idealnya, kerangka kerja akan menyediakan serangkaian metrik standar di luar kotak, selain mendukung penyesuaian, sehingga Anda dapat menambahkan metrik yang menguji aspek kualitas tertentu yang unik untuk bisnis Anda.

Dalam Databricks, Evaluasi Agen menyediakan implementasi langsung, dengan menggunakan model LLM juri yang dihosting, untuk memenuhi metrik kualitas, biaya, dan latensi yang diperlukan.

Kerangka Evaluasi

Anda memerlukan cara untuk mendapatkan output dengan cepat dan efisien dari rantai Anda untuk setiap pertanyaan dalam kumpulan evaluasi Anda, lalu mengevaluasi setiap output pada metrik yang relevan. Harness ini harus seefisien mungkin, karena Anda akan menjalankan evaluasi setelah setiap eksperimen yang Anda coba tingkatkan kualitasnya.

Di Databricks, Evaluasi Agen menyediakan kerangka kerja evaluasi yang terintegrasi dengan MLflow.

Manajemen set evaluasi

Set evaluasi Anda adalah set pertanyaan yang hidup dan bernapas yang akan Anda perbarui secara berulang selama siklus hidup pengembangan dan produksi aplikasi Anda.

Di Databricks, Anda dapat mengelola kumpulan evaluasi Anda sebagai Tabel Delta. Saat mengevaluasi dengan MLflow, MLflow akan secara otomatis mencatat rekam jepret versi set evaluasi yang digunakan.

Kerangka kerja pelacakan eksperimen

Selama pengembangan aplikasi, Anda akan mencoba banyak eksperimen yang berbeda. Kerangka kerja pelacakan eksperimen memungkinkan Anda mencatat setiap eksperimen dan melacak metriknya vs. eksperimen lainnya.

Di Databricks, MLflow menyediakan kemampuan pelacakan eksperimen.

Kerangka kerja parameterisasi rantai

Banyak eksperimen yang Anda coba mengharuskan Anda menahan konstanta kode rantai saat melakukan iterasi pada berbagai parameter yang digunakan oleh kode. Anda memerlukan kerangka kerja yang memungkinkan Anda melakukan ini.

Di Databricks, konfigurasi model MLflow menyediakan kemampuan ini.

Pemantauan online

Setelah disebarkan, Anda memerlukan cara untuk memantau kesehatan aplikasi serta kualitas, biaya, dan latensi secara berkelanjutan.

Di Databricks, Model Serving menyediakan pemantauan kesehatan aplikasi dan Pemantauan Lakehouse menyediakan output berkelanjutan ke dasbor dan memantau kualitas, biaya, dan latensi.