Mendapatkan umpan balik tentang kualitas aplikasi agenik

Artikel
07/16/2024

Penting

Artikel ini menunjukkan kepada Anda cara menggunakan aplikasi ulasan Databricks untuk mengumpulkan umpan balik tentang kualitas aplikasi agenik Anda dari peninjau manusia.

Evaluasi Agen AI Mosaik memungkinkan pengembang untuk mengevaluasi kualitas, biaya, dan latensi aplikasi AI generatif mereka dengan cepat dan andal. Kemampuan Evaluasi Agen disatukan antara fase pengembangan, penahapan, dan produksi siklus hidup LLMops.

Evaluasi Agen adalah bagian dari penawaran Mosaic AI Agent Framework kami yang dirancang untuk membantu pengembang menyebarkan aplikasi AI generatif berkualitas tinggi. Aplikasi berkualitas tinggi adalah aplikasi di mana output dievaluasi agar akurat, aman, dan diatur.

Apa yang terjadi dalam evaluasi manusia?

Aplikasi ulasan memungkinkan Anda mengumpulkan umpan balik dari pemangku kepentingan ahli anda di aplikasi Anda. Ini membantu memastikan kualitas dan keamanan jawaban yang diberikannya.

Ada tiga cara untuk mengumpulkan umpan balik menggunakan aplikasi ulasan. Pemangku kepentingan ahli:

Mengobrol dengan bot aplikasi dan memberikan umpan balik tentang percakapan tersebut.
Berikan umpan balik tentang log historis dari pengguna lain.
Berikan umpan balik tentang jejak yang dikumpulkan dan output agen.

Di aplikasi ulasan Databricks, LLM ditahapkan di lingkungan di mana pemangku kepentingan ahli dapat berinteraksi dengannya - dengan kata lain, melakukan percakapan, mengajukan pertanyaan, dan sebagainya.

Persyaratan

Untuk menggunakan aplikasi ulasan untuk evaluasi manusia dari aplikasi agenik, Anda harus menyiapkan hal berikut:

Tabel inferensi harus diaktifkan pada titik akhir yang melayani agen. Ini memungkinkan aplikasi ulasan untuk mengumpulkan dan merekam data tentang aplikasi agenik.
Akses ke ruang kerja aplikasi ulasan untuk setiap peninjau manusia. Lihat bagian berikutnya, Siapkan tinjau izin aplikasi.

Menyiapkan izin ke ruang kerja aplikasi ulasan

Jika peninjau Anda sudah memiliki akses ke ruang kerja yang berisi aplikasi ulasan, Anda tidak perlu melakukan apa pun.

Jika peninjau belum memiliki akses, admin akun dapat menggunakan provisi SCIM tingkat akun untuk menyinkronkan pengguna dan grup secara otomatis dari penyedia identitas Anda ke akun Azure Databricks Anda. Anda juga dapat mendaftarkan pengguna dan grup ini secara manual saat menyiapkan identitas di Databricks. Ini memungkinkan mereka untuk disertakan sebagai peninjau yang memenuhi syarat. Lihat Menyinkronkan pengguna dan grup dari idP Anda.


  from databricks.agents import set_permissions
  from databricks.agents.entities import PermissionLevel

  set_permissions(model_fqn, ["user.name@databricks.com"], PermissionLevel.CAN_QUERY)

Untuk pelanggan Pratinjau Umum baru yang mengalami kesulitan memberikan akses kepada peninjau ke aplikasi ulasan, hubungi tim akun DB Anda untuk mengaktifkan fitur ini.

Berikan instruksi kepada peninjau

Tulis teks kustom untuk instruksi yang ditampilkan untuk peninjau, dan kirimkan seperti yang ditunjukkan dalam contoh kode berikut:

  from databricks.agents import set_review_instructions, get_review_instructions

  set_review_instructions(uc_model_name, "Thank you for testing the bot. Use your domain expertise to evaluate and give feedback on the bot's responses, ensuring it aligns with the needs and expectations of users like yourself.")
  get_review_instructions(uc_model_name)

Cuplikan layar instruksi aplikasi ulasan menentukan contoh Python.

Gambaran umum UI aplikasi tinjauan

Alur kerja dasar untuk evaluasi ahli di aplikasi ulasan:

Buka URL aplikasi ulasan yang disediakan.
Tinjau obrolan yang telah diisi sebelumnya.
Mengobrol dengan bot dan mengirimkan evaluasi jawabannya.

Opsi untuk menjalankan evaluasi dengan pemangku kepentingan

Para ahli mengobrol dengan aplikasi ulasan

Untuk menggunakan opsi ini, panggil deploy_model(…) dan atur izin yang benar. Diagram berikut menunjukkan cara kerja opsi ini.

Jalankan aplikasi ulasan tempat para ahli mengobrol dengan aplikasi agenik dan memberikan umpan balik.

J. Pemangku kepentingan ahli mengobrol dengan aplikasi agenik B. Umpan balik tentang respons C. Permintaan/respons aplikasi D. Permintaan/respons aplikasi + jejak + umpan balik

Ahli meninjau log

Untuk menggunakan opsi ini, pertama-tama sebarkan aplikasi agenik Anda menggunakan deploy_model(…). Setelah pengguna berinteraksi dengan REST API atau meninjau aplikasi, Anda dapat memuat jejak ini kembali ke aplikasi ulasan menggunakan kode berikut.


  from databricks.agents import enable_trace_reviews

  enable_trace_reviews(
    model_name=model_fqn,
    request_ids=[
        "52ee973e-0689-4db1-bd05-90d60f94e79f",
        "1b203587-7333-4721-b0d5-bba161e4643a",
        "e68451f4-8e7b-4bfc-998e-4bda66992809",
    ],
  )

Gunakan nilai dari request_id kolom tabel log permintaan.

Catatan

Jika Anda mengaktifkan Azure Storage Firewall, hubungi tim akun Azure Databricks Anda untuk mengaktifkan tabel inferensi untuk titik akhir Anda.

Jalankan tinjauan jejak di mana peninjau berinteraksi dengan aplikasi ulasan atau REST API untuk memberikan umpan balik.

Sebuah. enable_trace_reviews([request_id]) B. Obrolan dimuat C. Obrolan pemangku kepentingan ahli dengan aplikasi D. Umpan balik tentang respons E. Permintaan dari penggunaan aplikasi front-end atau tinjau penggunaan aplikasi F. Permintaan/respons aplikasi G. Permintaan/respons aplikasi + jejak + umpan balik

Jalankan evaluasi pada tabel log permintaan

Notebook berikut mengilustrasikan cara menggunakan log dari aplikasi tinjauan sebagai input ke evaluasi yang dijalankan menggunakan mlflow.evaluate().

Menjalankan evaluasi pada buku catatan log permintaan

Dapatkan buku catatan

Pembatasan

Jika Anda menyebarkan aplikasi tanpa memulai ulasan apa pun menggunakan enable_trace_reviews panggilan, dan memiliki CAN_MANAGE izin untuk penyebaran, layanan mengembalikan NO_PERMISSIONS respons saat memanggil get_permissions titik akhir. Ini adalah masalah yang diketahui, dan tingkat izin yang sesuai sedang ditingkatkan di seluruh sistem.

Saat menggunakan enable_trace_reviews fungsionalitas untuk menghasilkan artefak ulasan, konfirmasikan bahwa semua pengguna diberi izin yang diperlukan untuk melakukan tinjauan atau mengelolanya. Untuk melakukan ini, gunakan set_permissions API.

Bagikan melalui