Bagikan melalui


Evaluasi offline

Penting

Mulai tanggal 20 September 2023 Anda tidak akan dapat membuat sumber daya Personalizer baru. Layanan Personalizer dihentikan pada tanggal 1 Oktober 2026.

Evaluasi offline adalah metode yang memungkinkan Anda menguji dan menilai keefektifan Layanan Personalisasi tanpa mengubah kode Anda atau memengaruhi pengalaman pengguna. Evaluasi offline menggunakan data masa lalu, yang dikirim dari aplikasi Anda ke API Pangkat dan Penghargaan, untuk membandingkan performa berbagai pangkat.

Evaluasi offline dilakukan pada rentang tanggal. Rentang dapat selesai hingga waktu saat ini. Awal rentang tidak boleh lebih dari jumlah hari yang ditentukan untuk retensi data.

Evaluasi offline dapat membantu Anda menjawab pertanyaan berikut:

  • Seberapa efektif pangkat Personalisasi untuk personalisasi yang sukses?
    • Apa imbalan rata-rata yang dicapai oleh kebijakan pembelajaran komputer online Personalisasi?
    • Bagaimana Personalisasi dibandingkan dengan keefektifan apa yang akan dilakukan aplikasi secara default?
    • Apa yang akan menjadi efektivitas komparatif dari pilihan acak untuk Personalisasi?
    • Apa yang akan menjadi efektivitas komparatif dari kebijakan pembelajaran yang berbeda yang ditentukan secara manual?
  • Fitur konteks mana yang berkontribusi lebih atau kurang pada personalisasi yang sukses?
  • Fitur tindakan mana yang berkontribusi lebih atau kurang pada personalisasi yang sukses?

Selain itu, Evaluasi Offline dapat digunakan untuk menemukan kebijakan pembelajaran yang lebih optimal yang dapat digunakan oleh Personalisasi untuk meningkatkan hasil di masa mendatang.

Evaluasi offline tidak memberikan panduan tentang persentase peristiwa yang akan digunakan untuk eksplorasi.

Prasyarat untuk evaluasi offline

Berikut ini adalah pertimbangan penting untuk evaluasi offline representatif:

  • Memiliki data yang cukup. Minimum yang disarankan adalah setidaknya 50.000 peristiwa.
  • Kumpulkan data dari periode dengan perilaku dan lalu lintas pengguna yang representatif.

Menemukan kebijakan pembelajaran yang dioptimalkan

Personalisasi dapat menggunakan proses evaluasi offline untuk menemukan kebijakan pembelajaran yang lebih optimal secara otomatis.

Setelah melakukan evaluasi offline, Anda dapat melihat perbandingan efektivitas Personalisasi dengan kebijakan baru tersebut dibandingkan dengan kebijakan online saat ini. Anda kemudian dapat menerapkan kebijakan pembelajaran itu agar segera efektif di Personalisasi, dengan mengunduhnya dan mengunggahnya di panel Model dan Kebijakan. Anda juga dapat mengunduhnya untuk analisis atau penggunaan di masa mendatang.

Kebijakan saat ini termasuk dalam evaluasi:

Pengaturan pembelajaran Tujuan
Kebijakan Online Kebijakan Pembelajaran saat ini yang digunakan di Personalisasi
Garis besar Default aplikasi (sebagaimana ditentukan oleh Tindakan pertama yang dikirim dalam panggilan Pangkat)
Kebijakan Acak Perilaku Pangkat imajiner yang selalu mengembalikan pilihan Tindakan acak dari yang disediakan.
Kebijakan Khusus Kebijakan Pembelajaran Tambahan diunggah saat memulai evaluasi.
Kebijakan yang Dioptimalkan Jika evaluasi dimulai dengan opsi untuk menemukan kebijakan yang dioptimalkan, itu juga akan dibandingkan, dan Anda akan dapat mengunduhnya atau menjadikannya kebijakan pembelajaran online, menggantikan yang sekarang.

Memahami relevansi hasil evaluasi offline

Saat Anda menjalankan evaluasi offline, sangat penting untuk menganalisis batas keyakinan hasil. Jika lebar, itu berarti aplikasi Anda belum menerima data yang cukup agar estimasi reward menjadi tepat atau signifikan. Saat sistem mengumpulkan lebih banyak data, dan Anda menjalankan evaluasi offline dalam periode yang lebih lama, interval kepercayaan menjadi lebih sempit.

Bagaimana evaluasi offline dilakukan

Evaluasi Offline dilakukan dengan menggunakan metode yang disebut Evaluasi Counterfactual.

Personalisasi dibangun di atas asumsi bahwa perilaku pengguna (dan dengan demikian penghargaan) tidak mungkin untuk diprediksi secara retrospektif (Personalisasi tidak dapat mengetahui apa yang akan terjadi jika pengguna telah ditunjukkan sesuatu yang berbeda dari apa yang mereka lihat), dan hanya untuk belajar dari imbalan yang terukur.

Hal ini adalah proses konseptual yang digunakan untuk evaluasi:

[For a given _learning policy), such as the online learning policy, uploaded learning policies, or optimized candidate policies]:
{
    Initialize a virtual instance of Personalizer with that policy and a blank model;

    [For every chronological event in the logs]
    {
        - Perform a Rank call

        - Compare the reward of the results against the logged user behavior.
            - If they match, train the model on the observed reward in the logs.
            - If they don't match, then what the user would have done is unknown, so the event is discarded and not used for training or measurement.

    }

    Add up the rewards and statistics that were predicted, do some aggregation to aid visualizations, and save the results.
}

Evaluasi offline hanya menggunakan perilaku pengguna yang diamati. Proses ini membuang volume data yang besar, terutama jika aplikasi Anda melakukan panggilan Pangkat dengan sejumlah besar tindakan.

Evaluasi fitur

Evaluasi offline dapat memberikan informasi tentang seberapa banyak fitur spesifik untuk tindakan atau konteks menimbang untuk imbalan yang lebih tinggi. Informasi dikomputasi dengan menggunakan evaluasi terhadap periode waktu dan data yang diberikan, dan dapat bervariasi dengan waktu.

Sebaiknya lihat evaluasi fitur dan tanyakan:

  • Apa lagi, fitur tambahan, yang dapat disediakan oleh aplikasi atau sistem Anda sejalan dengan fitur yang lebih efektif?
  • Fitur apa yang dapat dihapus karena efektivitasnya rendah? Fitur dengan efektivitas rendah menambahkan noise ke dalam pembelajaran komputer.
  • Apakah ada fitur yang tidak sengaja disertakan? Contohnya adalah: informasi pengenal pengguna, ID duplikat, dll.
  • Apakah ada fitur yang tidak diinginkan yang tidak boleh digunakan untuk personalisasi karena pertimbangan peraturan atau penggunaan yang bertanggung jawab? Apakah ada fitur yang dapat memproksi (yaitu, mencerminkan atau berkorelasi dengan) fitur yang tidak diinginkan?

Langkah berikutnya

Konfigurasikan PersonalisasiJalankan Evaluasi Offline Pahami Cara Kerja Personalisasi