Mengurangi potensi bahaya

5 menit

Setelah menentukan garis besar dan cara untuk mengukur output berbahaya yang dihasilkan oleh solusi, Anda dapat mengambil langkah-langkah untuk mengurangi potensi bahaya, dan ketika sesuai mencoba kembali sistem yang dimodifikasi dan membandingkan tingkat bahaya dengan garis besar.

Mitigasi potensi bahaya dalam solusi AI generatif melibatkan pendekatan berlapis, di mana teknik mitigasi dapat diterapkan pada masing-masing dari empat lapisan, seperti yang ditunjukkan di sini:

Diagram showing the model, safety system, application, and positioning layers of a generative AI solution.

Model
Sistem Brankas ty
Metaprompt dan grounding
Pengalaman pengguna

1: Lapisan model

Lapisan model terdiri dari model AI generatif di jantung solusi Anda. Misalnya, solusi Anda dapat dibangun di sekitar model seperti GPT-4.

Mitigasi yang dapat Anda terapkan di lapisan model meliputi:

Memilih model yang sesuai untuk penggunaan solusi yang dimaksudkan. Misalnya, meskipun GPT-4 mungkin merupakan model yang kuat dan serbaguna, dalam solusi yang diperlukan hanya untuk mengklasifikasikan input teks kecil dan spesifik, model yang lebih sederhana mungkin memberikan fungsionalitas yang diperlukan dengan risiko pembuatan konten berbahaya yang lebih rendah.
Menyempurnakan model dasar dengan data pelatihan Anda sendiri sehingga respons yang dihasilkannya lebih mungkin relevan dan terlingkup dalam skenario solusi Anda.

2: Lapisan sistem keamanan

Lapisan sistem keamanan mencakup konfigurasi dan kemampuan tingkat platform yang membantu mengurangi bahaya. Misalnya, Azure OpenAI Service menyertakan dukungan untuk filter konten yang menerapkan kriteria untuk menekan permintaan dan respons berdasarkan klasifikasi konten ke dalam empat tingkat keparahan (aman, rendah, sedang, dan tinggi) untuk empat kategori potensi bahaya (kebencian, seksual, kekerasan, dan bahaya diri).

Mitigasi lapisan sistem keamanan lainnya dapat mencakup algoritma deteksi penyalahgunaan untuk menentukan apakah solusi disalahgunakan secara sistematis (misalnya melalui volume tinggi permintaan otomatis dari bot) dan pemberitahuan peringatan yang memungkinkan respons cepat terhadap potensi penyalahgunaan sistem atau perilaku berbahaya.

3: Lapisan metaprompt dan grounding

Lapisan metaprompt dan grounding berfokus pada konstruksi prompt yang dikirimkan ke model. Teknik mitigasi bahaya yang dapat Anda terapkan pada lapisan ini meliputi:

Menentukan metaprompts atau input sistem yang menentukan parameter perilaku untuk model.
Menerapkan rekayasa prompt untuk menambahkan data grounding ke perintah input, memaksimalkan kemungkinan output yang relevan dan tidak berbahaya.
Menggunakan pendekatan pembuatan tertambah pengambilan (RAG) untuk mengambil data kontekstual dari sumber data tepercaya dan menyertakannya dalam perintah.

4: Lapisan pengalaman pengguna

Lapisan pengalaman pengguna mencakup aplikasi perangkat lunak tempat pengguna berinteraksi dengan model AI generatif serta dokumentasi atau jaminan pengguna lainnya yang menjelaskan penggunaan solusi kepada pengguna dan pemangku kepentingannya.

Merancang antarmuka pengguna aplikasi untuk membatasi input ke subjek atau jenis tertentu, atau menerapkan validasi input dan output dapat mengurangi risiko respons yang berpotensi berbahaya.

Dokumentasi dan deskripsi lain dari solusi AI generatif harus transparan dengan tepat tentang kemampuan dan batasan sistem, model yang menjadi dasarnya, dan potensi bahaya yang mungkin tidak selalu ditangani oleh langkah-langkah mitigasi yang telah Anda terapkan.

Lanjutkan

Mengurangi potensi bahaya

1: Lapisan model

2: Lapisan sistem keamanan

3: Lapisan metaprompt dan grounding

4: Lapisan pengalaman pengguna

Saran dan Komentar