Prompt Shields
Model AI generatif dapat menimbulkan risiko eksploitasi oleh aktor jahat. Untuk mengurangi risiko ini, kami mengintegrasikan mekanisme keselamatan untuk membatasi perilaku model bahasa besar (LLM) dalam cakupan operasional yang aman. Namun, terlepas dari perlindungan ini, LLM masih rentan terhadap input adversarial yang melewati protokol keselamatan terintegrasi.
Prompt Shields adalah API terpadu yang menganalisis input LLM dan mendeteksi serangan User Prompt dan Serangan dokumen, yang merupakan dua jenis input musuh umum.
Prompt Shields untuk Permintaan Pengguna
Sebelumnya disebut deteksi risiko Jailbreak, perisai ini menargetkan serangan injeksi User Prompt, di mana pengguna sengaja mengeksploitasi kerentanan sistem untuk memunculkan perilaku tidak sah dari LLM. Hal ini dapat menyebabkan pembuatan konten yang tidak pantas atau pelanggaran pembatasan yang diberlakukan sistem.
Prompt Shields untuk Dokumen
Perisai ini bertujuan untuk melindungi dari serangan yang menggunakan informasi yang tidak secara langsung disediakan oleh pengguna atau pengembang, seperti dokumen eksternal. Penyerang mungkin menyematkan instruksi tersembunyi dalam materi ini untuk mendapatkan kontrol yang tidak sah atas sesi LLM.
Jenis serangan input
Dua jenis serangan input yang dideteksi Prompt Shields dijelaskan dalam tabel ini.
Jenis | Penyerang | Titik Masuk | Metode | Tujuan/dampak | Perilaku yang dihasilkan |
---|---|---|---|---|---|
Serangan User Prompt | Pengguna | Permintaan pengguna | Mengabaikan permintaan sistem/pelatihan RLHF | Mengubah perilaku LLM yang dimaksudkan | Melakukan tindakan terbatas terhadap pelatihan |
Serangan dokumen | Pihak ketiga | Konten pihak ketiga (dokumen, email) | Salah menafsirkan konten pihak ketiga | Mendapatkan akses atau kontrol yang tidak sah | Menjalankan perintah atau tindakan yang tidak diinginkan |
Subjenis serangan User Prompt
Prompt Shields untuk serangan User Prompt mengenali kelas serangan berikut:
Kategori | Deskripsi |
---|---|
Mencoba mengubah aturan sistem | Kategori ini mencakup, tetapi tidak terbatas pada, permintaan untuk menggunakan asisten sistem/AI baru yang tidak dibatasi tanpa aturan, prinsip, atau batasan, atau permintaan yang menginstruksikan AI untuk mengabaikan, melupakan, dan mengabaikan aturan, instruksi, dan giliran sebelumnya. |
Menyematkan mockup percakapan untuk membingungkan model | Serangan ini menggunakan giliran percakapan yang dibuat pengguna yang disematkan dalam satu kueri pengguna untuk menginstruksikan asisten sistem/AI untuk mengabaikan aturan dan batasan. |
Role-Play | Serangan ini menginstruksikan asisten sistem/AI untuk bertindak sebagai "persona sistem" lain yang tidak memiliki batasan sistem yang ada, atau menetapkan kualitas manusia antropomorfik ke sistem, seperti emosi, pikiran, dan pendapat. |
Serangan Pengodean | Serangan ini mencoba menggunakan pengodean, seperti metode transformasi karakter, gaya pembuatan, sandi, atau variasi bahasa alami lainnya, untuk menghindari aturan sistem. |
Subjenis serangan Dokumen
Prompt Shields untuk serangan Dokumen mengenali kelas serangan berikut:
Kategori | Deskripsi |
---|---|
Konten yang Dimanipulasi | Perintah yang terkait dengan memalsukan, menyembunyikan, memanipulasi, atau mendorong informasi tertentu. |
Penyusupan | Perintah yang terkait dengan pembuatan backdoor, eskalasi hak istimewa yang tidak sah, dan mendapatkan akses ke LLM dan sistem |
Pengumpulan Informasi | Perintah yang terkait dengan menghapus, memodifikasi, atau mengakses data atau mencuri data. |
Ketersediaan | Perintah yang membuat model tidak dapat digunakan oleh pengguna, memblokir kemampuan tertentu, atau memaksa model untuk menghasilkan informasi yang salah. |
Penipuan | Perintah yang terkait dengan menipu pengguna dari uang, kata sandi, informasi, atau bertindak atas nama pengguna tanpa otorisasi |
Malware | Perintah yang terkait dengan menyebarkan malware melalui tautan berbahaya, email, dll. |
Mencoba mengubah aturan sistem | Kategori ini mencakup, tetapi tidak terbatas pada, permintaan untuk menggunakan asisten sistem/AI baru yang tidak dibatasi tanpa aturan, prinsip, atau batasan, atau permintaan yang menginstruksikan AI untuk mengabaikan, melupakan, dan mengabaikan aturan, instruksi, dan giliran sebelumnya. |
Menyematkan mockup percakapan untuk membingungkan model | Serangan ini menggunakan giliran percakapan yang dibuat pengguna yang disematkan dalam satu kueri pengguna untuk menginstruksikan asisten sistem/AI untuk mengabaikan aturan dan batasan. |
Role-Play | Serangan ini menginstruksikan asisten sistem/AI untuk bertindak sebagai "persona sistem" lain yang tidak memiliki batasan sistem yang ada, atau menetapkan kualitas manusia antropomorfik ke sistem, seperti emosi, pikiran, dan pendapat. |
Serangan Pengodean | Serangan ini mencoba menggunakan pengodean, seperti metode transformasi karakter, gaya pembuatan, sandi, atau variasi bahasa alami lainnya, untuk menghindari aturan sistem. |
Batasan
Ketersediaan bahasa
Saat ini, PROMPT Shields API mendukung bahasa Inggris. Meskipun API kami tidak membatasi pengiriman konten non-bahasa Inggris, kami tidak dapat menjamin tingkat kualitas dan akurasi yang sama dalam analisis konten tersebut. Kami menyarankan pengguna untuk terutama mengirimkan konten dalam bahasa Inggris untuk memastikan hasil yang paling andal dan akurat dari API.
Batasan panjang teks
Lihat Persyaratan input untuk batasan panjang teks maksimum.
Wilayah
Untuk menggunakan API ini, Anda harus membuat sumber daya Azure AI Content Safety di wilayah yang didukung. Lihat Ketersediaan wilayah.
Batasan TPS
Lihat Laju kueri.
Jika Anda memerlukan tarif yang lebih tinggi, silakan hubungi kami untuk memintanya.
Langkah berikutnya
Ikuti mulai cepat untuk mulai menggunakan Azure AI Content Safety untuk mendeteksi risiko input pengguna.
Saran dan Komentar
https://aka.ms/ContentUserFeedback.
Segera hadir: Sepanjang tahun 2024 kami akan menghentikan penggunaan GitHub Issues sebagai mekanisme umpan balik untuk konten dan menggantinya dengan sistem umpan balik baru. Untuk mengetahui informasi selengkapnya, lihat:Kirim dan lihat umpan balik untuk