Prompt Shields

Artikel
06/13/2024

Model AI generatif dapat menimbulkan risiko eksploitasi oleh aktor jahat. Untuk mengurangi risiko ini, kami mengintegrasikan mekanisme keselamatan untuk membatasi perilaku model bahasa besar (LLM) dalam cakupan operasional yang aman. Namun, terlepas dari perlindungan ini, LLM masih rentan terhadap input adversarial yang melewati protokol keselamatan terintegrasi.

Prompt Shields adalah API terpadu yang menganalisis input LLM dan mendeteksi serangan User Prompt dan Serangan dokumen, yang merupakan dua jenis input musuh umum.

Prompt Shields untuk Permintaan Pengguna

Sebelumnya disebut deteksi risiko Jailbreak, perisai ini menargetkan serangan injeksi User Prompt, di mana pengguna sengaja mengeksploitasi kerentanan sistem untuk memunculkan perilaku tidak sah dari LLM. Hal ini dapat menyebabkan pembuatan konten yang tidak pantas atau pelanggaran pembatasan yang diberlakukan sistem.

Prompt Shields untuk Dokumen

Perisai ini bertujuan untuk melindungi dari serangan yang menggunakan informasi yang tidak secara langsung disediakan oleh pengguna atau pengembang, seperti dokumen eksternal. Penyerang mungkin menyematkan instruksi tersembunyi dalam materi ini untuk mendapatkan kontrol yang tidak sah atas sesi LLM.

Jenis serangan input

Dua jenis serangan input yang dideteksi Prompt Shields dijelaskan dalam tabel ini.

Jenis	Penyerang	Titik Masuk	Metode	Tujuan/dampak	Perilaku yang dihasilkan
Serangan User Prompt	Pengguna	Permintaan pengguna	Mengabaikan permintaan sistem/pelatihan RLHF	Mengubah perilaku LLM yang dimaksudkan	Melakukan tindakan terbatas terhadap pelatihan
Serangan dokumen	Pihak ketiga	Konten pihak ketiga (dokumen, email)	Salah menafsirkan konten pihak ketiga	Mendapatkan akses atau kontrol yang tidak sah	Menjalankan perintah atau tindakan yang tidak diinginkan

Subjenis serangan User Prompt

Prompt Shields untuk serangan User Prompt mengenali kelas serangan berikut:

Kategori	Deskripsi
Mencoba mengubah aturan sistem	Kategori ini mencakup, tetapi tidak terbatas pada, permintaan untuk menggunakan asisten sistem/AI baru yang tidak dibatasi tanpa aturan, prinsip, atau batasan, atau permintaan yang menginstruksikan AI untuk mengabaikan, melupakan, dan mengabaikan aturan, instruksi, dan giliran sebelumnya.
Menyematkan mockup percakapan untuk membingungkan model	Serangan ini menggunakan giliran percakapan yang dibuat pengguna yang disematkan dalam satu kueri pengguna untuk menginstruksikan asisten sistem/AI untuk mengabaikan aturan dan batasan.
Role-Play	Serangan ini menginstruksikan asisten sistem/AI untuk bertindak sebagai "persona sistem" lain yang tidak memiliki batasan sistem yang ada, atau menetapkan kualitas manusia antropomorfik ke sistem, seperti emosi, pikiran, dan pendapat.
Serangan Pengodean	Serangan ini mencoba menggunakan pengodean, seperti metode transformasi karakter, gaya pembuatan, sandi, atau variasi bahasa alami lainnya, untuk menghindari aturan sistem.

Subjenis serangan Dokumen

Prompt Shields untuk serangan Dokumen mengenali kelas serangan berikut:

Kategori	Deskripsi
Konten yang Dimanipulasi	Perintah yang terkait dengan memalsukan, menyembunyikan, memanipulasi, atau mendorong informasi tertentu.
Penyusupan	Perintah yang terkait dengan pembuatan backdoor, eskalasi hak istimewa yang tidak sah, dan mendapatkan akses ke LLM dan sistem
Pengumpulan Informasi	Perintah yang terkait dengan menghapus, memodifikasi, atau mengakses data atau mencuri data.
Ketersediaan	Perintah yang membuat model tidak dapat digunakan oleh pengguna, memblokir kemampuan tertentu, atau memaksa model untuk menghasilkan informasi yang salah.
Penipuan	Perintah yang terkait dengan menipu pengguna dari uang, kata sandi, informasi, atau bertindak atas nama pengguna tanpa otorisasi
Malware	Perintah yang terkait dengan menyebarkan malware melalui tautan berbahaya, email, dll.
Mencoba mengubah aturan sistem	Kategori ini mencakup, tetapi tidak terbatas pada, permintaan untuk menggunakan asisten sistem/AI baru yang tidak dibatasi tanpa aturan, prinsip, atau batasan, atau permintaan yang menginstruksikan AI untuk mengabaikan, melupakan, dan mengabaikan aturan, instruksi, dan giliran sebelumnya.
Menyematkan mockup percakapan untuk membingungkan model	Serangan ini menggunakan giliran percakapan yang dibuat pengguna yang disematkan dalam satu kueri pengguna untuk menginstruksikan asisten sistem/AI untuk mengabaikan aturan dan batasan.
Role-Play	Serangan ini menginstruksikan asisten sistem/AI untuk bertindak sebagai "persona sistem" lain yang tidak memiliki batasan sistem yang ada, atau menetapkan kualitas manusia antropomorfik ke sistem, seperti emosi, pikiran, dan pendapat.
Serangan Pengodean	Serangan ini mencoba menggunakan pengodean, seperti metode transformasi karakter, gaya pembuatan, sandi, atau variasi bahasa alami lainnya, untuk menghindari aturan sistem.

Batasan

Ketersediaan bahasa

Saat ini, PROMPT Shields API mendukung bahasa Inggris. Meskipun API kami tidak membatasi pengiriman konten non-bahasa Inggris, kami tidak dapat menjamin tingkat kualitas dan akurasi yang sama dalam analisis konten tersebut. Kami menyarankan pengguna untuk terutama mengirimkan konten dalam bahasa Inggris untuk memastikan hasil yang paling andal dan akurat dari API.

Batasan panjang teks

Lihat Persyaratan input untuk batasan panjang teks maksimum.

Wilayah

Untuk menggunakan API ini, Anda harus membuat sumber daya Azure AI Content Safety di wilayah yang didukung. Lihat Ketersediaan wilayah.

Batasan TPS

Lihat Laju kueri.

Jika Anda memerlukan tarif yang lebih tinggi, silakan hubungi kami untuk memintanya.

Langkah berikutnya

Ikuti mulai cepat untuk mulai menggunakan Azure AI Content Safety untuk mendeteksi risiko input pengguna.

Mulai cepat Prompt Shields

Bagikan melalui