Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Azure AI Content Safety adalah layanan AI yang mendeteksi konten yang dihasilkan pengguna dan buatan AI yang berbahaya dalam aplikasi dan layanan. Azure AI Content Safety mencakup API yang memungkinkan Anda mendeteksi dan mencegah output konten berbahaya. Halaman coba sekarang untuk Content Safety interaktif dalam portal Azure AI Foundry memungkinkan Anda untuk melihat, menjelajahi, dan mencoba kode sampel untuk mendeteksi konten berbahaya dalam berbagai format.
Fitur
Anda dapat menggunakan Azure AI Content Safety untuk skenario berikut:
Konten teks:
- Konten teks sedang: Fitur ini memindai dan memoderasi konten teks, mengidentifikasi dan mengategorikannya berdasarkan tingkat keparahan yang berbeda untuk memastikan respons yang sesuai.
- Deteksi groundedness: Filter ini menentukan apakah respons AI didasarkan pada sumber tepercaya yang disediakan pengguna, memastikan bahwa jawabannya "di-grounded" dalam materi yang dimaksud. Deteksi groundedness sangat membantu untuk meningkatkan keandalan dan akurasi faktual respons.
- Deteksi materi yang dilindungi untuk teks: Fitur ini mengidentifikasi materi teks yang dilindungi, seperti lirik lagu yang diketahui, artikel, atau konten lainnya, memastikan bahwa AI tidak menghasilkan konten ini tanpa izin.
- Deteksi material yang dilindungi untuk kode: Mendeteksi segmen kode dalam output model yang cocok dengan kode yang diketahui dari repositori publik, membantu mencegah reproduksi kode sumber yang tidak dikreditkan atau tidak sah.
- Perisai perintah: Fitur ini menyediakan API terpadu untuk mengatasi "Jailbreak" dan "Serangan Tidak Langsung":
- Serangan Jailbreak: Upaya pengguna untuk memanipulasi AI agar melewati protokol keselamatan atau pedoman etikanya. Contohnya termasuk perintah yang dirancang untuk mengelabui AI agar memberikan respons yang tidak pantas atau melakukan tugas yang diprogram untuk dihindari.
- Serangan Tidak Langsung: Juga dikenal sebagai Serangan Injeksi Prompt Lintas Domain, serangan tidak langsung melibatkan penyematan perintah berbahaya dalam dokumen yang mungkin diproses AI. Misalnya, jika dokumen berisi instruksi tersembunyi, AI mungkin secara tidak sengaja mengikutinya, yang mengarah ke output yang tidak diinginkan atau tidak aman.
Konten gambar:
- Konten gambar sedang: Mirip dengan moderasi teks, fitur ini memfilter dan menilai konten gambar untuk mendeteksi visual yang tidak pantas atau berbahaya.
- Konten multimodal sedang: Ini dirancang untuk menangani kombinasi teks dan gambar, menilai konteks keseluruhan dan potensi risiko di beberapa jenis konten.
Sesuaikan kategori Anda sendiri:
- Kategori kustom: Memungkinkan pengguna menentukan kategori tertentu untuk memoderasi dan memfilter konten, menyesuaikan protokol keselamatan dengan kebutuhan unik.
- Pesan sistem keamanan: Menyediakan metode untuk menyiapkan "Pesan Sistem" untuk menginstruksikan AI tentang perilaku dan batasan yang diinginkan, menguatkan batas keamanan dan membantu mencegah output yang tidak diinginkan.
Memahami kategori bahaya
Kategori bahaya
Kategori | Deskripsi | Istilah API |
---|---|---|
Kebencian dan Keadilan | Bahaya kebencian dan ketidakadilan merujuk pada setiap konten yang menyerang atau menggunakan bahasa diskriminatif terhadap seseorang atau kelompok identitas terkait atribut pembeda tertentu dari kelompok tersebut. Hal ini termasuk, tetapi tidak terbatas pada:
|
Hate |
Seksual | Seksual menggambarkan bahasa yang terkait dengan organ dan alat kelamin anatomi, hubungan romantis dan tindakan seksual, tindakan yang digambarkan dalam istilah erotis atau kasih sayang, termasuk yang digambarkan sebagai serangan atau tindakan kekerasan seksual paksa terhadap kehendak seseorang. Ini termasuk tetapi tidak terbatas pada:
|
Sexual |
Kekerasan | Kekerasan menjelaskan bahasa yang terkait dengan tindakan fisik yang dimaksudkan untuk menyakiti, melukai, merusak, atau membunuh seseorang atau sesuatu; menjelaskan senjata, senjata, dan entitas terkait. Ini termasuk, tetapi tidak terbatas pada:
|
Violence |
Melukai Diri Sendiri | Self-harm menggambarkan bahasa yang berkaitan dengan tindakan fisik yang sengaja dilakukan untuk melukai, merusak tubuh seseorang, atau membunuh diri sendiri. Ini termasuk, tetapi tidak terbatas pada:
|
SelfHarm |
Tingkat keparahan
Tingkat | Deskripsi |
---|---|
Aman | Konten mungkin terkait dengan kategori kekerasan, bahaya diri sendiri, seksual, atau kebencian. Namun, istilah ini digunakan secara umum, jurnalistik, ilmiah, medis, dan konteks profesional serupa, yang sesuai untuk sebagian besar audiens. |
Kurang Penting | Konten yang mengekspresikan pandangan berprasangka, menghakimen, atau berpendapat, mencakup penggunaan bahasa, stereotip, kasus penggunaan yang menyinggung yang menjelajahi dunia fiksi (misalnya, permainan, sastra) dan penggambaran dengan intensitas rendah. |
Menengah | Konten yang menggunakan bahasa yang menyinggung, menghina, meniru, mengintimidasi, atau meremehkan terhadap grup identitas tertentu, termasuk penggambaran tentang mencari dan menjalankan instruksi berbahaya, fantasi, kemuliaan, promosi bahaya pada intensitas sedang. |
Tinggi | Konten yang menampilkan instruksi, tindakan, kerusakan, atau penyalahgunaan berbahaya yang eksplisit dan parah; termasuk dukungan, kemuliaan, atau promosi tindakan berbahaya yang parah, bentuk bahaya ekstrem atau ilegal, radikalisasi, atau pertukaran kekuasaan nonkonsensual atau penyalahgunaan. |
Keterbatasan
Lihat gambaran umum Keamanan Konten untuk wilayah yang didukung, batas tarif, dan persyaratan input untuk semua fitur. Lihat halaman Dukungan bahasa untuk bahasa yang didukung.
Langkah selanjutnya
Mulai menggunakan Azure AI Content Safety di portal Azure AI Foundry dengan mengikuti panduan Cara Penggunaan.