Keamanan Konten di portal Azure AI Foundry

2025-05-31

Azure AI Content Safety adalah layanan AI yang mendeteksi konten yang dihasilkan pengguna dan buatan AI yang berbahaya dalam aplikasi dan layanan. Azure AI Content Safety mencakup API yang memungkinkan Anda mendeteksi dan mencegah output konten berbahaya. Halaman coba sekarang untuk Content Safety interaktif dalam portal Azure AI Foundry memungkinkan Anda untuk melihat, menjelajahi, dan mencoba kode sampel untuk mendeteksi konten berbahaya dalam berbagai format.

Fitur

Anda dapat menggunakan Azure AI Content Safety untuk skenario berikut:

Konten teks:

Konten teks sedang: Fitur ini memindai dan memoderasi konten teks, mengidentifikasi dan mengategorikannya berdasarkan tingkat keparahan yang berbeda untuk memastikan respons yang sesuai.
Deteksi groundedness: Filter ini menentukan apakah respons AI didasarkan pada sumber tepercaya yang disediakan pengguna, memastikan bahwa jawabannya "di-grounded" dalam materi yang dimaksud. Deteksi groundedness sangat membantu untuk meningkatkan keandalan dan akurasi faktual respons.
Deteksi materi yang dilindungi untuk teks: Fitur ini mengidentifikasi materi teks yang dilindungi, seperti lirik lagu yang diketahui, artikel, atau konten lainnya, memastikan bahwa AI tidak menghasilkan konten ini tanpa izin.
Deteksi material yang dilindungi untuk kode: Mendeteksi segmen kode dalam output model yang cocok dengan kode yang diketahui dari repositori publik, membantu mencegah reproduksi kode sumber yang tidak dikreditkan atau tidak sah.
Perisai perintah: Fitur ini menyediakan API terpadu untuk mengatasi "Jailbreak" dan "Serangan Tidak Langsung":
- Serangan Jailbreak: Upaya pengguna untuk memanipulasi AI agar melewati protokol keselamatan atau pedoman etikanya. Contohnya termasuk perintah yang dirancang untuk mengelabui AI agar memberikan respons yang tidak pantas atau melakukan tugas yang diprogram untuk dihindari.
- Serangan Tidak Langsung: Juga dikenal sebagai Serangan Injeksi Prompt Lintas Domain, serangan tidak langsung melibatkan penyematan perintah berbahaya dalam dokumen yang mungkin diproses AI. Misalnya, jika dokumen berisi instruksi tersembunyi, AI mungkin secara tidak sengaja mengikutinya, yang mengarah ke output yang tidak diinginkan atau tidak aman.

Konten gambar:

Konten gambar sedang: Mirip dengan moderasi teks, fitur ini memfilter dan menilai konten gambar untuk mendeteksi visual yang tidak pantas atau berbahaya.
Konten multimodal sedang: Ini dirancang untuk menangani kombinasi teks dan gambar, menilai konteks keseluruhan dan potensi risiko di beberapa jenis konten.

Sesuaikan kategori Anda sendiri:

Kategori kustom: Memungkinkan pengguna menentukan kategori tertentu untuk memoderasi dan memfilter konten, menyesuaikan protokol keselamatan dengan kebutuhan unik.
Pesan sistem keamanan: Menyediakan metode untuk menyiapkan "Pesan Sistem" untuk menginstruksikan AI tentang perilaku dan batasan yang diinginkan, menguatkan batas keamanan dan membantu mencegah output yang tidak diinginkan.

Memahami kategori bahaya

Kategori bahaya

Kategori	Deskripsi	Istilah API
Kebencian dan Keadilan	Bahaya kebencian dan ketidakadilan merujuk pada setiap konten yang menyerang atau menggunakan bahasa diskriminatif terhadap seseorang atau kelompok identitas terkait atribut pembeda tertentu dari kelompok tersebut. Hal ini termasuk, tetapi tidak terbatas pada: Ras, etnis, kebangsaan Kelompok identitas gender dan ekspresi Orientasi seksual Agama Tampilan pribadi dan ukuran tubuh Status disabilitas Pelecehan dan perundungan	`Hate`
Seksual	Seksual menggambarkan bahasa yang terkait dengan organ dan alat kelamin anatomi, hubungan romantis dan tindakan seksual, tindakan yang digambarkan dalam istilah erotis atau kasih sayang, termasuk yang digambarkan sebagai serangan atau tindakan kekerasan seksual paksa terhadap kehendak seseorang. Ini termasuk tetapi tidak terbatas pada: Konten Tidak Senonoh Pelacuran Ketelanjangan dan Pornografi Penyalahgunaan Eksploitasi anak, pelecehan anak, perawatan anak	`Sexual`
Kekerasan	Kekerasan menjelaskan bahasa yang terkait dengan tindakan fisik yang dimaksudkan untuk menyakiti, melukai, merusak, atau membunuh seseorang atau sesuatu; menjelaskan senjata, senjata, dan entitas terkait. Ini termasuk, tetapi tidak terbatas pada: Senjata Perundungan dan intimidasi Teroris dan ekstremisme kekerasan Menguntit	`Violence`
Melukai Diri Sendiri	Self-harm menggambarkan bahasa yang berkaitan dengan tindakan fisik yang sengaja dilakukan untuk melukai, merusak tubuh seseorang, atau membunuh diri sendiri. Ini termasuk, tetapi tidak terbatas pada: Gangguan Makan Perundungan dan intimidasi	`SelfHarm`

Tingkat keparahan

Tingkat	Deskripsi
Aman	Konten mungkin terkait dengan kategori kekerasan, bahaya diri sendiri, seksual, atau kebencian. Namun, istilah ini digunakan secara umum, jurnalistik, ilmiah, medis, dan konteks profesional serupa, yang sesuai untuk sebagian besar audiens.
Kurang Penting	Konten yang mengekspresikan pandangan berprasangka, menghakimen, atau berpendapat, mencakup penggunaan bahasa, stereotip, kasus penggunaan yang menyinggung yang menjelajahi dunia fiksi (misalnya, permainan, sastra) dan penggambaran dengan intensitas rendah.
Menengah	Konten yang menggunakan bahasa yang menyinggung, menghina, meniru, mengintimidasi, atau meremehkan terhadap grup identitas tertentu, termasuk penggambaran tentang mencari dan menjalankan instruksi berbahaya, fantasi, kemuliaan, promosi bahaya pada intensitas sedang.
Tinggi	Konten yang menampilkan instruksi, tindakan, kerusakan, atau penyalahgunaan berbahaya yang eksplisit dan parah; termasuk dukungan, kemuliaan, atau promosi tindakan berbahaya yang parah, bentuk bahaya ekstrem atau ilegal, radikalisasi, atau pertukaran kekuasaan nonkonsensual atau penyalahgunaan.

Keterbatasan

Lihat gambaran umum Keamanan Konten untuk wilayah yang didukung, batas tarif, dan persyaratan input untuk semua fitur. Lihat halaman Dukungan bahasa untuk bahasa yang didukung.

Langkah selanjutnya

Mulai menggunakan Azure AI Content Safety di portal Azure AI Foundry dengan mengikuti panduan Cara Penggunaan.