Bagikan melalui


Pemfilteran konten di Azure AI Studio

Penting

Beberapa fitur yang dijelaskan dalam artikel ini mungkin hanya tersedia dalam pratinjau. Pratinjau ini disediakan tanpa perjanjian tingkat layanan, dan kami tidak merekomendasikannya untuk beban kerja produksi. Fitur tertentu mungkin tidak didukung atau mungkin memiliki kemampuan terbatas. Untuk mengetahui informasi selengkapnya, lihat Ketentuan Penggunaan Tambahan untuk Pratinjau Microsoft Azure.

Azure AI Studio menyertakan sistem pemfilteran konten yang berfungsi bersama model inti dan model pembuatan gambar DALL-E.

Penting

Sistem pemfilteran konten tidak diterapkan ke perintah dan penyelesaian yang diproses oleh model Whisper di Azure OpenAI Service. Pelajari selengkapnya tentang model Whisper di Azure OpenAI.

Cara kerjanya

Sistem pemfilteran konten ini didukung oleh Azure AI Content Safety, dan berfungsi dengan menjalankan input perintah dan output penyelesaian melalui ansambel model klasifikasi yang bertujuan mendeteksi dan mencegah output konten berbahaya. Variasi dalam konfigurasi API dan desain aplikasi dapat memengaruhi penyelesaian dan dengan demikian memfilter perilaku.

Dengan penyebaran model Azure OpenAI, Anda dapat menggunakan filter konten default atau membuat filter konten Anda sendiri (dijelaskan nanti). Filter konten default juga tersedia untuk model teks lain yang dikumpulkan oleh Azure AI dalam katalog model, tetapi filter konten kustom belum tersedia untuk model tersebut. Model yang tersedia melalui Model sebagai Layanan mengaktifkan pemfilteran konten secara default dan tidak dapat dikonfigurasi.

Dukungan bahasa

Model pemfilteran konten telah dilatih dan diuji pada bahasa berikut: Inggris, Jerman, Jepang, Spanyol, Prancis, Italia, Portugis, dan Cina. Namun, layanan ini dapat bekerja dalam banyak bahasa lain, tetapi kualitasnya dapat bervariasi. Dalam semua kasus, Anda harus melakukan pengujian Anda sendiri untuk memastikan bahwa itu berfungsi untuk aplikasi Anda.

Membuat filter konten

Untuk penyebaran model apa pun di Azure AI Studio, Anda dapat langsung menggunakan filter konten default, tetapi Anda mungkin ingin memiliki lebih banyak kontrol. Misalnya, Anda dapat membuat filter lebih ketat atau lebih lenient, atau mengaktifkan kemampuan yang lebih canggih seperti perisai prompt dan deteksi material yang dilindungi.

Ikuti langkah-langkah berikut untuk membuat filter konten:

  1. Buka AI Studio dan navigasi ke hub Anda. Lalu pilih tab Filter konten di navigasi kiri, dan pilih tombol Buat filter konten.

    Cuplikan layar tombol untuk membuat filter konten baru.

  2. Pada halaman Informasi dasar, masukkan nama untuk filter konten Anda. Pilih koneksi untuk dikaitkan dengan filter konten. Kemudian pilih Berikutnya.

    Cuplikan layar opsi untuk memilih atau memasukkan informasi dasar seperti nama filter saat membuat filter konten.

  3. Pada halaman Filter input, Anda dapat mengatur filter untuk perintah input. Atur ambang batas tingkat tindakan dan tingkat keparahan untuk setiap jenis filter. Anda mengonfigurasi filter default dan filter lainnya (seperti Prompt Shields untuk serangan jailbreak) di halaman ini. Kemudian pilih Berikutnya.

    Cuplikan layar opsi untuk memilih filter input saat membuat filter konten.

    Konten akan dianotasikan menurut kategori dan diblokir sesuai dengan ambang yang Anda tetapkan. Untuk kategori kekerasan, kebencian, seksual, dan melukai diri sendiri, sesuaikan slider untuk memblokir konten dengan tingkat keparahan tinggi, sedang, atau rendah.

  4. Pada halaman Filter output, Anda dapat mengonfigurasi filter output, yang akan diterapkan ke semua konten output yang dihasilkan oleh model Anda. Konfigurasikan filter individual seperti sebelumnya. Halaman ini juga menyediakan opsi Mode streaming, yang memungkinkan Anda memfilter konten mendekati real-time seperti yang dihasilkan oleh model, mengurangi latensi. Setelah selesai, pilih Berikutnya.

    Konten akan dianotasikan oleh setiap kategori dan diblokir sesuai dengan ambang batas. Untuk konten kekerasan, konten kebencian, konten seksual, dan kategori konten yang merugikan diri sendiri, sesuaikan ambang batas untuk memblokir konten berbahaya dengan tingkat keparahan yang sama atau lebih tinggi.

  5. Secara opsional, pada halaman Penyebaran , Anda dapat mengaitkan filter konten dengan penyebaran. Jika penyebaran yang dipilih sudah melampirkan filter, Anda harus mengonfirmasi bahwa Anda ingin menggantinya. Anda juga dapat mengaitkan filter konten dengan penyebaran nanti. Pilih Buat.

    Cuplikan layar opsi untuk memilih penyebaran saat membuat filter konten.

    Konfigurasi pemfilteran konten dibuat di tingkat hub di AI Studio. Pelajari selengkapnya tentang konfigurasi di dokumen Azure OpenAI.

  6. Pada halaman Tinjau , tinjau pengaturan lalu pilih Buat filter.

Menggunakan daftar blokir sebagai filter

Anda dapat menerapkan daftar blokir sebagai filter input atau output, atau keduanya. Aktifkan opsi Daftar blokir pada halaman Filter input dan/atau Filter output. Pilih satu atau beberapa daftar blokir dari menu dropdown, atau gunakan daftar blokir kata-kata kocek bawaan. Anda dapat menggabungkan beberapa daftar blok ke dalam filter yang sama.

Menerapkan filter konten

Proses pembuatan filter memberi Anda opsi untuk menerapkan filter ke penyebaran yang Anda inginkan. Anda juga dapat mengubah atau menghapus filter konten dari penyebaran Kapan saja.

Ikuti langkah-langkah berikut untuk menerapkan filter konten ke penyebaran:

  1. Buka AI Studio dan pilih proyek.

  2. Pilih Penyebaran dan pilih salah satu penyebaran Anda, lalu pilih Edit.

    Cuplikan layar tombol untuk mengedit penyebaran.

  3. Di jendela Perbarui penyebaran , pilih filter konten yang ingin Anda terapkan ke penyebaran.

    Cuplikan layar filter terapkan konten.

Sekarang, Anda dapat pergi ke taman bermain untuk menguji apakah filter konten berfungsi seperti yang diharapkan.

Kategori

Kategori Deskripsi
Hate Kategori kebencian menjelaskan serangan bahasa atau penggunaan yang mencakup bahasa pejoratif atau diskriminatif dengan merujuk ke seseorang atau kelompok identitas berdasarkan atribut pembeda tertentu dari kelompok-kelompok ini termasuk tetapi tidak terbatas pada ras, etnis, kebangsaan, identitas dan ekspresi gender, orientasi seksual, agama, status imigrasi, status kemampuan, penampilan pribadi, dan ukuran tubuh.
Seksual Kategori seksual menggambarkan bahasa yang terkait dengan organ anatomi dan alat kelamin, hubungan romantis, tindakan yang digambarkan dalam istilah erotis atau kasih sayang, tindakan seksual fisik, termasuk yang digambarkan sebagai penyerangan atau tindakan kekerasan seksual paksa terhadap kehendak, prostitusi, pornografi, dan penyalahgunaan seseorang.
Kekerasan Kategori kekerasan menjelaskan bahasa yang terkait dengan tindakan fisik yang dimaksudkan untuk menyakiti, melukai, merusak, atau membunuh seseorang atau sesuatu; menjelaskan senjata, dll.
Melukai Diri Sendiri Kategori self-harm menggambarkan bahasa yang terkait dengan tindakan fisik yang dimaksudkan untuk secara sengaja melukai, melukai, atau merusak tubuh seseorang, atau membunuh diri sendiri.

Tingkat keparahan

Kategori Deskripsi
Aman Konten mungkin terkait dengan kekerasan, menyakiti diri sendiri, seksual, atau kategori kebencian tetapi istilah-istilah tersebut digunakan secara umum, jurnalistik, ilmiah, medis, dan konteks profesional serupa, yang sesuai untuk sebagian besar audiens.
Kurang Penting Konten yang mengekspresikan pandangan berprasangka, menghakimen, atau berpendapat, termasuk penggunaan bahasa yang menyinggung, stereotip, kasus penggunaan yang menjelajahi dunia fiksi (misalnya, permainan, sastra) dan penggambaran dengan intensitas rendah.
Medium Konten yang menggunakan bahasa yang menyinggung, menghina, meniru, mengintimidasi, atau meremehkan terhadap grup identitas tertentu, termasuk penggambaran tentang mencari dan menjalankan instruksi berbahaya, fantasi, kemuliaan, promosi bahaya pada intensitas sedang.
Sangat Penting Konten yang menampilkan instruksi, tindakan, kerusakan, atau penyalahgunaan berbahaya yang eksplisit dan parah; termasuk dukungan, kemuliaan, atau promosi tindakan berbahaya yang parah, bentuk bahaya ekstrem atau ilegal, radikalisasi, atau pertukaran kekuasaan nonkonsensual atau penyalahgunaan.

Konfigurasi (pratinjau)

Konfigurasi pemfilteran konten default untuk seri model GPT diatur untuk memfilter pada ambang keparahan sedang untuk keempat kategori bahaya konten (kebencian, kekerasan, seksual, dan bahaya diri) dan berlaku untuk kedua perintah (teks, teks/gambar multi-modal) dan penyelesaian (teks). Ini berarti bahwa konten yang terdeteksi pada tingkat keparahan sedang atau tinggi difilter, sementara konten yang terdeteksi pada tingkat keparahan rendah tidak difilter oleh filter konten. Untuk DALL-E, ambang batas tingkat keparahan default diatur ke rendah untuk perintah (teks) dan penyelesaian (gambar), sehingga konten yang terdeteksi pada tingkat keparahan rendah, sedang, atau tinggi difilter. Fitur konfigurasi tersedia dalam pratinjau dan memungkinkan pelanggan untuk menyesuaikan pengaturan, secara terpisah untuk permintaan dan penyelesaian, untuk memfilter konten untuk setiap kategori konten pada tingkat keparahan yang berbeda seperti yang dijelaskan dalam tabel di bawah ini:

Tingkat keparahan difilter Dapat dikonfigurasi untuk perintah Dapat dikonfigurasi untuk penyelesaian Deskripsi
Rendah, sedang, tinggi Ya Ya Konfigurasi pemfilteran paling ketat. Konten yang terdeteksi pada tingkat keparahan rendah, sedang, dan tinggi difilter.
Sedang, tinggi Ya Ya Konten yang terdeteksi pada tingkat keparahan rendah tidak difilter, konten pada sedang dan tinggi difilter.
Sangat Penting Ya Ya Konten yang terdeteksi pada tingkat keparahan rendah dan sedang tidak difilter. Hanya konten pada tingkat keparahan tinggi yang difilter. Memerlukan persetujuan1.
Tidak ada filter Jika disetujui1 Jika disetujui1 Tidak ada konten yang difilter terlepas dari tingkat keparahan yang terdeteksi. Memerlukan persetujuan1.

1 Untuk model Azure OpenAI, hanya pelanggan yang telah disetujui untuk pemfilteran konten yang dimodifikasi yang memiliki kontrol pemfilteran konten penuh, termasuk mengonfigurasi filter konten pada tingkat keparahan tinggi saja atau menonaktifkan filter konten. Terapkan untuk filter konten yang dimodifikasi melalui formulir ini: Tinjauan Akses Terbatas Azure OpenAI: Filter Konten yang Dimodifikasi dan Pemantauan Penyalahgunaan (microsoft.com)

Pelanggan bertanggung jawab untuk memastikan bahwa aplikasi yang mengintegrasikan Azure OpenAI mematuhi Kode Etik.

Filter input lainnya

Anda juga dapat mengaktifkan filter khusus untuk skenario AI generatif:

  • Serangan Jailbreak: Serangan Jailbreak adalah Permintaan Pengguna yang dirancang untuk memprovokasi model AI Generatif agar menunjukkan perilaku yang dilatih untuk menghindari atau melanggar aturan yang ditetapkan dalam Pesan Sistem.
  • Serangan tidak langsung: Serangan Tidak Langsung, juga disebut sebagai Serangan Prompt Tidak Langsung atau Serangan Injeksi Prompt Lintas Domain, adalah potensi kerentanan di mana pihak ketiga menempatkan instruksi berbahaya di dalam dokumen yang dapat diakses dan diproses oleh sistem AI Generatif.

Filter output lainnya

Anda juga dapat mengaktifkan filter output khusus berikut:

  • Materi yang dilindungi untuk teks: Teks materi yang dilindungi menjelaskan konten teks yang diketahui (misalnya, lirik lagu, artikel, resep, dan konten web yang dipilih) yang dapat dihasilkan oleh model bahasa besar.
  • Bahan yang dilindungi untuk kode: Kode bahan yang dilindungi menjelaskan kode sumber yang cocok dengan sekumpulan kode sumber dari repositori publik, yang dapat dihasilkan oleh model bahasa besar tanpa kutipan repositori sumber yang tepat.
  • Groundedness: Filter deteksi groundedness mendeteksi apakah respons teks model bahasa besar (LLM) di-grounded dalam materi sumber yang disediakan oleh pengguna.

Langkah berikutnya