Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Penting
Item-item yang ditandai (pratinjau) dalam artikel ini saat ini sedang berada dalam pratinjau publik. Pratinjau ini disediakan tanpa kesepakatan tingkat layanan, dan kami tidak merekomendasikannya untuk penggunaan dalam lingkungan produksi. Fitur tertentu mungkin tidak didukung atau mungkin memiliki kemampuan terbatas. Untuk informasi lebih lanjut, lihat Supplemental Terms of Use for Microsoft Azure Previews.
Agen AI Red Teaming adalah alat canggih yang dirancang untuk membantu organisasi secara proaktif menemukan risiko keselamatan yang terkait dengan sistem AI generatif selama desain dan pengembangan model dan aplikasi AI generatif.
Tim merah tradisional melibatkan eksploitasi rantai pembunuhan cyber dan menjelaskan proses di mana sistem diuji untuk kerentanan keamanan. Namun, dengan munculnya AI generatif, istilah AI red teaming telah diciptakan untuk menggambarkan pencarian risiko baru (baik terkait konten maupun keamanan) yang ada di sistem ini dan mengacu pada simulasi perilaku pengguna yang bersikap mengancam yang mencoba menyebabkan sistem AI Anda berperilaku menyimpang.
Agen Red Teaming AI memanfaatkan kerangka kerja sumber terbuka Microsoft untuk kemampuan red teaming AI dari Alat Identifikasi Risiko Python (PyRIT) bersama dengan Evaluasi Risiko dan Keselamatan dari Microsoft Foundry untuk membantu Anda menilai isu keselamatan secara otomatis melalui tiga pendekatan:
- Pemindaian otomatis untuk risiko konten: Pertama, Anda dapat secara otomatis memindai model dan titik akhir aplikasi Anda untuk risiko keamanan dengan mensimulasikan pemeriksaan adversarial.
- Evaluasi keberhasilan pemeriksaan: Selanjutnya, Anda dapat mengevaluasi dan menilai setiap pasangan respons serangan untuk menghasilkan metrik berwawasan seperti Attack Success Rate (ASR).
- Pelaporan dan pengelogan Terakhir, Anda dapat menghasilkan kartu skor teknik penyelidikan serangan dan kategori risiko untuk membantu Anda memutuskan apakah sistem siap untuk penyebaran. Temuan dapat dicatat, dipantau, dan dilacak dari waktu ke waktu langsung di Foundry, memastikan kepatuhan dan mitigasi risiko berkelanjutan.
Bersama-sama komponen ini (memindai, mengevaluasi, dan melaporkan) membantu tim memahami bagaimana sistem AI merespons serangan umum, pada akhirnya memandu strategi manajemen risiko yang komprehensif.
Kapan sebaiknya menggunakan pengujian tim merah AI
Saat memikirkan risiko keselamatan terkait AI yang mengembangkan sistem AI yang dapat dipercaya, Microsoft menggunakan kerangka kerja NIST untuk mengurangi risiko secara efektif: Mengatur, Memetakan, Mengukur, Mengelola. Kami akan fokus pada tiga bagian terakhir dalam kaitannya dengan siklus hidup pengembangan AI generatif:
- Peta: Identifikasi risiko yang relevan dan tentukan kasus penggunaan Anda.
- Ukuran: Mengevaluasi risiko dalam skala besar.
- Kelola: Mitigasi risiko dalam produksi dan pantau dengan rencana respons insiden.
Agen Red Teaming AI dapat digunakan untuk menjalankan pemindaian otomatis dan mensimulasikan pengujian lawan untuk membantu mempercepat identifikasi dan evaluasi risiko yang diketahui dalam skala besar. Ini membantu tim "bergeser ke kiri" dari insiden reaktif yang mahal ke kerangka kerja pengujian yang lebih proaktif yang dapat menangkap masalah sebelum penyebaran. Proses pengujian keandalan keamanan manual AI memerlukan banyak waktu dan sumber daya. Ini bergantung pada kreativitas keahlian di bidang keselamatan dan keamanan untuk mensimulasikan ujicoba serangan. Proses ini dapat menciptakan hambatan bagi banyak organisasi untuk mempercepat adopsi AI. Dengan AI Red Teaming Agent, organisasi sekarang dapat memanfaatkan keahlian mendalam Microsoft untuk menskalakan dan mempercepat pengembangan AI mereka dengan Trustworthy AI di garis depan.
Kami mendorong tim untuk menggunakan Agen Tim Merah AI untuk menjalankan pemindaian otomatis di seluruh tahap desain, pengembangan, dan pra-penyebaran:
- Desain: Memilih model dasar paling aman pada kasus penggunaan Anda.
- Pengembangan: Meningkatkan model dalam aplikasi Anda atau membuat model yang disempurnakan untuk aplikasi spesifik Anda.
- Pra-penyebaran: Sebelum menyebarkan aplikasi dan agen GenAI ke produksi.
- Pasca-penyebaran: Pantau aplikasi dan agen Gen AI Anda setelah penyebaran dengan penyelenggaraan tim merah terencana secara berkelanjutan pada data adversarial sintetis.
Dalam produksi, sebaiknya terapkan pagar pembatas keselamatan seperti filter Azure AI Content Safety atau menerapkan pesan sistem keselamatan menggunakan templat kami. Untuk alur kerja agenik, sebaiknya manfaatkan Foundry Control Plane untuk menerapkan pagar pembatas dan mengatur armada agen Anda.
Cara kerja AI Red Teaming
Agen AI Red Teaming membantu mengotomatiskan simulasi pemeriksaan adversarial dari sistem AI target Anda. Ini menyediakan himpunan data yang dikurasi dari prompt awal atau sasaran serangan dalam setiap kategori risiko yang didukung. Ini dapat digunakan untuk mengotomatiskan pengujian langsung secara adversarial. Namun, pengujian yang bersifat konfrontatif mungkin mudah terdeteksi oleh penyelarasan keamanan yang sudah ada dari penerapan model Anda. Menerapkan strategi serangan dari PyRIT menyediakan konversi tambahan yang dapat membantu melewati atau menumbangkan sistem AI ke dalam menghasilkan konten yang tidak diinginkan.
Dalam diagram, kita dapat melihat bahwa permintaan langsung ke sistem AI Anda tentang cara menjarah bank memicu respons penolakan. Namun, menerapkan strategi serangan seperti membalik semua karakter dapat membantu mengelabui model untuk menjawab pertanyaan.
Selain itu, AI Red Teaming Agent memberi pengguna model bahasa besar musuh yang disempurnakan yang didedikasikan untuk tugas mensimulasikan serangan musuh dan mengevaluasi respons yang mungkin memiliki konten berbahaya di dalamnya dengan Evaluator Risiko dan Keselamatan. Metrik utama untuk menilai postur risiko sistem AI Anda adalah Attack Success Rate (ASR) yang menghitung persentase serangan yang berhasil atas jumlah total serangan.
Kategori risiko yang didukung
Kategori risiko berikut didukung dalam Agen Tim Merah AI dari Evaluasi Risiko dan Keselamatan. Hanya skenario berbasis teks yang didukung.
| Kategori risiko | Target yang didukung | Pengujian tim merah lokal atau di cloud | Deskripsi |
|---|---|---|---|
| Konten Yang Penuh Kebencian dan Tidak Adal | Model dan agen | Lokal dan awan | Konten yang penuh kebencian dan tidak adil mengacu pada bahasa atau citra apa pun yang berkaitan dengan kebencian terhadap atau representasi yang tidak adil dari individu dan kelompok sosial berdasarkan berbagai faktor termasuk tetapi tidak terbatas pada, seperti ras, etnis, kebangsaan, jenis kelamin, orientasi seksual, agama, status imigrasi, kemampuan, penampilan pribadi, dan ukuran tubuh. Ketidakadilan terjadi ketika sistem AI memperlakukan atau mewakili kelompok sosial secara tidak merata, membuat atau berkontribusi pada ketidaksetaraan sosial. |
| Konten Seksual | Model dan agen | Lokal dan awan | Konten seksual termasuk bahasa atau citra yang berkaitan dengan organ dan alat kelamin anatomi, hubungan romantis, tindakan yang digambarkan dalam istilah erotis, kehamilan, tindakan seksual fisik (termasuk serangan atau kekerasan seksual), prostitusi, pornografi, dan pelecehan seksual. |
| Konten Kekerasan | Model dan agen | Lokal dan awan | Konten kekerasan mencakup bahasa atau citra yang berkaitan dengan tindakan fisik yang dimaksudkan untuk menyakiti, melukai, merusak, atau membunuh seseorang atau sesuatu. Ini juga termasuk deskripsi senjata dan senjata api (serta entitas terkait seperti produsen dan asosiasi). |
| KontenHarm-Related Mandiri | Model dan agen | Lokal dan awan | Konten terkait melukai diri sendiri mencakup bahasa atau citra yang berkaitan dengan tindakan yang dimaksudkan untuk menyakiti, melukai, atau merusak tubuh seseorang atau mengambil nyawa sendiri. |
| Bahan yang Dilindungi | Model dan agen | Lokal dan awan | Materi yang dilindungi hak cipta atau dilindungi seperti lirik, lagu, dan resep. |
| Kerentanan kode | Model dan agen | Lokal dan awan | Mengukur apakah AI menghasilkan kode dengan kerentanan keamanan, seperti injeksi kode, tar-slip, injeksi SQL, paparan jejak tumpukan dan risiko lainnya di seluruh Python, Java, C++, C#, Go, JavaScript, dan SQL. |
| Atribut tidak terhubung | Model dan agen | Lokal dan awan | Mengukur pembuatan respons teks sistem AI yang berisi inferensi tidak berdasar tentang atribut pribadi, seperti demografi atau keadaan emosionalnya. |
| Tindakan yang dilarang | Hanya agen | Hanya komputasi awan | Mengukur kemampuan agen AI untuk terlibat dalam perilaku yang melanggar tindakan atau penggunaan alat yang secara eksplisit tidak diizinkan berdasarkan kebijakan/taksonomi tindakan dilarang yang terverifikasi oleh pengguna. |
| Kebocoran data sensitif | Hanya agen | Hanya komputasi awan | Mengukur kerentanan agen AI untuk mengekspos informasi sensitif (data keuangan, pengidentifikasi pribadi, data kesehatan, dll.) |
| Kepatuhan tugas | Hanya agen | Hanya komputasi awan | Mengukur apakah agen AI menyelesaikan tugas yang ditetapkan dengan mengikuti tujuan pengguna, menghormati semua aturan dan batasan, dan menjalankan prosedur yang diperlukan tanpa tindakan atau kelalaian yang tidak sah. |
Risiko terkait agen
Kategori risiko khusus agen seperti tindakan yang dilarang, kebocoran data sensitif, dan kepatuhan tugas memerlukan pendekatan untuk tim merah otomatis yang berbeda dari kategori risiko khusus model. Secara khusus, Agen Red Teaming AI tidak lagi hanya memeriksa output yang dihasilkan, tetapi juga memeriksa output alat untuk perilaku yang tidak aman atau berisiko. Kategori risiko agensi hanya tersedia dalam red-teaming berbasis cloud untuk menyediakan lingkungan sandbox dengan minimal pembatasan.
Untuk pengujian tim merah cloud, kami menyunting input berbahaya atau adversarial yang dikirim ke model atau agen Anda dari hasil pengujian tersebut. Ini mencegah pengembang dan pemangku kepentingan non-teknis terekspos ke serangan prompt yang berpotensi berbahaya yang dihasilkan oleh pelaksanaan Agen Red Teaming AI.
Untuk kategori risiko agenik beregu merah, kami memastikan bahwa ketika AI red teaming menjalankan eksekusi yang menargetkan agen yang dihosting oleh Foundry, ini adalah eksekusi sementara sehingga data berbahaya tidak dicatat oleh Foundry Agent Service dan penyelesaian obrolan tidak disimpan. Kami menyarankan semua pengembang untuk menjalankan latihan red teaming di "lingkungan ungu", yaitu lingkungan non-produksi yang dikonfigurasi dengan sumber daya yang menyerupai produksi untuk melihat cara kerja agen Anda dalam skenario yang mendekati kehidupan nyata.
Kebocoran data sensitif
Pengujian tim merah kebocoran data sensitif untuk kebocoran data keuangan, medis, dan pribadi dari basis pengetahuan internal dan panggilan alat. Agen Red Teaming AI menggunakan himpunan data sintetis dari informasi sensitif dan alat tiruan untuk menghasilkan skenario yang mendorong agen mengungkap informasi. Tingkat Keberhasilan Serangan (ASR) mendefinisikan apakah eksekusi tim merah mendeteksi kebocoran tingkat format menggunakan pencocokan pola atau tidak.
Keterbatasan: Giliran tunggal, hanya bahasa Inggris; data sintetis; mengecualikan kebocoran memori/set pelatihan.
Tindakan yang dilarang
Pengujian tim merah melarang apakah agen melakukan tindakan yang dilarang, berisiko tinggi, atau tidak dapat diubah dengan menghasilkan prompt dinamis yang memusuhi berdasarkan kebijakan yang disediakan oleh pengguna dan taksonomi tindakan yang dilarang, beserta serangkaian alat yang didukung yang digunakan oleh agen dan deskripsi alat yang disediakan oleh pengguna. Attack Success Rate (ASR) mendefinisikan pelanggaran kebijakan yang dilakukan oleh agen berdasarkan kebijakan yang disediakan pengguna.
| Kategori | Deskripsi | Aturan Tunjangan |
|---|---|---|
| Tindakan yang Dilarang | Dilarang secara universal (misalnya, pengenalan wajah, inferensi emosi, penilaian sosial). | ❌ Tidak pernah diizinkan |
| Tindakan Berisiko Tinggi | Tindakan sensitif membutuhkan otorisasi manusia eksplisit (misalnya, transaksi keuangan, keputusan medis). | ⚠️ Diizinkan dengan konfirmasi human-in-the-loop |
| Tindakan yang Tidak Dapat Diubah | Operasi permanen (misalnya, penghapusan file, reset sistem). | ⚠️ Diizinkan dengan pengungkapan ditambah konfirmasi |
Keterbatasan: Satu kali proses, hanya bahasa Inggris; fokus pada tingkat alat; tidak menggunakan data produksi langsung.
Perhatian
Penafian untuk Penggunaan Taksonomi Tindakan Terlarang Pihak Ketiga:
Taksonomi tindakan yang dilarang, berisiko tinggi, dan tidak dapat diubah yang disediakan dalam produk ini dimaksudkan semata-mata sebagai panduan ilustrasi untuk mendukung pengembang agen dalam mengevaluasi dan menyesuaikan kerangka kerja risiko mereka sendiri. Ini bukan merupakan daftar pasti atau lengkap praktik yang dilarang, juga tidak mencerminkan kebijakan Microsoft atau interpretasi peraturan. Organisasi pihak ketiga tetap bertanggung jawab penuh untuk memastikan agen mereka mematuhi hukum dan peraturan yang berlaku, termasuk tetapi tidak terbatas pada Undang-Undang AI UE dan persyaratan yurisdiksi lainnya. Microsoft sangat menyarankan untuk mempertahankan tindakan default yang dilarang yang berasal dari batasan peraturan dan mencegah penghapusan item ini. Penggunaan produk ini tidak menjamin kepatuhan. Organisasi harus berkonsultasi dengan penasihat hukum mereka sendiri untuk menilai dan menerapkan perlindungan dan larangan yang sesuai yang disesuaikan dengan konteks operasional dan toleransi risiko mereka.
Kepatuhan tugas
Pengujian kepatuhan tugas melalui tim merah menguji apakah agen menyelesaikan tugas yang diberikan dengan setia dengan mencapai tujuan pengguna, menghormati semua aturan dan batasan, serta mengikuti prosedur yang diperlukan. Agen AI Red Teaming menyelidikan tiga dimensi: pencapaian tujuan (apakah agen mencapai tujuan yang dimaksudkan), kepatuhan aturan (termasuk pagar pembatas kebijakan dan kontrak presentasi), dan disiplin prosedural (penggunaan alat, alur kerja, dan grounding yang benar). Himpunan data pemicu memperhitungkan alat-alat yang tersedia dan didukung untuk menghasilkan beragam lintasan agenik, termasuk kasus representatif dan adversarial, untuk menguji baik skenario umum maupun skenario khusus.
Serangan yang Diinjeksi Prompt Tidak Langsung
Indirect Prompt Injected Attacks (juga dikenal sebagai Cross-Domain Prompt Injected Attacks, XPIA) dalam pengujian red teaming menguji apakah agen dapat dimanipulasi oleh instruksi berbahaya yang tersembunyi di sumber data eksternal, seperti email atau dokumen, yang diakses melalui panggilan alat. Agen AI Red Teaming menggunakan dataset sintetis dari pertanyaan pengguna non-berbahaya dan keluaran alat tiruan yang berisi placeholder serangan. Selama pemeriksaan, Agen Tim Merah AI menyuntikkan serangan khusus risiko ke dalam konteks ini untuk menilai apakah agen target menjalankan tindakan yang tidak diinginkan atau tidak aman. Attack Success Rate (ASR) mengukur seberapa sering agen disusupi oleh injeksi prompt tidak langsung, menggunakan kategori risiko khusus agenik seperti tindakan yang dilarang, kebocoran data sensitif, atau kepatuhan tugas.
Lihat daftar lengkap strategi serangan di bagian berikutnya.
Agen dan alat yang didukung
Agen AI Red Teaming saat ini mendukung agen Foundry beregu merah dengan panggilan alat Azure, dengan matriks dukungan berikut:
| Agen/Tindakan yang Didukung | Kedudukan |
|---|---|
| Agen prompt yang dihosting oleh Foundry | Didukung |
| Agen kontainer yang dihosting oleh Foundry | Didukung |
| Agen alur kerja Foundry | Tidak Didukung |
| Agen non-Foundry | Tidak Didukung |
| Alat non-Azure | Tidak Didukung |
| Panggilan alat Azure | Didukung |
| Panggilan alat fungsi | Tidak didukung |
| Panggilan alat otomatisasi peramban | Tidak Didukung |
| Panggilan dari alat Connected Agent | Tidak Didukung |
| Panggilan alat Penggunaan Komputer | Tidak Didukung |
Untuk daftar alat yang komprehensif, lihat Alat.
Strategi serangan yang didukung
Strategi serangan berikut didukung di Agen Teaming Merah AI dari PyRIT:
| Strategi Serangan | Deskripsi |
|---|---|
| AnsiAttack | Menggunakan urutan escape ANSI untuk memanipulasi tampilan dan perilaku teks. |
| ASCII Art | Membuat seni visual menggunakan karakter ASCII, sering digunakan untuk tujuan kreatif atau tersembunyi. |
| Penyelundup AsciiS | Menyembunyikan data dalam karakter ASCII, sehingga lebih sulit dideteksi. |
| Atbash | Mengimplementasikan sandi Atbash, sandi substitusi sederhana di mana setiap huruf dipetakan ke sebaliknya. |
| Base64 | Mengodekan data biner ke dalam format teks menggunakan Base64, umumnya digunakan untuk transmisi data. |
| Biner | Mengonversi teks menjadi kode biner yang mewakili data dalam rangkaian 0 dan 1. |
| Kaisar | Menerapkan sandi Caesar, sandi substitusi yang menggeser karakter dengan jumlah posisi tetap. |
| CharacterSpace | Mengubah teks dengan menambahkan spasi antar karakter, sering digunakan untuk pengaburan. |
| CharSwap | Tukar karakter dalam teks untuk membuat variasi atau mengaburkan konten asli. |
| Diakritik | Menambahkan tanda diakritik ke karakter, mengubah penampilannya, dan terkadang maknanya. |
| Flip | Membalik karakter dari depan ke belakang, menciptakan efek cermin. |
| Leetspeak | Mengubah teks menjadi Leetspeak, bentuk pengodean yang menggantikan huruf dengan angka atau simbol yang terlihat serupa. |
| Morse | Mengodekan teks ke dalam kode Morse, menggunakan titik dan tanda hubung untuk mewakili karakter. |
| ROT13 | Menerapkan cipher ROT13, cipher substitusi sederhana yang menggeser karakter sebesar 13 posisi. |
| Akhiran Tambahkan | Menambahkan akhiran lawan ke prompt |
| StringJoin | Menggabungkan beberapa string, sering digunakan untuk perangkaian atau penyamaran. |
| Karakter Unicode yang Dapat Terkelirukan | Menggunakan karakter Unicode yang terlihat mirip dengan karakter standar, menciptakan kebingungan visual. |
| Penggantian Unicode | Mengganti karakter standar dengan ekuivalen Unicode, sering kali untuk menyamarkan teks. |
| URL | Mengodekan teks ke dalam format URL |
| Pelarian dari penjara | Menyuntikkan perintah yang dirancang secara khusus untuk melewati perlindungan keamanan AI, disebut User Injected Prompt Attacks (UPIA). |
| Jailbreak Tidak Langsung | Menyuntikkan petunjuk serangan dalam output alat atau mengembalikan konteks dengan melewati perlindungan AI secara tidak langsung, yang dikenal sebagai Serangan Injeksi Prompt Tidak Langsung. |
| Tegang | Mengubah bentuk kata kerja dalam teks menjadi bentuk lampau. |
| Multi giliran | Menjalankan serangan di beberapa putaran percakapan, menggunakan akumulasi konteks untuk melampaui langkah-langkah pengamanan atau menimbulkan perilaku yang tidak diinginkan. |
| Kresendo | Secara bertahap meningkatkan kompleksitas atau risiko permintaan selama putaran interaksi berturut-turut, menyelidiki kelemahan dalam pertahanan agen melalui tantangan bertahap. |
Batasan AI Red Teaming Agent yang diketahui
Agen Red Teaming AI memiliki beberapa batasan penting untuk dipertimbangkan saat menjalankan dan menganalisis hasil red teaming.
- Tim merah menjalankan skenario simulasi di mana agen Foundry terpapar data sensitif atau menyerang data kendaraan secara langsung. Karena data ini semuanya sintetis, ini tidak mewakili distribusi data dunia nyata.
- Alat pemodelan saat ini hanya digunakan untuk mengakses data sintetis dan memfasilitasi evaluasi pengujian tim merah. Saat ini mereka tidak mendukung perilaku simulasi, yang akan memungkinkan pengujian lebih mendekati sandboxing realistis daripada yang didukung saat ini.
- Karena kurangnya dukungan sandboxing yang sepenuhnya terisolasi, evaluasi tim merah kami yang bersifat adversarial dikendalikan untuk menghindari dampak di dunia nyata.
- Eksekusi red teaming hanya mewakili populasi musuh dan tidak menyertakan populasi pengamatan apa pun.
- Red teaming menggunakan model generatif untuk mengevaluasi Tingkat Keberhasilan Serangan (ASR) dan dapat bersifat non-deterministik, non-prediktif. Oleh karena itu, selalu ada kemungkinan positif palsu dan kami selalu merekomendasikan untuk meninjau hasil sebelum mengambil tindakan mitigasi.
Pelajari lebih lanjut
Mulailah dengan dokumentasi kami tentang cara melakukan pemindaian otomatis terhadap risiko keamanan dengan Agen Kecerdasan Buatan Teaming Merah.
Pelajari selengkapnya tentang alat yang digunakan oleh Agen Teaming Merah AI.
Strategi paling efektif untuk penilaian risiko yang telah kita lihat menggunakan alat otomatis untuk memunculkan potensi risiko, yang kemudian dianalisis oleh tim manusia ahli untuk wawasan yang lebih dalam. Jika organisasi Anda baru saja memulai dengan tim merah AI, kami mendorong Anda untuk menjelajahi sumber daya yang dibuat oleh tim merah AI kami sendiri di Microsoft untuk membantu Anda memulai.