Catatan Transparansi untuk evaluasi keamanan Azure AI Studio

Artikel
09/02/2024

Penting

Item yang ditandai (pratinjau) dalam artikel ini sedang dalam pratinjau publik. Pratinjau ini disediakan tanpa perjanjian tingkat layanan, dan kami tidak merekomendasikannya untuk beban kerja produksi. Fitur tertentu mungkin tidak didukung atau mungkin memiliki kemampuan terbatas. Untuk mengetahui informasi selengkapnya, lihat Ketentuan Penggunaan Tambahan untuk Pratinjau Microsoft Azure.

Apa itu Catatan Transparansi

Sistem AI (kecerdasan buatan) tidak hanya mencakup teknologi, tetapi juga orang-orang yang akan menggunakannya, orang-orang yang akan terpengaruh olehnya, dan lingkungan tempat penyebarannya. Menciptakan sistem yang sesuai dengan tujuan yang dimaksudkan membutuhkan pemahaman tentang cara kerja teknologi, kemampuan dan batasannya, dan cara mencapai performa terbaik. Catatan Transparansi Microsoft dimaksudkan untuk membantu Anda memahami cara kerja teknologi AI kami, pilihan yang dapat dibuat pemilik sistem yang memengaruhi performa dan perilaku sistem, dan pentingnya memikirkan seluruh sistem, termasuk teknologi, orang-orang, dan lingkungan. Anda dapat menggunakan Catatan Transparansi saat mengembangkan atau menyebarkan sistem Anda sendiri, atau membagikannya dengan orang-orang yang akan menggunakan atau terpengaruh oleh sistem Anda.

Catatan Transparansi Microsoft adalah bagian dari upaya yang lebih luas di Microsoft untuk mempraktikkan Prinsip AI kami. Untuk mengetahui selengkapnya, lihat prinsip Microsoft AI.

Dasar-dasar evaluasi keamanan Azure AI Studio

Pendahuluan

Evaluasi keamanan Azure AI Studio memungkinkan pengguna mengevaluasi output aplikasi AI generatif mereka untuk risiko konten tekstual: konten yang penuh kebencian dan tidak adil, konten seksual, konten kekerasan, konten terkait bahaya diri sendiri, kerentanan jailbreak. Evaluasi keamanan juga dapat membantu menghasilkan himpunan data musuh untuk membantu Anda mempercepat dan menambah operasi tim merah. Evaluasi keamanan Azure AI Studio mencerminkan komitmen Microsoft untuk memastikan sistem AI dibangun dengan aman dan bertanggung jawab, mengoperasionalkan prinsip AI bertanggung jawab kami.

Istilah kunci

Konten yang penuh kebencian dan tidak adil mengacu pada bahasa apa pun yang berkaitan dengan kebencian terhadap atau representasi yang tidak adil dari individu dan kelompok sosial di sepanjang faktor termasuk tetapi tidak terbatas pada ras, etnis, kebangsaan, jenis kelamin, orientasi seksual, agama, status imigrasi, kemampuan, penampilan pribadi, dan ukuran tubuh. Ketidakadilan terjadi ketika sistem AI memperlakukan atau mewakili kelompok sosial secara tidak merata, membuat atau berkontribusi pada ketidaksetaraan sosial.
Konten seksual termasuk bahasa yang berkaitan dengan organ dan alat kelamin anatomi, hubungan romantis, tindakan yang digambarkan dalam istilah erotis, kehamilan, tindakan seksual fisik (termasuk kekerasan atau kekerasan seksual), prostitusi, pornografi, dan pelecehan seksual.
Konten kekerasan mencakup bahasa yang berkaitan dengan tindakan fisik yang dimaksudkan untuk menyakiti, melukai, merusak, atau membunuh seseorang atau sesuatu. Ini juga termasuk deskripsi senjata dan senjata (dan entitas terkait seperti produsen dan asosiasi).
Konten terkait bahaya mandiri mencakup bahasa yang berkaitan dengan tindakan yang dimaksudkan untuk melukai, melukai, atau merusak tubuh seseorang atau membunuh diri sendiri.
Jailbreak, serangan prompt langsung, atau serangan injeksi permintaan pengguna, lihat pengguna yang memanipulasi permintaan untuk menyuntikkan input berbahaya ke LLM untuk mendistorsi tindakan dan output. Contoh perintah jailbreak adalah serangan 'DAN' (Do Anything Now), yang dapat mengelabui LLM menjadi pembuatan konten yang tidak pantas atau mengabaikan pembatasan yang diberlakukan sistem.
Tingkat cacat (risiko konten) didefinisikan sebagai persentase instans dalam himpunan data pengujian Anda yang melampaui ambang batas pada skala tingkat keparahan atas seluruh ukuran himpunan data.
Red-teaming secara historis menggambarkan serangan musuh sistematis untuk menguji kerentanan keamanan. Dengan munculnya Model Bahasa Besar (LLM), istilah ini telah melampaui keamanan cyber tradisional dan berevolusi dalam penggunaan umum untuk menggambarkan banyak jenis pemeriksaan, pengujian, dan serangan sistem AI. Dengan LLM, penggunaan jinak dan adversarial dapat menghasilkan output yang berpotensi berbahaya, yang dapat mengambil banyak bentuk, termasuk konten berbahaya seperti ujaran kebencian, hasrat atau pemuliaan kekerasan, referensi ke konten terkait bahaya diri sendiri atau konten seksual.

Kemampuan

Perilaku sistem

Azure AI Studio menyediakan model Azure OpenAI GPT-4 dan mengatur serangan musuh terhadap aplikasi Anda untuk menghasilkan himpunan data pengujian berkualitas tinggi. Kemudian menyediakan model GPT-4 lain untuk membuat anotasi himpunan data pengujian Anda untuk konten dan keamanan. Pengguna menyediakan titik akhir aplikasi AI generatif yang ingin mereka uji, dan evaluasi keamanan akan menghasilkan himpunan data pengujian statis terhadap titik akhir tersebut bersama dengan label risiko kontennya (Sangat rendah, Rendah, Sedang, Tinggi) dan penalaran untuk label yang dihasilkan AI.

Kasus penggunaan

Penggunaan yang dimaksudkan

Evaluasi keamanan tidak dimaksudkan untuk digunakan untuk tujuan apa pun selain mengevaluasi risiko konten dan kerentanan jailbreak dari aplikasi AI generatif Anda:

Mengevaluasi pra-penyebaran aplikasi AI generatif Anda: Menggunakan wizard evaluasi di Azure AI Studio atau Azure AI Python SDK, evaluasi keamanan dapat menilai dengan cara otomatis untuk mengevaluasi potensi konten atau risiko keamanan.
Menambah operasi red-teaming Anda: Menggunakan simulator musuh, evaluasi keamanan dapat mensimulasikan interaksi musuh dengan aplikasi AI generatif Anda untuk mencoba mengungkap konten dan risiko keamanan.
Mengomunikasikan konten dan risiko keamanan kepada pemangku kepentingan: Menggunakan Azure AI Studio, Anda dapat berbagi akses ke proyek Azure AI Studio Anda dengan hasil evaluasi keamanan dengan auditor atau pemangku kepentingan kepatuhan.

Pertimbangan saat memilih kasus penggunaan

Kami mendorong pelanggan untuk memanfaatkan evaluasi keamanan Azure AI Studio dalam solusi atau aplikasi inovatif mereka. Namun, berikut adalah beberapa pertimbangan saat memilih kasus penggunaan:

Evaluasi keamanan harus mencakup human-in-the-loop: Menggunakan evaluasi otomatis seperti evaluasi keamanan Azure AI Studio harus mencakup pengulas manusia seperti pakar domain untuk menilai apakah aplikasi AI generatif Anda telah diuji secara menyeluruh sebelum penyebaran kepada pengguna akhir.
Evaluasi keamanan tidak mencakup cakupan komprehensif total: Meskipun evaluasi keselamatan dapat memberikan cara untuk menambah pengujian Anda untuk potensi risiko konten atau keamanan, itu tidak dirancang untuk menggantikan operasi tim merah manual yang secara khusus diarahkan ke domain aplikasi, kasus penggunaan, dan jenis pengguna akhir Anda.
Skenario yang didukung:
- Untuk simulasi adversarial: Jawaban atas pertanyaan, obrolan multi-giliran, ringkasan, pencarian, penulisan ulang teks, pembuatan konten tanpa latar belakang, dan grounded.
- Untuk anotasi otomatis: Jawaban atas pertanyaan dan obrolan multi-giliran.
Layanan saat ini paling baik digunakan dengan domain bahasa Inggris hanya untuk generasi tekstual. Fitur tambahan termasuk dukungan multi-model akan dipertimbangkan untuk rilis mendatang.
Cakupan risiko konten yang disediakan dalam evaluasi keamanan disubsampel dari sejumlah terbatas grup dan topik yang dipinggirkan:
- Metrik kebencian dan ketidakadilan mencakup beberapa cakupan untuk sejumlah kelompok marjinal yang terbatas untuk faktor demografis jenis kelamin (misalnya, pria, wanita, orang non-biner) dan ras, leluhur, etnis, dan kebangsaan (misalnya, Hitam, Meksiko, Eropa). Tidak semua kelompok yang terpinggirkan dalam jenis kelamin dan ras, nenek moyang, etnis, dan kebangsaan tercakup. Faktor demografis lain yang relevan dengan kebencian dan ketidakwajaran saat ini tidak memiliki cakupan (misalnya, disabilitas, seksualitas, agama).
- Metrik untuk konten terkait seksual, kekerasan, dan bahaya diri didasarkan pada konseptualisasi awal dari bahaya ini yang kurang dikembangkan daripada kebencian dan ketidakwajaran. Ini berarti bahwa kita dapat membuat klaim yang kurang kuat tentang cakupan pengukuran dan seberapa baik pengukuran mewakili berbagai cara bahaya ini dapat terjadi. Cakupan untuk jenis konten ini mencakup sejumlah topik terbatas yang berkaitan dengan seks (misalnya, kekerasan seksual, hubungan, tindakan seksual), kekerasan (misalnya, penyalahgunaan, melukai orang lain, penculikan), dan menyakiti diri sendiri (misalnya, kematian yang disengaja, cedera diri yang disengaja, gangguan makan).
Evaluasi keamanan Azure AI Studio saat ini tidak memungkinkan plug-in atau ekstensibilitas.
Untuk menjaga kualitas tetap up to date dan meningkatkan cakupan, kami akan bertujuan untuk irama rilis mendatang dari peningkatan simulasi dan anotasi adversarial layanan.

Batasan teknis, faktor operasional, dan rentang

Bidang model bahasa besar (LLM) terus berkembang dengan cepat, membutuhkan peningkatan teknik evaluasi berkelanjutan untuk memastikan penyebaran sistem AI yang aman dan andal. Evaluasi keamanan Azure AI Studio mencerminkan komitmen Microsoft untuk terus berinovasi di bidang evaluasi LLM. Kami bertujuan untuk memberikan alat terbaik untuk membantu Anda mengevaluasi keamanan aplikasi AI generatif Anda tetapi mengenali evaluasi yang efektif adalah pekerjaan berkelanjutan yang sedang berlangsung.
Kustomisasi evaluasi keamanan Azure AI Studio saat ini terbatas. Kami hanya mengharapkan pengguna untuk memberikan titik akhir aplikasi AI generatif input mereka dan layanan kami akan menghasilkan himpunan data statis yang diberi label untuk risiko konten.
Akhirnya, perlu dicatat bahwa sistem ini tidak mengotomatiskan tindakan atau tugas apa pun, itu hanya memberikan evaluasi output aplikasi AI generatif Anda, yang harus ditinjau oleh pembuat keputusan manusia dalam perulangan sebelum memilih untuk menyebarkan aplikasi atau sistem AI generatif ke dalam produksi untuk pengguna akhir.

Performa sistem

Praktik terbaik untuk meningkatkan performa sistem

Saat memperhitungkan domain Anda, yang mungkin memperlakukan beberapa konten dengan lebih sensitif daripada yang lain, pertimbangkan untuk menyesuaikan ambang batas untuk menghitung tingkat cacat.
Saat menggunakan evaluasi keamanan otomatis, terkadang mungkin ada kesalahan dalam label yang dihasilkan AI Anda untuk tingkat keparahan risiko konten atau penalarannya. Ada kolom umpan balik manusia manual untuk mengaktifkan validasi human-in-the-loop dari hasil evaluasi keselamatan otomatis.

Evaluasi evaluasi keamanan Azure AI Studio

Metode evaluasi

Untuk semua jenis risiko konten yang didukung, kami telah memeriksa kualitas secara internal dengan membandingkan tingkat perkiraan kecocokan antara pelabel manusia menggunakan skala keparahan 0-7 dan anotator otomatis evaluasi keselamatan juga menggunakan skala keparahan 0-7 pada himpunan data yang sama. Untuk setiap area risiko, kami memiliki pelabel manusia dan label anotator otomatis 500 teks berbahasa Inggris dan sekali putar. Pelabel manusia dan anotator otomatis tidak menggunakan versi pedoman anotasi yang sama persis; sementara pedoman anotator otomatis berasal dari pedoman bagi manusia, mereka telah menyimpang ke berbagai derajat (dengan pedoman kebencian dan ketidakadilan yang paling berbeda). Terlepas dari perbedaan yang sedikit hingga sedang ini, kami yakin masih berguna untuk berbagi tren dan wawasan umum dari perbandingan perkiraan kecocokan kami. Dalam perbandingan kami, kami mencari kecocokan dengan toleransi 2 tingkat (di mana label manusia cocok dengan label anotator otomatis dengan tepat atau berada dalam 2 tingkat di atas atau di bawahnya dalam tingkat keparahan), cocok dengan toleransi 1 tingkat, dan cocok dengan toleransi tingkat 0.

Hasil evaluasi

Secara keseluruhan, kami melihat tingkat tinggi perkiraan kecocokan di seluruh risiko konten melukai diri sendiri dan konten seksual di semua tingkat toleransi. Untuk kekerasan dan untuk kebencian dan ketidakadilan, perkiraan tingkat kecocokan di seluruh tingkat toleransi lebih rendah. Hasil ini sebagian disebabkan oleh peningkatan divergensi dalam konten pedoman anotasi untuk pelabel manusia versus anotator otomatis, dan sebagian karena meningkatnya jumlah konten dan kompleksitas dalam pedoman tertentu.

Meskipun perbandingan kami adalah antara entitas yang digunakan sedikit ke pedoman anotasi yang sedikit berbeda (dan dengan demikian bukan perbandingan perjanjian model manusia standar), perbandingan ini memberikan perkiraan kualitas yang dapat kita harapkan dari evaluasi keamanan Azure AI Studio mengingat parameter perbandingan ini. Secara khusus, kami hanya melihat sampel bahasa Inggris, sehingga temuan kami mungkin tidak digeneralisasi ke bahasa lain. Selain itu, setiap sampel himpunan data hanya terdiri dari satu giliran, sehingga lebih banyak eksperimen diperlukan untuk memverifikasi generalisasi temuan evaluasi kami ke skenario multi-giliran (misalnya, percakapan bolak-balik termasuk kueri pengguna dan respons sistem). Jenis sampel yang digunakan dalam himpunan data evaluasi ini juga dapat sangat memengaruhi perkiraan laju kecocokan antara label manusia dan anotator otomatis - jika sampel lebih mudah diberi label (misalnya, jika semua sampel bebas dari risiko konten), kami mungkin mengharapkan perkiraan tingkat kecocokan menjadi lebih tinggi. Kualitas label manusia untuk evaluasi juga dapat memengaruhi generalisasi temuan kami.

Mengevaluasi dan mengintegrasikan evaluasi keamanan Azure AI Studio untuk penggunaan Anda

Pengukuran dan evaluasi aplikasi AI generatif Anda adalah bagian penting dari pendekatan holistik untuk manajemen risiko AI. Evaluasi keamanan Azure AI Studio melengkapi dan harus digunakan bersama dengan praktik manajemen risiko AI lainnya. Pakar domain dan peninjau human-in-the-loop harus memberikan pengawasan yang tepat saat menggunakan evaluasi keamanan yang dibantu AI dalam desain, pengembangan, dan siklus penyebaran aplikasi AI generatif. Anda harus memahami batasan dan penggunaan evaluasi keamanan yang dimaksudkan, berhati-hati agar tidak mengandalkan output yang dihasilkan oleh evaluasi keamanan yang dibantu Azure AI Studio AI dalam isolasi.

Karena sifat non-deterministik LLM, Anda mungkin mengalami hasil negatif atau positif palsu, seperti tingkat keparahan tinggi konten kekerasan yang dicetak sebagai "sangat rendah" atau "rendah." Selain itu, hasil evaluasi mungkin memiliki arti yang berbeda untuk audiens yang berbeda. Misalnya, evaluasi keamanan dapat menghasilkan label untuk tingkat keparahan "rendah" konten kekerasan yang mungkin tidak selaras dengan definisi pengulas manusia tentang seberapa parah konten kekerasan tertentu itu. Di Azure AI Studio, kami menyediakan kolom umpan balik manusia dengan jempol ke atas dan jempol ke bawah saat melihat hasil evaluasi Anda untuk menampilkan instans mana yang disetujui atau ditandai sebagai salah oleh peninjau manusia. Pertimbangkan konteks bagaimana hasil Anda mungkin ditafsirkan untuk pengambilan keputusan oleh orang lain yang dapat Anda bagikan evaluasi dengan dan memvalidasi hasil evaluasi Anda dengan tingkat pengamatan yang sesuai untuk tingkat risiko di lingkungan tempat setiap aplikasi AI generatif beroperasi.

Bagikan melalui