Merencanakan tim merah untuk model bahasa besar (LLM) dan aplikasi mereka

Artikel
11/08/2023

Panduan ini menawarkan beberapa strategi potensial untuk merencanakan cara menyiapkan dan mengelola tim merah untuk risiko AI (RAI) yang bertanggung jawab di seluruh siklus hidup produk model bahasa besar (LLM).

Apa itu tim merah?

Istilah red teaming secara historis menggambarkan serangan musuh sistematis untuk menguji kerentanan keamanan. Dengan munculnya LLM, istilah ini telah melampaui keamanan cyber tradisional dan berevolusi dalam penggunaan umum untuk menggambarkan banyak jenis pemeriksaan, pengujian, dan serangan sistem AI. Dengan LLM, penggunaan jinak dan adversarial dapat menghasilkan output yang berpotensi berbahaya, yang dapat mengambil banyak bentuk, termasuk konten berbahaya seperti ujaran kebencian, hasrat atau pemuliaan kekerasan, atau konten seksual.

Mengapa RAI red bekerja sama dengan praktik penting?

Red teaming adalah praktik terbaik dalam pengembangan sistem dan fitur yang bertanggung jawab menggunakan LLM. Meskipun bukan pengganti pengukuran sistematis dan pekerjaan mitigasi, tim merah membantu mengungkap dan mengidentifikasi bahaya dan, pada gilirannya, memungkinkan strategi pengukuran untuk memvalidasi efektivitas mitigasi.

Meskipun Microsoft telah melakukan latihan tim merah dan menerapkan sistem keselamatan (termasuk filter konten dan strategi mitigasi lainnya) untuk model Layanan Azure OpenAI-nya (lihat Gambaran Umum praktik AI yang bertanggung jawab ini), konteks setiap aplikasi LLM akan unik dan Anda juga harus melakukan kerja sama merah untuk:

Uji model dasar LLM dan tentukan apakah ada celah dalam sistem keselamatan yang ada, mengingat konteks aplikasi Anda.
Identifikasi dan mitigasi kekurangan dalam filter default atau strategi mitigasi yang ada.
Berikan umpan balik tentang kegagalan untuk melakukan penyempurnaan.
Perhatikan bahwa tim merah bukan pengganti pengukuran sistematis. Praktik terbaik adalah menyelesaikan putaran awal tim merah manual sebelum melakukan pengukuran sistematis dan menerapkan mitigasi. Seperti yang disorot di atas, tujuan dari tim merah RAI adalah untuk mengidentifikasi bahaya, memahami permukaan risiko, dan mengembangkan daftar bahaya yang dapat menginformasikan apa yang perlu diukur dan dimitigasi.

Berikut adalah cara Anda dapat memulai dan merencanakan proses tim merah LLM Anda. Perencanaan lanjutan sangat penting untuk latihan tim merah produktif.

Sebelum menguji

Rencana: Siapa akan melakukan pengujian

Merakit berbagai kelompok tim merah

Tentukan komposisi ideal tim merah dalam hal pengalaman, demografi, dan keahlian orang di seluruh disiplin ilmu (misalnya, para ahli dalam AI, ilmu sosial, keamanan) untuk domain produk Anda. Misalnya, jika Anda merancang chatbot untuk membantu penyedia layanan kesehatan, pakar medis dapat membantu mengidentifikasi risiko di domain tersebut.

Merekrut tim merah dengan pola pikir jinak dan lawan

Memiliki tim merah dengan pola pikir adversarial dan pengalaman pengujian keamanan sangat penting untuk memahami risiko keamanan, tetapi tim merah yang merupakan pengguna biasa dari sistem aplikasi Anda dan belum terlibat dalam pengembangannya dapat membawa perspektif berharga pada bahaya yang mungkin dihadapi pengguna reguler.

Tetapkan tim merah untuk merugikan dan/atau fitur produk

Tetapkan tim merah RAI dengan keahlian khusus untuk memeriksa jenis bahaya tertentu (misalnya, pakar masalah subjek keamanan dapat memeriksa jailbreak, ekstraksi prompt meta, dan konten yang terkait dengan serangan cyber).
Untuk beberapa putaran pengujian, putuskan apakah akan mengalihkan penetapan tim merah di setiap putaran untuk mendapatkan perspektif yang beragam pada setiap bahaya dan mempertahankan kreativitas. Jika beralih tugas, izinkan waktu bagi tim merah untuk mempercepat instruksi untuk bahaya yang baru ditetapkan.
Pada tahap selanjutnya, ketika aplikasi dan UI-nya dikembangkan, Anda mungkin ingin menetapkan tim merah ke bagian tertentu dari aplikasi (yaitu, fitur) untuk memastikan cakupan seluruh aplikasi.
Pertimbangkan berapa banyak waktu dan upaya yang harus didedikasikan setiap tim merah (misalnya, pengujian tersebut untuk skenario jinak mungkin membutuhkan lebih sedikit waktu daripada pengujian tersebut untuk skenario musuh).

Hal ini dapat membantu untuk menyediakan tim merah dengan:

Instruksi jelas yang dapat mencakup:
- Pengantar yang menjelaskan tujuan dan tujuan dari putaran tim merah yang diberikan; produk dan fitur yang akan diuji dan cara mengaksesnya; jenis masalah apa yang harus diuji; area fokus tim merah, jika pengujian lebih ditargetkan; berapa banyak waktu dan upaya yang harus dihabiskan setiap tim merah untuk pengujian; cara merekam hasil; dan siapa yang harus dihubungi dengan pertanyaan.
File atau lokasi untuk merekam contoh dan temuan mereka, termasuk informasi seperti:
- Tanggal contoh muncul; pengidentifikasi unik untuk pasangan input/output jika tersedia, untuk tujuan reproduksi; prompt input; deskripsi atau cuplikan layar output.

Rencana: Apa yang harus diuji

Karena aplikasi dikembangkan menggunakan model dasar, Anda mungkin perlu menguji di beberapa lapisan yang berbeda:

Model dasar LLM dengan sistem keamanannya diberlakukan untuk mengidentifikasi celah apa pun yang mungkin perlu ditangani dalam konteks sistem aplikasi Anda. (Pengujian biasanya dilakukan melalui titik akhir API.)
Aplikasi Anda. (Pengujian paling baik dilakukan melalui UI.)
Baik model dasar LLM maupun aplikasi Anda, sebelum dan sesudah mitigasi diberlakukan.

Rekomendasi berikut membantu Anda memilih apa yang harus diuji di berbagai titik selama tim merah:

Anda dapat memulai dengan menguji model dasar untuk memahami permukaan risiko, mengidentifikasi bahaya, dan memandu pengembangan mitigasi RAI untuk produk Anda.
Uji versi produk Anda secara berulang dengan dan tanpa mitigasi RAI untuk menilai efektivitas mitigasi RAI. (Catatan, tim merah manual mungkin tidak cukup penilaian—gunakan pengukuran sistematis juga, tetapi hanya setelah menyelesaikan putaran awal tim merah manual.)
Lakukan pengujian aplikasi pada UI produksi sebanyak mungkin karena ini paling mirip dengan penggunaan dunia nyata.

Saat melaporkan hasil, perjelas titik akhir mana yang digunakan untuk pengujian. Ketika pengujian dilakukan di titik akhir selain produk, pertimbangkan untuk menguji lagi pada titik akhir produksi atau UI di putaran mendatang.

Rencana: Cara menguji

Lakukan pengujian terbuka untuk mengungkap berbagai bahaya.

Manfaat tim merah RAI mengeksplorasi dan mendokumentasikan konten bermasalah (daripada meminta mereka untuk menemukan contoh bahaya tertentu) memungkinkan mereka untuk secara kreatif menjelajahi berbagai masalah, mengungkap titik buta dalam pemahaman Anda tentang permukaan risiko.

Buat daftar bahaya dari pengujian terbuka.

Pertimbangkan untuk membuat daftar bahaya, dengan definisi dan contoh bahaya.
Berikan daftar ini sebagai pedoman kepada tim merah di putaran pengujian selanjutnya.

Lakukan tim merah terpandu dan iterasi: Lanjutkan pemeriksaan untuk bahaya dalam daftar; identifikasi bahaya baru yang muncul.

Gunakan daftar bahaya jika tersedia dan lanjutkan pengujian untuk bahaya yang diketahui dan efektivitas mitigasinya. Dalam prosesnya, Anda kemungkinan akan mengidentifikasi bahaya baru. Integrasikan ini ke dalam daftar dan buka untuk menggeser prioritas pengukuran dan mitigasi untuk mengatasi bahaya yang baru diidentifikasi.

Rencanakan yang membahayakan untuk diprioritaskan untuk pengujian berulang. Beberapa faktor dapat menginformasikan prioritas Anda, termasuk, tetapi tidak terbatas pada, tingkat keparahan bahaya dan konteks di mana mereka lebih cenderung muncul.

Rencana: Cara merekam data

Tentukan data apa yang perlu Anda kumpulkan dan data apa yang opsional.

Tentukan data apa yang perlu dicatat oleh tim merah (misalnya, input yang mereka gunakan; output sistem; ID unik, jika tersedia, untuk mereproduksi contoh di masa mendatang; dan catatan lainnya.)
Jadilah strategis dengan data apa yang Anda kumpulkan untuk menghindari tim merah yang luar biasa, sementara tidak kehilangan informasi penting.

Membuat struktur untuk pengumpulan data

Lembar bentang Excel bersama sering kali merupakan metode paling sederhana untuk mengumpulkan data tim merah. Manfaat dari file bersama ini adalah bahwa tim merah dapat meninjau contoh satu sama lain untuk mendapatkan ide-ide kreatif untuk pengujian mereka sendiri dan menghindari duplikasi data.

Selama pengujian

Rencanakan untuk siaga aktif saat tim merah sedang berlangsung

Bersiaplah untuk membantu tim merah dengan masalah instruksi dan akses.
Pantau kemajuan pada spreadsheet dan kirim pengingat tepat waktu ke tim merah.

Setelah setiap putaran pengujian

Laporkan data

Bagikan laporan singkat tentang interval reguler dengan pemangku kepentingan utama yang:

Mencantumkan masalah yang diidentifikasi teratas.
Menyediakan tautan ke data mentah.
Mempratinjau rencana pengujian untuk putaran mendatang.
Mengakui tim merah.
Menyediakan informasi relevan lainnya.

Membedakan antara identifikasi dan pengukuran

Dalam laporan, pastikan untuk mengklarifikasi bahwa peran tim merah RAI adalah untuk mengekspos dan meningkatkan pemahaman tentang permukaan risiko dan bukan pengganti pengukuran sistematis dan pekerjaan mitigasi yang ketat. Penting bahwa orang tidak menafsirkan contoh tertentu sebagai metrik untuk pervasifitas bahaya itu.

Selain itu, jika laporan berisi konten dan contoh yang bermasalah, pertimbangkan untuk menyertakan peringatan konten.

Panduan dalam dokumen ini tidak dimaksudkan untuk, dan tidak boleh ditafsirkan sebagai memberikan nasihat hukum. Yurisdiksi tempat Anda beroperasi mungkin memiliki berbagai persyaratan peraturan atau hukum yang berlaku untuk sistem AI Anda. Ketahuilah bahwa tidak semua rekomendasi ini sesuai untuk setiap skenario dan, sebaliknya, rekomendasi ini mungkin tidak cukup untuk beberapa skenario.

Share via