Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Oleh Andrew Marshall, Jugal Parikh, Emre Kiciman, dan Ram Shankar Siva Kumar
November 2019
Artikel ini adalah hasil dari Praktik Teknik Microsoft AETHER untuk Grup Kerja AI. Artikel ini berfungsi sebagai suplemen untuk bilah bug SDL yang ada yang digunakan untuk triase kerentanan keamanan tradisional. Ini dimaksudkan untuk digunakan sebagai referensi untuk triase masalah keamanan terkait AI/ML. Klasifikasi Tingkat Keparahan Kerentanan untuk Sistem AI (diterbitkan oleh Microsoft Security Response Center), menentukan jenis kerentanan umum dan tingkat keparahan untuk sistem yang melibatkan AI.
Panduan ini diselenggarakan di sekitar Taksonomi Ancaman Pembelajaran Mesin Adversarial, yang dibuat oleh Ram Shankar Siva Kumar, David O'Brien, Kendra Albert, Salome Viljoen, dan Jeffrey Snover, dan berjudul Mode Kegagalan dalam Pembelajaran Mesin. Sementara penelitian yang mendasari konten ini menangani perilaku yang disengaja/berbahaya dan tidak disengaja dalam mode kegagalan pembelajaran mesin (ML), tambahan batas bug ini sepenuhnya berfokus pada perilaku yang disengaja/berbahaya yang akan mengakibatkan insiden keamanan dan/atau penerapan perbaikan.
| Ancaman | Deskripsi/Risiko Bisnis/Contoh |
|---|---|
| Keracunan Data | Merusak data pelatihan - Tujuan akhir penyerang adalah untuk mencemari model mesin yang dihasilkan dalam fase pelatihan, sehingga prediksi pada data baru dimodifikasi dalam fase pengujian. Dalam serangan keracunan yang ditargetkan, penyerang ingin salah mengklasifikasikan contoh tertentu untuk menyebabkan tindakan tertentu diambil atau dihilangkan. Mengirimkan perangkat lunak AV sebagai malware untuk memaksa kesalahan klasifikasinya sebagai berbahaya dan menghilangkan penggunaan perangkat lunak AV yang ditargetkan pada sistem klien. Sebuah perusahaan mengambil data dari situs web yang terkenal dan tepercaya untuk data futures guna melatih model mereka. Situs web penyedia data kemudian disusupi melalui serangan Injeksi SQL. Penyerang dapat meracuni himpunan data kapan saja dan model yang dilatih tidak menyadari bahwa data tersebut telah tercemar. |
| Pencurian Model | Pembangunan ulang model dasar dengan menjalankan kueri secara sah. Fungsionalitas model baru sama dengan model yang mendasar. Setelah model dibuat ulang, model dapat dibalik untuk memulihkan informasi fitur atau membuat inferensi pada data pelatihan. Pemecahan persamaan – Untuk model yang mengembalikan probabilitas kelas melalui output API, penyerang dapat membuat kueri untuk menentukan variabel yang tidak diketahui dalam model. Path Finding – serangan yang mengeksploitasi kekhususan API untuk mengekstrak "keputusan" yang diambil oleh pohon saat mengklasifikasikan input. Serangan transferabilitas - Musuh dapat melatih model lokal—mungkin dengan mengeluarkan kueri prediksi ke model yang ditargetkan - dan menggunakannya untuk membuat contoh musuh yang ditransfer ke model target. Jika model Anda diekstrak dan ditemukan rentan terhadap jenis input musuh, serangan baru terhadap model yang disebarkan produksi Anda dapat dikembangkan sepenuhnya secara offline oleh penyerang yang mengekstrak salinan model Anda. Dalam pengaturan di mana model ML berfungsi untuk mendeteksi perilaku musuh, seperti identifikasi spam, klasifikasi malware, dan deteksi anomali jaringan, ekstraksi model dapat memfasilitasi serangan pengindaran |
| Pembalikan Model | Fitur privat yang digunakan dalam model pembelajaran mesin dapat dipulihkan. Ini termasuk rekonstruksi data pelatihan privat yang tidak dapat diakses oleh penyerang. Ini dicapai dengan menemukan input yang memaksimalkan tingkat keyakinan yang dihasilkan, dengan ketentuan klasifikasi cocok dengan target. Contoh: Rekonstruksi data pengenalan wajah dari nama yang ditebak atau diketahui dan akses API untuk mengkueri model. |
| Contoh Serangan Adversarial di Domain Fisik | Contoh-contoh ini dapat bermanifestasi di domain fisik, seperti mobil tanpa pengemudi yang ditipu untuk menerobos tanda berhenti karena warna cahaya tertentu (input adversarial) yang bersinar pada tanda berhenti, memaksa sistem pengenalan gambar tidak lagi mengenali tanda berhenti sebagai tanda berhenti. |
| Serangan Rantai Pasokan ML | Karena sumber daya besar (data + komputasi) yang diperlukan untuk melatih algoritma, praktik saat ini adalah menggunakan kembali model yang dilatih oleh perusahaan besar dan memodifikasinya sedikit untuk tugas yang ditangani (misalnya: ResNet adalah model pengenalan gambar populer dari Microsoft). Model-model ini dikumpulkan dalam Kumpulan Model (Caffe menyediakan platform untuk model pengenalan gambar populer). Dalam serangan ini, musuh menyerang model yang dihosting di Caffe, sehingga meracuni sumur untuk orang lain. |
| Algoritma dengan Backdoor dari Penyedia Pembelajaran Mesin Berbahaya | Mengorbankan algoritma yang mendasar Penyedia ML-as-a-Service yang berbahaya menyajikan algoritma yang sudah ditanamkan pintu belakang, di mana data pelatihan pribadi dapat dipulihkan. Ini memberi penyerang kemampuan untuk merekonstruksi data sensitif seperti wajah dan teks, hanya diberikan model. |
| Pemrograman Ulang Neural Net | Dengan kueri yang dibuat secara khusus dari penyerang, sistem ML dapat diprogram ulang ke tugas yang menyimpang dari niat asli pembuat Kontrol akses yang lemah pada API pengenalan wajah memungkinkan pihak ketiga untuk mengintegrasikan ke dalam aplikasi yang dirancang untuk membahayakan pengguna, seperti generator deep fake. Ini adalah skenario penyalahgunaan/penghapusan akun |
| Perturbasi Adversarial | Dalam serangan gaya perturbasi, penyerang secara diam-diam memodifikasi kueri untuk mendapatkan respons yang diinginkan dari model yang diterapkan dalam produksi. Ini adalah pelanggaran integritas input model yang menyebabkan serangan gaya fuzzing di mana hasil akhirnya belum tentu merupakan pelanggaran akses atau EOP. Sebaliknya, ini membahayakan performa klasifikasi model. Ini dapat diwujudkan oleh troll yang menggunakan kata-kata target tertentu sehingga AI melarangnya, yang secara efektif menghalangi layanan bagi pengguna sah dengan nama yang sesuai dengan kata "dilarang." Memaksa email jinak diklasifikasikan sebagai spam atau menyebabkan contoh berbahaya tidak terdeteksi. Ini juga dikenal sebagai serangan pengelakan atau mimikri model. Penyerang dapat membuat input untuk mengurangi tingkat keyakinan klasifikasi yang benar, terutama dalam skenario konsekuensi tinggi. Ini juga dapat berbentuk sejumlah besar kesalahan positif yang dimaksudkan untuk mengelabui administrator atau sistem pemantauan dengan peringatan palsu yang tidak dapat dibedakan dari peringatan yang sah. |
| Inferensi Keanggotaan | Menyimpulkan keanggotaan individu dalam grup yang digunakan untuk melatih model Misalnya: prediksi prosedur bedah berdasarkan usia/jenis kelamin/rumah sakit |