Bagikan melalui


AI/ML Pivot ke Bilah Bug Siklus Hidup Pengembangan Keamanan

Oleh Andrew Marshall, Jugal Parikh, Emre Kiciman, dan Ram Shankar Siva Kumar

November 2019

Artikel ini adalah hasil dari Praktik Teknik Microsoft AETHER untuk Grup Kerja AI. Artikel ini berfungsi sebagai suplemen untuk bilah bug SDL yang ada yang digunakan untuk triase kerentanan keamanan tradisional. Ini dimaksudkan untuk digunakan sebagai referensi untuk triase masalah keamanan terkait AI/ML. Klasifikasi Tingkat Keparahan Kerentanan untuk Sistem AI (diterbitkan oleh Microsoft Security Response Center), menentukan jenis kerentanan umum dan tingkat keparahan untuk sistem yang melibatkan AI.

Panduan ini diselenggarakan di sekitar Taksonomi Ancaman Pembelajaran Mesin Adversarial, yang dibuat oleh Ram Shankar Siva Kumar, David O'Brien, Kendra Albert, Salome Viljoen, dan Jeffrey Snover, dan berjudul Mode Kegagalan dalam Pembelajaran Mesin. Sementara penelitian konten ini didasarkan pada alamat perilaku yang disengaja/berbahaya dan tidak disengaja dalam mode kegagalan ML, suplemen bilah bug ini berfokus sepenuhnya pada perilaku yang disengaja/berbahaya yang akan mengakibatkan insiden keamanan dan/atau penyebaran perbaikan.

Ancaman Deskripsi/Risiko Bisnis/Contoh
Keracunan Data

Merusak data pelatihan - Tujuan akhir penyerang adalah untuk mencemari model mesin yang dihasilkan dalam fase pelatihan, sehingga prediksi pada data baru dimodifikasi dalam fase pengujian.

Dalam serangan keracunan yang ditargetkan, penyerang ingin salah mengklasifikasikan contoh tertentu untuk menyebabkan tindakan tertentu diambil atau dihilangkan.

Mengirimkan perangkat lunak AV sebagai malware untuk memaksa kesalahan klasifikasinya sebagai berbahaya dan menghilangkan penggunaan perangkat lunak AV yang ditargetkan pada sistem klien.

Perusahaan mengekstrak situs web terkenal dan tepercaya untuk data futures untuk melatih model mereka. Situs web penyedia data kemudian disusupi melalui serangan Injeksi SQL. Penyerang dapat meracuni himpunan data sesering mungkin dan model yang dilatih tidak memiliki gagasan bahwa data ternoda.

Pencurian Model

Rekreasi model yang mendasar dengan mengkuerinya secara sah. Fungsionalitas model baru sama dengan model yang mendasar. Setelah model dibuat ulang, model dapat dibalik untuk memulihkan informasi fitur atau membuat inferensi pada data pelatihan.

Pemecahan persamaan – Untuk model yang mengembalikan probabilitas kelas melalui output API, penyerang dapat membuat kueri untuk menentukan variabel yang tidak diketahui dalam model.

Path Finding – serangan yang mengeksploitasi kekhususan API untuk mengekstrak "keputusan" yang diambil oleh pohon saat mengklasifikasikan input.

Serangan transferabilitas - Musuh dapat melatih model lokal—mungkin dengan mengeluarkan kueri prediksi ke model yang ditargetkan - dan menggunakannya untuk membuat contoh musuh yang ditransfer ke model target. Jika model Anda diekstrak dan ditemukan rentan terhadap jenis input musuh, serangan baru terhadap model yang disebarkan produksi Anda dapat dikembangkan sepenuhnya secara offline oleh penyerang yang mengekstrak salinan model Anda.

Dalam pengaturan di mana model ML berfungsi untuk mendeteksi perilaku musuh, seperti identifikasi spam, klasifikasi malware, dan deteksi anomali jaringan, ekstraksi model dapat memfasilitasi serangan pengindaran

Inversi Model

Fitur privat yang digunakan dalam model pembelajaran mesin dapat dipulihkan. Ini termasuk rekonstruksi data pelatihan privat yang tidak dapat diakses oleh penyerang. Ini dicapai dengan menemukan input yang memaksimalkan tingkat keyakinan yang dikembalikan, tunduk pada klasifikasi yang cocok dengan target.

Contoh: Rekonstruksi data pengenalan wajah dari nama yang ditebak atau diketahui dan akses API untuk mengkueri model.

Contoh Adversarial di Domain Fisik Contoh-contoh ini dapat bermanifestasi di domain fisik, seperti mobil mengemudi sendiri yang ditipu untuk menjalankan tanda berhenti karena warna cahaya tertentu (input iklan) bersinar pada tanda berhenti, memaksa sistem pengenalan gambar untuk tidak lagi melihat tanda berhenti sebagai tanda berhenti.
Rantai Pasokan ML Serangan

Karena sumber daya besar (data + komputasi) yang diperlukan untuk melatih algoritma, praktik saat ini adalah menggunakan kembali model yang dilatih oleh perusahaan besar dan memodifikasinya sedikit untuk tugas yang ditangani (misalnya: ResNet adalah model pengenalan gambar populer dari Microsoft).

Model-model ini dikumpulkan dalam Kebun Binatang Model (Caffe menghosting model pengenalan gambar populer).

Dalam serangan ini, musuh menyerang model yang dihosting di Caffe, sehingga meracuni sumur untuk orang lain.

Algoritma Backdoored dari Penyedia ML Berbahaya

Mengorbankan algoritma yang mendasar

Penyedia ML-as-a-Service berbahaya menyajikan algoritma backdoored, di mana data pelatihan privat dipulihkan. Ini memberi penyerang kemampuan untuk merekonstruksi data sensitif seperti wajah dan teks, hanya diberikan model.

Pemrograman Ulang Neural Net

Dengan kueri yang dibuat secara khusus dari penyerang, sistem ML dapat diprogram ulang ke tugas yang menyimpang dari niat asli pembuat

Kontrol akses yang lemah pada API pengenalan wajah memungkinkan pihak ketiga untuk bergabung ke dalam aplikasi yang dirancang untuk membahayakan pengguna, seperti generator palsu yang mendalam.

Ini adalah skenario penyalahgunaan/penghapusan akun

Perturbasi Adversarial

Dalam serangan gaya perturbasi, penyerang secara diam-diam memodifikasi kueri untuk mendapatkan respons yang diinginkan dari model yang disebarkan produksi. Ini adalah pelanggaran integritas input model yang menyebabkan serangan gaya fuzzing di mana hasil akhirnya belum tentu merupakan pelanggaran akses atau EOP. Sebaliknya, ini membahmari performa klasifikasi model.

Ini dapat dimanifestasikan oleh troll menggunakan kata-kata target tertentu dengan cara AI melarangnya, secara efektif menolak layanan ke pengguna yang sah dengan nama yang cocok dengan kata "dilarang".

Memaksa email jinak diklasifikasikan sebagai spam atau menyebabkan contoh berbahaya tidak terdeteksi. Ini juga dikenal sebagai serangan pengelakan atau mimikri model.

Penyerang dapat membuat input untuk mengurangi tingkat keyakinan klasifikasi yang benar, terutama dalam skenario konsekuensi tinggi. Ini juga dapat berbentuk sejumlah besar positif palsu yang dimaksudkan untuk membuat administrator kewalahan atau sistem pemantauan dengan peringatan penipuan yang tidak dapat dibedakan dari pemberitahuan yang sah.

Inferensi Keanggotaan

Menyimpulkan keanggotaan individu dalam grup yang digunakan untuk melatih model

Misalnya: prediksi prosedur bedah berdasarkan usia/jenis kelamin/rumah sakit