Sistem dan Dependensi AI/ML Pemodelan Ancaman

Oleh Andrew Marshall, Jugal Parikh, Emre Kiciman dan Ram Shankar Siva Kumar

Terima Kasih Khusus untuk Raul Rojas dan AETHER Security Engineering Workstream

November 2019

Dokumen ini adalah hasil dari Praktik Teknik AETHER untuk AI Working Group dan melengkapi praktik pemodelan ancaman SDL yang ada dengan memberikan panduan baru tentang enumerasi ancaman dan mitigasi khusus untuk AI dan ruang Pembelajaran Mesin. Ini dimaksudkan untuk digunakan sebagai referensi selama tinjauan desain keamanan berikut:

  1. Produk/layanan yang berinteraksi dengan atau mengambil dependensi pada layanan berbasis AI/ML

  2. Produk/layanan yang dibangun dengan AI/ML pada intinya

Mitigasi ancaman keamanan tradisional lebih penting dari sebelumnya. Persyaratan yang ditetapkan oleh Siklus Hidup Pengembangan Keamanan sangat penting untuk membangun fondasi keamanan produk yang dibangun panduan ini. Kegagalan untuk mengatasi ancaman keamanan tradisional membantu mengaktifkan serangan khusus AI/ML yang tercakup dalam dokumen ini di domain perangkat lunak dan fisik, serta membuat kompromi sepele menurunkan tumpukan perangkat lunak. Untuk pengenalan ancaman keamanan baru di ruang ini, lihat Mengamankan Masa Depan AI dan ML di Microsoft.

Keterampilan teknisi keamanan dan ilmuwan data biasanya tidak tumpang tindih. Panduan ini memberikan cara bagi kedua disiplin ilmu untuk memiliki percakapan terstruktur tentang ancaman/mitigasi baru ini tanpa mengharuskan teknisi keamanan menjadi ilmuwan data atau sebaliknya.

Dokumen ini dibagi menjadi dua bagian:

  1. "Pertimbangan Baru Utama dalam Pemodelan Ancaman" berfokus pada cara berpikir baru dan pertanyaan baru untuk diajukan saat pemodelan ancaman sistem AI/ML. Baik ilmuwan data maupun insinyur keamanan harus meninjau ini karena akan menjadi playbook mereka untuk diskusi pemodelan ancaman dan prioritas mitigasi.
  2. "Ancaman khusus AI/ML dan Mitigasinya" memberikan detail tentang serangan tertentu serta langkah-langkah mitigasi tertentu yang digunakan saat ini untuk melindungi produk dan layanan Microsoft dari ancaman ini. Bagian ini terutama ditargetkan pada ilmuwan data yang mungkin perlu menerapkan mitigasi ancaman tertentu sebagai output dari proses pemodelan ancaman/peninjauan keamanan.

Panduan ini diselenggarakan di sekitar Taksonomi Ancaman Pembelajaran Mesin Adversarial yang dibuat oleh Ram Shankar Siva Kumar, David O'Brien, Kendra Albert, Salome Viljoen, dan Jeffrey Snover berjudul "Mode Kegagalan dalam Pembelajaran Mesin." Untuk panduan manajemen insiden tentang triaging ancaman keamanan yang dirinci dalam dokumen ini, lihat Bilah Bug SDL untuk Ancaman AI/ML. Semua ini adalah dokumen hidup yang akan berkembang dari waktu ke waktu dengan lanskap ancaman.

Pertimbangan Baru Utama dalam Pemodelan Ancaman: Mengubah cara Anda melihat Batas Kepercayaan

Asumsikan kompromi/keracunan data yang Anda latih serta penyedia data. Pelajari cara mendeteksi entri data anomali dan berbahaya serta dapat membedakan antara dan memulihkannya

Ringkasan

Penyimpanan Data Pelatihan dan sistem yang menghostingnya adalah bagian dari cakupan Pemodelan Ancaman Anda. Ancaman keamanan terbesar dalam pembelajaran mesin saat ini adalah keracunan data karena kurangnya deteksi standar dan mitigasi di ruang ini, dikombinasikan dengan ketergantungan pada himpunan data publik yang tidak tepercaya/tidak diakui sebagai sumber data pelatihan. Melacak bukti dan silsilah data Anda sangat penting untuk memastikan kepercayaannya dan menghindari siklus pelatihan "sampah masuk, sampah keluar".

Pertanyaan untuk Diajukan dalam Tinjauan Keamanan

  • Jika data Anda diracuni atau dirusak, bagaimana Anda tahu?

    - Telemetri apa yang Anda miliki untuk mendeteksi ke condong dalam kualitas data pelatihan Anda?

  • Apakah Anda berlatih dari input yang disediakan pengguna?

    -Apa jenis input validasi / sanitasi yang Anda lakukan pada konten itu?

    -Apakah struktur data ini didokumentasikan mirip dengan Lembar Data untuk Himpunan Data?

  • Jika Anda berlatih melawan penyimpanan data online, langkah apa yang Anda ambil untuk memastikan keamanan koneksi antara model Anda dan data?

    - Apakah mereka memiliki cara untuk melaporkan kompromi kepada konsumen dari umpan mereka?

    -Apakah mereka bahkan mampu itu?

  • Seberapa sensitif data yang Anda latih?

    -Apakah Anda membuat katalog atau mengontrol penambahan/pembaruan/penghapusan entri data?

  • Dapatkah model Anda menghasilkan data sensitif?

    -Apakah data ini diperoleh dengan izin dari sumber?

  • Apakah model hanya menghasilkan hasil yang diperlukan untuk mencapai tujuannya?

  • Apakah model Anda mengembalikan skor keyakinan mentah atau output langsung lainnya yang dapat direkam dan diduplikasi?

  • Apa dampak data pelatihan Anda yang dipulihkan dengan menyerang/membalikkan model Anda?

  • Jika tingkat keyakinan output model Anda tiba-tiba turun, dapatkah Anda mengetahui bagaimana/mengapa, serta data yang menyebabkannya?

  • Apakah Anda telah menentukan input yang terbentuk dengan baik untuk model Anda? Apa yang Anda lakukan untuk memastikan input memenuhi format ini dan apa yang Anda lakukan jika tidak?

  • Jika output Anda salah tetapi tidak menyebabkan kesalahan dilaporkan, bagaimana Anda tahu?

  • Apakah Anda tahu apakah algoritma pelatihan Anda tahan terhadap input musuh pada tingkat matematika?

  • Bagaimana Anda pulih dari kontaminasi iklan data pelatihan Anda?

    -Dapatkah Anda mengisolasi/mengkarantina konten iklan dan melatih kembali model yang terkena dampak?

    -Dapatkah Anda mengembalikan/memulihkan ke model versi sebelumnya untuk pelatihan ulang?

  • Apakah Anda menggunakan Pembelajaran Penguatan pada konten publik yang tidak ditautkan?

  • Mulailah berpikir tentang silsilah data Anda - apakah Anda menemukan masalah, bisakah Anda melacaknya untuk pengenalannya ke dalam himpunan data? Jika tidak, apakah itu masalah?

  • Ketahui dari mana data pelatihan Anda berasal dan identifikasi norma statistik untuk mulai memahami seperti apa anomali

    -Apa elemen data pelatihan Anda rentan terhadap pengaruh luar?

    -Siapa dapat berkontribusi pada himpunan data tempat Anda berlatih?

    -Bagaimana Anda akan menyerang sumber data pelatihan Anda untuk membahayakan pesaing?

  • Adversarial Perturbation (semua varian)

  • Keracunan Data (semua varian)

Contoh Serangan

  • Memaksa email jinak diklasifikasikan sebagai spam atau menyebabkan contoh berbahaya tidak terdeteksi

  • Input yang dibuat penyerang yang mengurangi tingkat keyakinan klasifikasi yang benar, terutama dalam skenario konsekuensi tinggi

  • Penyerang menyuntikkan kebisingan secara acak ke dalam data sumber yang diklasifikasikan untuk mengurangi kemungkinan klasifikasi yang benar yang digunakan di masa depan, secara efektif menyamarkan model

  • Kontaminasi data pelatihan untuk memaksa kesalahan klasifikasi titik data tertentu, yang mengakibatkan tindakan tertentu diambil atau dihilangkan oleh sistem

Mengidentifikasi tindakan yang dapat dilakukan model atau produk/layanan Anda yang dapat menyebabkan bahaya pelanggan secara online atau di domain fisik

Ringkasan

Dibiarkan tidak dikurangi, serangan pada sistem AI/ML dapat menemukan jalan mereka ke dunia fisik. Skenario apa pun yang dapat dipelintir untuk membahayakan pengguna secara psikologis atau fisik adalah risiko bencana bagi produk/layanan Anda. Ini meluas ke data sensitif apa pun tentang pelanggan Anda yang digunakan untuk pelatihan dan pilihan desain yang dapat membocorkan poin data privat tersebut.

Pertanyaan untuk Diajukan dalam Tinjauan Keamanan

  • Apakah Anda berlatih dengan contoh musuh? Dampak apa yang mereka miliki pada output model Anda di domain fisik?

  • Seperti apa trolling produk/layanan Anda? Bagaimana Anda dapat mendeteksi dan meresponsnya?

  • Apa yang diperlukan untuk membuat model Anda mengembalikan hasil yang mengelabui layanan Anda untuk menolak akses ke pengguna yang sah?

  • Apa dampak model Anda yang disalin/dicuri?

  • Dapatkah model Anda digunakan untuk menyimpulkan keanggotaan seseorang dalam grup tertentu, atau hanya dalam data pelatihan?

  • Dapatkah penyerang menyebabkan kerusakan reputasi atau garis miring terbalik PR pada produk Anda dengan memaksanya untuk melakukan tindakan tertentu?

  • Bagaimana Anda menangani data yang diformat dengan benar tetapi terlalu bias, seperti dari troll?

  • Untuk setiap cara berinteraksi dengan atau mengkueri model Anda terekspos, bisakah metode tersebut diinterogasi untuk mengungkapkan data pelatihan atau fungsionalitas model?

  • Inferensi Keanggotaan

  • Inversi Model

  • Pencurian Model

Contoh Serangan

  • Rekonstruksi dan ekstraksi data pelatihan dengan berulang kali mengkueri model untuk hasil keyakinan maksimum

  • Duplikasi model itu sendiri dengan pencocokan kueri/respons yang lengkap

  • Mengkueri model dengan cara yang mengungkapkan elemen tertentu dari data privat disertakan dalam set pelatihan

  • Mobil mengemudi sendiri ditipu untuk mengabaikan tanda berhenti/lampu lalu lintas

  • Bot percakapan dimanipulasi untuk troll pengguna jinak

Mengidentifikasi semua sumber dependensi AI/ML serta lapisan presentasi frontend dalam rantai pasokan data/model Anda

Ringkasan

Banyak serangan di AI dan Pembelajaran Mesin dimulai dengan akses sah ke API yang muncul untuk menyediakan akses kueri ke model. Karena sumber data yang kaya dan pengalaman pengguna kaya yang terlibat di sini, diautentikasi tetapi "tidak pantas" (ada area abu-abu di sini) akses pihak ketiga ke model Anda adalah risiko karena kemampuan untuk bertindak sebagai lapisan presentasi di atas layanan yang disediakan Microsoft.

Pertanyaan untuk Diajukan dalam Tinjauan Keamanan

  • Pelanggan/mitra mana yang diautentikasi untuk mengakses api model atau layanan Anda?

    -Dapatkah mereka bertindak sebagai lapisan presentasi di atas layanan Anda?

    -Dapatkah Anda mencabut akses mereka segera jika terjadi kompromi?

    -Apa strategi pemulihan Anda jika terjadi penggunaan layanan atau dependensi berbahaya Anda?

  • Dapatkah pihak ketiga membangun fasad di sekitar model Anda untuk merancangnya kembali dan membahayakan Microsoft atau pelanggannya?

  • Apakah pelanggan memberikan data pelatihan kepada Anda secara langsung?

    -Bagaimana Anda mengamankan data itu?

    -Bagaimana jika itu berbahaya dan layanan Anda adalah target?

  • Seperti apa bentuk positif palsu di sini? Apa dampak dari false-negative?

  • Dapatkah Anda melacak dan mengukur penyimpangan tingkat Positif Benar vs Positif Palsu di beberapa model?

  • Telemetri seperti apa yang Anda butuhkan untuk membuktikan kepercayaan output model Anda kepada pelanggan Anda?

  • Identifikasi semuadependensi pihak ketiga dalam rantai pasokan data ML/Pelatihan Anda - tidak hanya sumber terbuka perangkat lunak, tetapi juga penyedia data

    -Mengapa Anda menggunakannya dan bagaimana Anda memverifikasi kepercayaan mereka?

  • Apakah Anda menggunakan model bawaan dari pihak ke-3 atau mengirimkan data pelatihan kepenyedia MLaaS pihak ketiga?

  • Berita persediaan tentang serangan pada produk/layanan serupa. Memahami bahwa banyak ancaman AI/ML ditransfer antar jenis model, apa dampak serangan ini terhadap produk Anda sendiri?

  • Pemrograman Ulang Neural Net

  • Contoh Adversarial di domain fisik

  • Data Pelatihan Pemulihan Penyedia ML Berbahaya

  • Menyerang Rantai Pasokan ML

  • Backdoored Model

  • Dependensi khusus ML yang disusupi

Contoh Serangan

  • Penyedia MLaaS berbahaya trojan model Anda dengan bypass tertentu

  • Pelanggan adversary menemukan kerentanan dalam dependensi OSS umum yang Anda gunakan, mengunggah payload data pelatihan yang dibuat untuk membahayakan layanan Anda

  • Mitra yang tidak berani menggunakan API pengenalan wajah dan membuat lapisan presentasi atas layanan Anda untuk menghasilkan Deep Fakes.

Ancaman khusus AI/ML dan Mitigasinya

#1: Perturbasi Adversarial

Deskripsi

Dalam serangan gaya perturbasi, penyerang secara diam-diam memodifikasi kueri untuk mendapatkan respons yang diinginkan dari model yang disebarkan produksi[1]. Ini adalah pelanggaran integritas input model yang menyebabkan serangan gaya fuzzing di mana hasil akhirnya belum tentu merupakan pelanggaran akses atau EOP, tetapi sebaliknya membahmi performa klasifikasi model. Ini juga dapat dimanifestasikan oleh troll menggunakan kata-kata target tertentu dengan cara yang akan dilarang AI, secara efektif menolak layanan ke pengguna yang sah dengan nama yang cocok dengan kata "dilarang".

Diagram that shows increasing attack difficulty when complexity is increasing and capability is decreasing.[24]

Varian #1a: Kesalahan klasifikasi yang ditargetkan

Dalam hal ini penyerang menghasilkan sampel yang tidak berada di kelas input pengklasifikasi target tetapi diklasifikasikan oleh model sebagai kelas input tertentu. Sampel musuh dapat muncul seperti kebisingan acak untuk mata manusia tetapi penyerang memiliki beberapa pengetahuan tentang sistem pembelajaran mesin target untuk menghasilkan kebisingan putih yang tidak acak tetapi mengeksploitasi beberapa aspek spesifik dari model target. Lawan memberikan sampel input yang bukan sampel yang sah, tetapi sistem target mengklasifikasikannya sebagai kelas yang sah.

Contoh

A diagram showing that a photo of targeted noise is incorrectly classified by an image classifier resulting in a photo of a bus.[6]

Mitigasi

  • Memperkuat Ketahanan Adversarial menggunakan Keyakinan Model yang Diinduksi oleh Pelatihan Adversarial [19]: Penulis mengusulkan Highly Confident Near Neighbor (HCNN), kerangka kerja yang menggabungkan informasi keyakinan dan pencarian tetangga terdekat, untuk memperkuat ketahanan lawan dari model dasar. Ini dapat membantu membedakan antara prediksi model yang benar dan salah di lingkungan titik yang diambil sampelnya dari distribusi pelatihan yang mendasar.

  • Analisis Kausal berbasis atribusi [20]: Penulis mempelajari koneksi antara ketahanan terhadap perturbasi lawan dan penjelasan berbasis atribusi dari keputusan individu yang dihasilkan oleh model pembelajaran mesin. Mereka melaporkan bahwa input lawan tidak kuat di ruang atribusi, yaitu menutupi beberapa fitur dengan atribusi tinggi menyebabkan perubahan ketidaktegasan model pembelajaran mesin pada contoh lawan. Sebaliknya, input alami kuat dalam ruang atribusi.

    An illustration showing two approaches to determining how input values 9,9 becomes misclassified as 9,4.[20]

Pendekatan ini dapat membuat model pembelajaran mesin lebih tangguh terhadap serangan musuh karena membodohi sistem kognisi dua lapisan ini tidak hanya membutuhkan serangan model asli tetapi juga memastikan bahwa atribusi yang dihasilkan untuk contoh musuh mirip dengan contoh asli. Kedua sistem harus secara bersamaan disusupi untuk serangan musuh yang berhasil.

Paralel Tradisional

Elevasi Hak Istimewa Jarak Jauh karena penyerang sekarang memegang kendali atas model Anda

Tingkat keparahan

Kritis

Varian #1b: Kesalahan klasifikasi Sumber/Target

Ini ditandai sebagai upaya penyerang untuk mendapatkan model untuk mengembalikan label yang diinginkan untuk input tertentu. Ini biasanya memaksa model untuk mengembalikan positif palsu atau negatif palsu. Hasil akhirnya adalah pengalihan yang halus dari akurasi klasifikasi model, di mana penyerang dapat menginduksi bypass tertentu sesering mungkin.

Meskipun serangan ini memiliki dampak yang merugikan yang signifikan terhadap akurasi klasifikasi, juga dapat lebih intensif waktu untuk dilakukan mengingat bahwa musuh tidak hanya harus memanipulasi data sumber sehingga tidak lagi diberi label dengan benar, tetapi juga diberi label khusus dengan label penipuan yang diinginkan. Serangan ini sering melibatkan beberapa langkah/upaya untuk memaksa kesalahan klasifikasi [3]. Jika model rentan terhadap transfer serangan pembelajaran yang memaksa kesalahan klasifikasi yang ditargetkan, mungkin tidak ada jejak lalu lintas penyerang yang berbeda karena serangan pemeriksaan dapat dilakukan secara offline.

Contoh

Memaksa email jinak diklasifikasikan sebagai spam atau menyebabkan contoh berbahaya tidak terdeteksi. Ini juga dikenal sebagai serangan pengelakan atau mimikri model.

Mitigasi

Tindakan Deteksi Reaktif/Defensif

  • Terapkan ambang waktu minimum antara panggilan ke API yang memberikan hasil klasifikasi. Ini memperlambat pengujian serangan multi-langkah dengan meningkatkan jumlah waktu keseluruhan yang diperlukan untuk menemukan perturbasi keberhasilan.

Tindakan Proaktif/Protektif

  • Fitur Denoising untuk Meningkatkan Ketahanan Adversarial [22]: Penulis mengembangkan arsitektur jaringan baru yang meningkatkan ketahanan lawan dengan melakukan penggusuran fitur. Secara khusus, jaringan berisi blok yang mendenoise fitur menggunakan cara non-lokal atau filter lainnya; seluruh jaringan dilatih secara end-to-end. Ketika dikombinasikan dengan pelatihan musuh, fitur mendenoisi jaringan secara substansial meningkatkan tingkat ketahanan musuh dalam pengaturan serangan kotak putih dan kotak hitam.

  • Pelatihan dan Regularisasi Adversarial: Latih dengan sampel lawan yang diketahui untuk membangun ketahanan dan ketahanan terhadap input berbahaya. Ini juga dapat dilihat sebagai bentuk regularisasi, yang mengharuskan norma gradien input dan membuat fungsi prediksi pengklasifikasi lebih halus (meningkatkan margin input). Ini termasuk klasifikasi yang benar dengan tingkat keyakinan yang lebih rendah.

A graph showing the change in the slope of the prediction function with adversarial training.

Berinvestasi dalam mengembangkan klasifikasi monotonik dengan pemilihan fitur monotonik. Ini memastikan bahwa adversary tidak akan dapat menghindari pengklasifikasi hanya dengan fitur padding dari kelas negatif [13].

  • Pemerasan fitur [18] dapat digunakan untuk mengeraskan model DNN dengan mendeteksi contoh iklan. Ini mengurangi ruang pencarian yang tersedia untuk seterusnya dengan menyaring sampel yang sesuai dengan banyak vektor fitur yang berbeda di ruang asli menjadi satu sampel. Dengan membandingkan prediksi model DNN pada input asli dengan itu pada input yang diperas, pemerasan fitur dapat membantu mendeteksi contoh iklan. Jika contoh asli dan diperas menghasilkan output yang jauh berbeda dari model, input kemungkinan adalah iklan. Dengan mengukur ketidaksesuaian di antara prediksi dan memilih nilai ambang batas, sistem dapat menghasilkan prediksi yang benar untuk contoh yang sah dan menolak input iklan.

    An illustration showing the result of feature squeezing.

    A diagram showing the flow of input through a feature-squeezing framework.[18]

  • Pertahanan Bersertifikat terhadap Contoh Adversarial [22]: Penulis mengusulkan metode berdasarkan relaksasi semi-pasti yang menghasilkan sertifikat yang untuk jaringan tertentu dan input pengujian, tidak ada serangan yang dapat memaksa kesalahan melebihi nilai tertentu. Kedua, karena sertifikat ini dapat dibedakan, penulis bersama-sama mengoptimalkannya dengan parameter jaringan, menyediakan regularizer adaptif yang mendorong ketahanan terhadap semua serangan.

Tindakan Respons

  • Mengeluarkan pemberitahuan tentang hasil klasifikasi dengan varians tinggi antara pengklasifikasi, terutama jika dari satu pengguna atau sekelompok kecil pengguna.

Paralel Tradisional

Elevasi Hak Istimewa Jarak Jauh

Tingkat keparahan

Kritis

Varian #1c: Kesalahan klasifikasi acak

Ini adalah variasi khusus di mana klasifikasi target penyerang dapat menjadi apa pun selain klasifikasi sumber yang sah. Serangan ini umumnya melibatkan injeksi kebisingan secara acak ke dalam data sumber yang diklasifikasikan untuk mengurangi kemungkinan klasifikasi yang benar yang digunakan di masa depan [3].

Contoh

Two photos of a cat. One photo is classified as a tabby cat. After adversarial perturbation, the other photo is classified as guacamole.

Mitigasi

Sama seperti Varian 1a.

Paralel Tradisional

Penolakan layanan yang tidak persisten

Tingkat keparahan

Penting

Varian #1d: Pengurangan Keyakinan

Penyerang dapat membuat input untuk mengurangi tingkat keyakinan klasifikasi yang benar, terutama dalam skenario konsekuensi tinggi. Ini juga dapat berbentuk sejumlah besar positif palsu yang dimaksudkan untuk membuat administrator kewalahan atau sistem pemantauan dengan peringatan penipuan yang tidak dapat dibedakan dari pemberitahuan yang sah [3].

Contoh

Two photos of a stop sign. The photo on the left shows a confidence level of 96 percent. After adversarial perturbation, the photo on the right shows a confidence level of 13 percent.

Mitigasi
  • Selain tindakan yang tercakup dalam Varian #1a, pembatasan peristiwa dapat digunakan untuk mengurangi volume pemberitahuan dari satu sumber.
Paralel Tradisional

Penolakan layanan yang tidak persisten

Tingkat keparahan

Penting

#2a Keracunan Data Yang Ditargetkan

Deskripsi

Tujuan dari penyerang adalah untuk mencemari model mesin yang dihasilkan dalam fase pelatihan, sehingga prediksi pada data baru akan dimodifikasi dalam fase pengujian[1]. Dalam serangan keracunan yang ditargetkan, penyerang ingin salah mengklasifikasikan contoh tertentu untuk menyebabkan tindakan tertentu diambil atau dihilangkan.

Contoh

Mengirimkan perangkat lunak AV sebagai malware untuk memaksa kesalahan klasifikasinya sebagai berbahaya dan menghilangkan penggunaan perangkat lunak AV yang ditargetkan pada sistem klien.

Mitigasi
  • Tentukan sensor anomali untuk melihat distribusi data setiap hari dan memperingatkan pada variasi

    -Mengukur variasi data pelatihan setiap hari, telemetri untuk penyimpangan/penyimpangan

  • Validasi input, baik sanitasi maupun pemeriksaan integritas

  • Keracunan menyuntikkan sampel pelatihan terluar. Dua strategi utama untuk melawan ancaman ini:

    -Sanitasi Data/ validasi: hapus sampel keracunan dari data pelatihan -Bagging untuk memerangi serangan keracunan [14]

    Pertahanan -Reject-on-Negative-Impact (RONI) [15]

    -Robust Pembelajaran: Pilih algoritma pembelajaran yang kuat di hadapan sampel keracunan.

    -Salah satu pendekatan tersebut dijelaskan dalam [21] di mana penulis mengatasi masalah keracunan data dalam dua langkah: 1) memperkenalkan metode faktorisasi matriks yang kuat untuk memulihkan subspace yang sebenarnya, dan 2) regresi komponen prinsip kuat baru untuk memangkas instans musuh berdasarkan dasar yang dipulihkan pada langkah (1). Mereka mencirikan kondisi yang diperlukan dan memadai untuk berhasil memulihkan sub-ruang benar dan menyajikan terikat pada kerugian prediksi yang diharapkan dibandingkan dengan kebenaran dasar.

Paralel Tradisional

Host Troya di mana penyerang bertahan di jaringan. Data pelatihan atau konfigurasi disusupi dan diserap/dipercaya untuk pembuatan model.

Tingkat keparahan

Kritis

#2b Keracunan Data Yang Tidak Dapat Dibedakan

Deskripsi

Tujuannya adalah untuk merusak kualitas/integritas himpunan data yang diserang. Banyak himpunan data bersifat publik/tidak tepercaya/tidak diakui, sehingga ini menciptakan kekhawatiran tambahan sekeliling kemampuan untuk menemukan pelanggaran integritas data tersebut di tempat pertama. Pelatihan tentang data yang disusupi secara tidak sadar adalah situasi sampah/sampah-keluar. Setelah terdeteksi, triase perlu menentukan tingkat data yang telah dilanggar dan karantina/pelatihan ulang.

Contoh

Sebuah perusahaan mengekstrak situs web terkenal dan tepercaya untuk data berjangka minyak untuk melatih model mereka. Situs web penyedia data kemudian disusupi melalui serangan Injeksi SQL. Penyerang dapat meracuni himpunan data sesering mungkin dan model yang dilatih tidak memiliki gagasan bahwa data ternoda.

Mitigasi

Sama seperti varian 2a.

Paralel Tradisional

Penolakan layanan terautentikasi terhadap aset bernilai tinggi

Tingkat keparahan

Penting

#3 Serangan Inversi Model

Deskripsi

Fitur privat yang digunakan dalam model pembelajaran mesin dapat dipulihkan [1]. Ini termasuk rekonstruksi data pelatihan privat yang tidak dapat diakses oleh penyerang. Juga dikenal sebagai serangan pendakian bukit di komunitas biometrik [16, 17] Ini dicapai dengan menemukan input yang memaksimalkan tingkat keyakinan yang dikembalikan, tunduk pada klasifikasi yang cocok dengan target [4].

Contoh

Two images of a person. One image is blurry and the other image is clear.[4]

Mitigasi
  • Antarmuka ke model yang dilatih dari data sensitif membutuhkan kontrol akses yang kuat.

  • Kueri batas tarif yang diizinkan oleh model

  • Terapkan gerbang antara pengguna/penelepon dan model aktual dengan melakukan validasi input pada semua kueri yang diusulkan, menolak apa pun yang tidak memenuhi definisi model dari kebenaran input dan mengembalikan hanya jumlah minimum informasi yang diperlukan untuk berguna.

Paralel Tradisional

Pengungkapan Informasi terselubung yang ditargetkan

Tingkat keparahan

Ini default ke penting per bilah bug SDL standar, tetapi data sensitif atau dapat diidentifikasi secara pribadi yang diekstraksi akan meningkatkan ini menjadi penting.

#4 Serangan Inferensi Keanggotaan

Deskripsi

Penyerang dapat menentukan apakah rekaman data tertentu adalah bagian dari himpunan data pelatihan model atau tidak[1]. Peneliti dapat memprediksi prosedur utama pasien (misalnya: Operasi yang dilalui pasien) berdasarkan atribut (misalnya: usia, jenis kelamin, rumah sakit) [1].

An illustration showing the complexity of a membership inference attack. Arrows show the flow and relationship between training data prediction data.[12]

Mitigasi

Makalah penelitian yang menunjukkan kelangsungan serangan ini menunjukkan Privasi Diferensial [4, 9] akan menjadi mitigasi yang efektif. Ini masih merupakan bidang terbaru di Microsoft dan AETHER Security Engineering merekomendasikan untuk membangun keahlian dengan investasi penelitian di ruang ini. Penelitian ini perlu menghitung kemampuan Privasi Diferensial dan mengevaluasi efektivitas praktis mereka sebagai mitigasi, kemudian merancang cara agar pertahanan ini diwariskan secara transparan pada platform layanan online kami, mirip dengan cara mengkompilasi kode di Visual Studio memberi Anda perlindungan keamanan secara default yang transparan bagi pengembang dan pengguna.

Penggunaan dropout neuron dan penumpukan model dapat menjadi mitigasi yang efektif sampai batas tertentu. Menggunakan dropout neuron tidak hanya meningkatkan ketahanan jaring neural terhadap serangan ini, tetapi juga meningkatkan performa model [4].

Paralel Tradisional

Privasi Data. Inferensi sedang dibuat tentang penyertaan titik data dalam set pelatihan tetapi data pelatihan itu sendiri tidak diungkapkan

Tingkat keparahan

Ini adalah masalah privasi, bukan masalah keamanan. Ini ditangani dalam panduan pemodelan ancaman karena domain tumpang tindih, tetapi respons apa pun di sini akan didorong oleh Privasi, bukan Keamanan.

#5 Mencuri Model

Deskripsi

Penyerang membuat ulang model yang mendasar dengan mengkueri model secara sah. Fungsionalitas model baru sama dengan model yang mendasar[1]. Setelah model dibuat ulang, model dapat dibalik untuk memulihkan informasi fitur atau membuat inferensi pada data pelatihan.

  • Pemecahan persamaan – Untuk model yang mengembalikan probabilitas kelas melalui output API, penyerang dapat membuat kueri untuk menentukan variabel yang tidak diketahui dalam model.

  • Path Finding – serangan yang mengeksploitasi kekhususan API untuk mengekstrak 'keputusan' yang diambil oleh pohon saat mengklasifikasikan input [7].

  • Serangan transferbilitas - Musuh dapat melatih model lokal—mungkin dengan mengeluarkan kueri prediksi ke model yang ditargetkan - dan menggunakannya untuk membuat contoh musuh yang ditransfer ke model target [8]. Jika model Anda diekstrak dan ditemukan rentan terhadap jenis input musuh, serangan baru terhadap model yang disebarkan produksi Anda dapat dikembangkan sepenuhnya secara offline oleh penyerang yang mengekstrak salinan model Anda.

Contoh

Dalam pengaturan di mana model ML berfungsi untuk mendeteksi perilaku musuh, seperti identifikasi spam, klasifikasi malware, dan deteksi anomali jaringan, ekstraksi model dapat memfasilitasi serangan pengindaran [7].

Mitigasi

Tindakan Proaktif/Protektif

  • Minimalkan atau usamkan detail yang dikembalikan dalam API prediksi sambil tetap mempertahankan kegunaannya untuk aplikasi "jujur" [7].

  • Tentukan kueri yang terbentuk dengan baik untuk input model Anda dan hanya mengembalikan hasil sebagai respons terhadap input lengkap dan terbentuk dengan baik yang cocok dengan format tersebut.

  • Mengembalikan nilai keyakinan bulat. Sebagian besar penelepon yang sah tidak memerlukan beberapa tempat desimal presisi.

Paralel Tradisional

Perusakan data sistem yang tidak diautentikasi dan baca-saja, pengungkapan informasi bernilai tinggi yang ditargetkan?

Tingkat keparahan

Penting dalam model sensitif keamanan, Moderat jika tidak

#6 Pemrograman Ulang Neural Net

Deskripsi

Dengan kueri yang dibuat secara khusus dari seterusnya, sistem pembelajaran mesin dapat diprogram ulang ke tugas yang menyimpang dari niat asli pembuat [1].

Contoh

Kontrol akses yang lemah pada API pengenalan wajah memungkinkan pihak ketiga untuk bergabung ke dalam aplikasi yang dirancang untuk membahayakan pelanggan Microsoft, seperti generator palsu yang mendalam.

Mitigasi
  • Autentikasi bersama server klien< yang> kuat dan kontrol akses ke antarmuka model

  • Penghapusan akun yang menyinggung.

  • Mengidentifikasi dan menerapkan perjanjian tingkat layanan untuk API Anda. Tentukan waktu untuk memperbaiki masalah yang dapat diterima setelah dilaporkan dan pastikan masalah tidak lagi diproses ulang setelah SLA kedaluwarsa.

Paralel Tradisional

Ini adalah skenario penyalahgunaan. Anda lebih kecil kemungkinannya untuk membuka insiden keamanan tentang hal ini daripada Anda hanya menonaktifkan akun pelaku.

Tingkat keparahan

Penting untuk Penting

#7 Contoh Adversarial di domain Fisik (bits-atoms>)

Deskripsi

Contoh adversarial adalah input/kueri dari entitas berbahaya yang dikirim dengan satu-satunya tujuan menyesatkan sistem pembelajaran mesin [1]

Contoh

Contoh-contoh ini dapat bermanifestasi di domain fisik, seperti mobil mengemudi sendiri yang ditipu untuk menjalankan tanda berhenti karena warna cahaya tertentu (input adversarial) bersinar pada tanda berhenti, memaksa sistem pengenalan gambar untuk tidak lagi melihat tanda berhenti sebagai tanda berhenti.

Paralel Tradisional

Elevasi Hak Istimewa, eksekusi kode jarak jauh

Mitigasi

Serangan ini memanifestasikan diri karena masalah di lapisan pembelajaran mesin (lapisan data & algoritma di bawah pembuatan keputusan berbasis AI) tidak dimitigasi. Seperti halnya perangkat lunak lain *atau* sistem fisik, lapisan di bawah target selalu dapat diserang melalui vektor tradisional. Karena itu, praktik keamanan tradisional lebih penting dari sebelumnya, terutama dengan lapisan kerentanan yang tidak dimitigasi (lapisan data/algo) yang digunakan antara AI dan perangkat lunak tradisional.

Tingkat keparahan

Kritis

#8 Penyedia ML berbahaya yang dapat memulihkan data pelatihan

Deskripsi

Penyedia berbahaya menyajikan algoritma backdoored, di mana data pelatihan privat dipulihkan. Mereka mampu merekonstruksi wajah dan teks, mengingat model saja.

Paralel Tradisional

Pengungkapan informasi yang ditargetkan

Mitigasi

Makalah penelitian yang menunjukkan kelangsungan serangan ini menunjukkan Enkripsi Homomorfik akan menjadi mitigasi yang efektif. Ini adalah area dengan sedikit investasi saat ini di Microsoft dan AETHER Security Engineering merekomendasikan membangun keahlian dengan investasi penelitian di ruang ini. Penelitian ini perlu menghitung tenet Enkripsi Homomorfik dan mengevaluasi efektivitas praktis mereka sebagai mitigasi dalam menghadapi penyedia ML-as-a-Service yang berbahaya.

Tingkat keparahan

Penting jika data adalah PII, Memoderasi sebaliknya

#9 Menyerang Rantai Pasokan ML

Deskripsi

Karena sumber daya besar (data + komputasi) yang diperlukan untuk melatih algoritma, praktik saat ini adalah menggunakan kembali model yang dilatih oleh perusahaan besar dan memodifikasinya sedikit untuk tugas yang ditangani (misalnya: ResNet adalah model pengenalan gambar populer dari Microsoft). Model-model ini dikumpulkan dalam Kebun Binatang Model (Caffe menghosting model pengenalan gambar populer). Dalam serangan ini, musuh menyerang model yang dihosting di Caffe, sehingga meracuni sumur untuk orang lain. [1]

Paralel Tradisional
  • Penyusupan dependensi non-keamanan pihak ketiga

  • App store tanpa sadar menghosting malware

Mitigasi
  • Minimalkan dependensi pihak ketiga untuk model dan data jika memungkinkan.

  • Masukkan dependensi ini ke dalam proses pemodelan ancaman Anda.

  • Manfaatkan autentikasi yang kuat, kontrol akses, dan enkripsi antara sistem pihak ketiga 1st/3.

Tingkat keparahan

Kritis

#10 Backdoor Pembelajaran Mesin

Deskripsi

Proses pelatihan dialihdayakan kepada pihak ke-3 berbahaya yang merusak data pelatihan dan mengirimkan model trojaned yang memaksa klasifikasi salah sasaran, seperti mengklasifikasikan virus tertentu sebagai tidak berbahaya[1]. Ini adalah risiko dalam skenario pembuatan model ML-as-a-Service.

An example showing how mis-classifications can adversely affect training data. One photo is a correctly classified stop sign. After poisoning, the second photo is labeled as a speed limit sign.[12]

Paralel Tradisional
  • Penyusupan dependensi keamanan pihak ketiga

  • Mekanisme Pembaruan Perangkat Lunak yang Disusupi

  • Penyusupan Otoritas Sertifikat

Mitigasi
Tindakan Deteksi Reaktif/Defensif
  • Kerusakan sudah dilakukan setelah ancaman ini ditemukan, sehingga model dan data pelatihan apa pun yang disediakan oleh penyedia berbahaya tidak dapat dipercaya.
Tindakan Proaktif/Protektif
  • Melatih semua model sensitif secara internal

  • Data pelatihan katalog atau pastikan data tersebut berasal dari pihak ketiga tepercaya dengan praktik keamanan yang kuat

  • Model ancaman interaksi antara penyedia MLaaS dan sistem Anda sendiri

Tindakan Respons
  • Sama seperti untuk kompromi dependensi eksternal
Tingkat keparahan

Kritis

#11 Mengeksploitasi dependensi perangkat lunak dari sistem ML

Deskripsi

Dalam serangan ini, penyerang TIDAK memanipulasi algoritma. Sebaliknya, mengeksploitasi kerentanan perangkat lunak seperti luapan buffer atau scripting lintas situs[1]. Masih lebih mudah untuk membahayakan lapisan perangkat lunak di bawah AI/ML daripada menyerang lapisan pembelajaran secara langsung, sehingga praktik mitigasi ancaman keamanan tradisional yang dirinci dalam Siklus Hidup Pengembangan Keamanan sangat penting.

Paralel Tradisional
  • Dependensi Perangkat Lunak Sumber Terbuka yang Disusupi

  • Kerentanan server web (XSS, CSRF, kegagalan validasi input API)

Mitigasi

Bekerja sama dengan tim keamanan Anda untuk mengikuti praktik terbaik Security Development Lifecycle/Operational Security Assurance yang berlaku.

Tingkat keparahan

Variabel; Hingga Kritis tergantung pada jenis kerentanan perangkat lunak tradisional.

Bibliografi

[1] Mode Kegagalan dalam Pembelajaran Mesin, Ram Shankar Siva Kumar, David O'Brien, Kendra Albert, Salome Viljoen, dan Jeffrey Snover,https://learn.microsoft.com/security/failure-modes-in-machine-learning

[2] AETHER Security Engineering Workstream, Data Provenance/Lineage v-team

[3] Contoh Adversarial dalam Pembelajaran Mendalam: Karakterisasi dan Divergensi, Wei, et al,https://arxiv.org/pdf/1807.00051.pdf

[4] ML-Leaks: Model dan Serangan Inferensi Keanggotaan Independen Data dan Pertahanan pada Model Pembelajaran Mesin, Salem, et al,https://arxiv.org/pdf/1806.01246v2.pdf

[5] M. Fredrikson, S. Jha, dan T. Ristenpart, "Serangan Inversi Model yang Mengeksploitasi Informasi Keyakinan dan Penanggulangan Dasar," dalam Proses Konferensi ACM SIGSAC 2015 tentang Keamanan Komputer dan Komunikasi (CCS).

[6] Nicolas Papernot & Patrick McDaniel- Contoh Adversarial dalam Pembelajaran Mesin AIWTB 2017

[7] Mencuri model Pembelajaran Mesin melalui API Prediksi, Florian Tramèr, École Polytechnique Fédérale de Lausanne (EPFL); Fan Zhang, Cornell University; Ari Juels, Cornell Tech; Michael K. Reiter, Universitas Carolina Utara di Chapel Hill; Thomas Ristenpart, Cornell Tech

[8] Ruang Ditransfer Contoh Adversarial, Florian Tramèr , Nicolas Papernot , Ian Goodfellow , Dan Boneh , dan Patrick McDaniel

[9] Memahami Inferensi Keanggotaan pada Model Pembelajaran Umum Yunhui Long1 , Vincent Bindschaedler1 , Lei Wang2 , Diyue Bu2 , Xiaofeng Wang2 , Haixu Tang2 , Carl A. Gunter1 , dan Kai Chen3,4

[10] Simon-Gabriel et al., Kerentanan adversarial jaringan saraf meningkat dengan dimensi input, ArXiv 2018;

[11] Lyu et al., Sebuah keluarga regularisasi gradien terpadu untuk contoh iklan, ICDM 2015

[12] Pola Liar: Sepuluh Tahun Setelah Munculnya Pembelajaran Mesin Adversarial - NeCS 2019 Battista Biggioa, Fabio Roli

[13] Deteksi Malware yang Kuat Secara Adversarial Menggunakan KlasifikasiMonotonik Inigo Incer dkk.

[14] Battista Biggio, Igino Corona, Giorgio Fumera, Giorgio Giacinto, dan Fabio Roli. Pengklasifikasi Bagging untuk Memerangi Serangan Keracunan dalam Tugas Klasifikasi Adversarial

[15] Peningkatan Penolakan terhadap Dampak Negatif Pertahanan Hongjiang Li dan Patrick P.K. Chan

[16] Adler. Kerentanan dalam sistem enkripsi biometrik. Int'l Conf ke-5. AVBPA, 2005

[17] Galbally, McCool, Fierrez, Marcel, Ortega-Garcia. Pada kerentanan sistem verifikasi wajah terhadap serangan pendakian bukit. Patt. Rec., 2010

[18] Weilin Xu, David Evans, Yanjun Qi. Pemerasan Fitur: Mendeteksi Contoh Adversarial di Jaringan Neural Dalam. Simposium Keamanan Jaringan dan Sistem Terdistribusi 2018. 18-21 Februari.

[19] Menguatkan Ketahanan Adversarial menggunakan Keyakinan Model yang Diinduksi oleh Pelatihan Adversarial - Xi Wu, Uyeong Jang, Jiefeng Chen, Lingjiao Chen, Somesh Jha

[20] Analisis Kausal berbasis Atribusi untuk Deteksi Contoh Adversarial, Susmit Jha, Sunny Raj, Steven Fernandes, Sumit Kumar Jha, Somesh Jha, Gunjan Verma, Brian Jalaian, Ananthram Swami

[21] Regresi Linier yang Kuat Terhadap Keracunan Data Pelatihan – Chang Liu dkk.

[22] Fitur Menjijikkan untuk Meningkatkan Ketahanan Adversarial, Cihang Xie, Yuxin Wu, Laurens van der Maaten, Alan Yuille, Kaiming He

[23] Pertahanan Bersertifikat terhadap Contoh Adversarial - Aditi Raghunathan, Jacob Steinhardt, Percy Liang