Mode Kegagalan dalam Pembelajaran Mesin

Microsoft Corporation Pusat Internet dan Masyarakat Berkman Klein di Universitas Harvard

Ram Shankar Siva Kumar

David O'Brien

Jeffrey Snover

Kendra Albert

Salome Viljoen

November 2019

Pengantar & Latar Belakang

Dalam dua tahun terakhir, lebih dari 200 makalah telah ditulis tentang bagaimana Pembelajaran Mesin (ML) dapat gagal karena serangan musuh pada algoritma dan data; balon angka ini jika kita menggabungkan mode kegagalan non-musuh. Sekop kertas telah menyulitkan praktisi ML, apalagi insinyur, pengacara, dan pembuat kebijakan, untuk mengikuti serangan terhadap dan pertahanan sistem ML. Namun, karena sistem ini menjadi lebih pervasif, kebutuhan untuk memahami bagaimana mereka gagal, apakah dengan tangan seorang pejuang atau karena desain sistem yang melekat, hanya akan menjadi lebih mendesak. Tujuan dari dokumen ini adalah untuk secara bersama-sama menaungi kedua mode kegagalan ini dalam satu tempat.

  • Kegagalan yang disengaja di mana kegagalan disebabkan oleh adversary aktif yang mencoba menumbangkan sistem untuk mencapai tujuannya - baik untuk salah mengklasifikasikan hasil, menyimpulkan data pelatihan privat, atau mencuri algoritma yang mendasarinya.

  • Kegagalan yang tidak disengaja di mana kegagalan adalah karena sistem ML menghasilkan hasil yang benar tetapi sepenuhnya tidak aman secara resmi.

Kami ingin menunjukkan bahwa ada taksonomi dan kerangka kerja lain yang secara individual menyoroti mode kegagalan yang disengaja[1],[2] dan mode kegagalan yang tidak disengaja[3],[4]. Klasifikasi kami menyatukan dua mode kegagalan terpisah di satu tempat dan memenuhi kebutuhan berikut:

  1. Kebutuhan untuk melengkapi pengembang perangkat lunak, responden insiden keamanan, pengacara, dan pembuat kebijakan dengan vernakuler umum untuk berbicara tentang masalah ini. Setelah mengembangkan versi awal taksonomi tahun lalu, kami bekerja dengan tim keamanan dan ML di Microsoft, 23 mitra eksternal, organisasi standar, dan pemerintah untuk memahami bagaimana pemangku kepentingan akan menggunakan kerangka kerja kami. Berdasarkan studi kegunaan ini dan umpan balik pemangku kepentingan, kami melakukan iterasi pada kerangka kerja.

    Hasil: Ketika disajikan dengan mode kegagalan ML, kami sering mengamati bahwa pengembang perangkat lunak dan pengacara secara mental memetakan mode kegagalan ML ke serangan perangkat lunak tradisional seperti penyelundupan data. Jadi, di seluruh kertas, kami mencoba menyoroti bagaimana mode kegagalan pembelajaran mesin sangat berbeda dari kegagalan perangkat lunak tradisional dari teknologi dan perspektif kebijakan.

  2. Kebutuhan akan platform umum bagi insinyur untuk dibangun di atas dan untuk berintegrasi ke dalam praktik pengembangan perangkat lunak dan keamanan yang ada. Secara luas, kami ingin taksonomi menjadi lebih dari alat pendidikan - kami ingin itu mempengaruhi hasil rekayasa nyata.

    Hasil: Menggunakan taksonomi ini sebagai lensa, Microsoft memodifikasi proses Siklus Hidup Pengembangan Keamanan untuk seluruh organisasinya. Secara khusus, ilmuwan data dan insinyur keamanan di Microsoft sekarang berbagi bahasa umum taksonomi ini, memungkinkan mereka untuk lebih efektif memodelkan sistem ML mereka sebelum menyebarkan ke produksi; Penanggap Insiden Keamanan juga memiliki bilah bug untuk melakukan triase ancaman baru ini khusus untuk ML, proses standar untuk triase dan respons kerentanan yang digunakan oleh Pusat Respons Keamanan Microsoft dan semua tim produk Microsoft.

  3. Kebutuhan akan kosakata umum untuk menggambarkan serangan ini di antara pembuat kebijakan dan pengacara. Kami percaya bahwa ini untuk menjelaskan berbagai mode kegagalan ML dan analisis tentang bagaimana bahaya mereka mungkin diatur adalah langkah pertama yang bermakna menuju kebijakan yang diinformasikan.

    Hasil: Taksonomi ini ditulis untuk audiens interdisipliner yang luas - jadi, pembuat kebijakan yang melihat masalah dari perspektif ML/AI umum, serta domain tertentu seperti informasi yang salah/layanan kesehatan harus menemukan katalog mode kegagalan yang berguna. Kami juga menyoroti intervensi hukum yang berlaku untuk mengatasi mode kegagalan.

Lihat juga Sistem dan Dependensi AI/ML Pemodelan Ancaman Microsoft dan Pivot Bilah Bug SDL untuk kerentanan Pembelajaran Mesin.

Cara menggunakan dokumen ini

Pada awalnya, kami mengakui bahwa ini adalah dokumen hidup yang akan berkembang dari waktu ke waktu dengan lanskap ancaman. Kami juga tidak meresepkan mitigasi teknologi untuk mode kegagalan ini di sini, karena pertahanan khusus skenario dan ikatan dengan model ancaman dan arsitektur sistem yang sedang dipertimbangkan. Opsi yang disajikan untuk mitigasi ancaman didasarkan pada penelitian saat ini dengan harapan bahwa pertahanan tersebut akan berkembang dari waktu ke waktu juga.

Untuk teknisi, sebaiknya telusuri gambaran umum kemungkinan mode kegagalan dan melompat ke dokumen pemodelan ancaman. Dengan cara ini, teknisi dapat mengidentifikasi ancaman, serangan, kerentanan, dan menggunakan kerangka kerja untuk merencanakan penanggulangan jika tersedia. Kami kemudian merujuk Anda ke bilah bug yang memetakan kerentanan baru ini dalam taksonomi bersama kerentanan perangkat lunak tradisional, dan memberikan peringkat untuk setiap kerentanan ML (seperti penting, penting). Bilah bug ini mudah diintegrasikan ke dalam proses/playbook respons insiden yang ada.

Untuk pengacara dan pembuat kebijakan, dokumen ini mengatur mode kegagalan ML dan menyajikan kerangka kerja untuk menganalisis masalah utama yang relevan bagi siapa pun yang menjelajahi opsi kebijakan, seperti pekerjaan yang dilakukan di sini[5],[6]. Secara khusus, kami telah mengkategorikan kegagalan dan konsekuensi dengan cara agar pembuat kebijakan dapat mulai menarik perbedaan antara penyebab, yang akan menginformasikan inisiatif kebijakan publik untuk mempromosikan keselamatan dan keamanan ML. Kami berharap bahwa pembuat kebijakan akan menggunakan kategori ini mulai melahirkan bagaimana rezim hukum yang ada mungkin (tidak) secara memadai menangkap masalah yang muncul, rezim hukum historis atau solusi kebijakan apa yang mungkin telah berurusan dengan bahaya serupa, dan di mana kita harus sangat sensitif terhadap masalah kebebasan sipil.

Struktur Dokumen

Di bagian Mode Kegagalan Yang Disengaja dan Mode Kegagalan Yang Tidak Disengaja, kami memberikan definisi singkat tentang serangan, dan contoh ilustrasi dari literatur.

Di bagian Mode Kegagalan yang Disengaja, kami menyediakan bidang tambahan:

  1. Apa upaya serangan untuk membahayakan dalam sistem ML - Kerahasiaan, Integritas, atau Ketersediaan? Kami mendefinisikan Kerahasiaan sebagai jaminan bahwa komponen sistem ML (data, algoritma, model) hanya dapat diakses oleh pihak yang berwenang; Integritas didefinisikan sebagai jaminan bahwa sistem ML hanya dapat dimodifikasi oleh pihak yang berwenang; Ketersediaan didefinisikan sebagai jaminan bahwa sistem ML dapat diakses oleh pihak yang berwenang. Bersama-sama, Kerahasiaan, Integritas, dan Ketersediaan disebut triad CIA. Untuk setiap mode kegagalan yang disengaja, kami mencoba mengidentifikasi triad CIA mana yang disusupi.

  2. Berapa banyak pengetahuan yang diperlukan untuk memasang serangan ini - kotak hitam atau kotak putih? Dalam serangan gaya Blackbox., penyerang TIDAK memiliki akses langsung ke data pelatihan, tidak ada pengetahuan tentang algoritma ML yang digunakan dan tidak ada akses ke kode sumber model. Penyerang hanya mengkueri model dan mengamati respons. Dalam serangan gaya kotak putih, penyerang memiliki pengetahuan tentang algoritma ML atau akses ke kode sumber model.

  3. Komentar tentang apakah penyerang melanggar gagasan teknologi tradisional tentang akses/otorisasi.

Ringkasan Kegagalan yang Sengaja Dimotivasi

Nomor Skenario
Serangan
Ringkasan
Melanggar gagasan teknologi tradisional tentang akses/otorisasi?
1
Serangan perturbasi
Penyerang memodifikasi kueri untuk mendapatkan respons yang sesuai
Tidak
2
Serangan keracunan
Penyerang mengkontaminasi fase pelatihan sistem ML untuk mendapatkan hasil yang dimaksudkan
Tidak
3
Inversi Model
Penyerang memulihkan fitur rahasia yang digunakan dalam model dengan melalui kueri yang cermat
Tidak
4
Inferensi Keanggotaan
Penyerang dapat menyimpulkan apakah rekaman data tertentu adalah bagian dari himpunan data pelatihan model atau tidak
Tidak
5
Pencurian Model
Penyerang dapat memulihkan model melalui kueri yang dibuat dengan hati-hati
Tidak
6
Memprogram ulang sistem ML
Gunakan kembali sistem ML untuk melakukan aktivitas yang tidak diprogram untuk
Tidak
7
Contoh Adversarial di Domain Fisik
Penyerang membawa contoh musuh ke dalam domain fisik ke sistem subvertML misalnya: pencetakan kacamata khusus 3d untuk mengelabui sistem pengenalan wajah
Tidak
8
Data pelatihan pemulihan penyedia ML berbahaya
Penyedia ML berbahaya dapat mengkueri model yang digunakan oleh pelanggan dan memulihkan data pelatihan pelanggan
Ya
9
Menyerang rantai pasokan ML
Penyerang mengorbankan model ML karena sedang diunduh untuk digunakan
Ya
10
Backdoor ML
Algoritma backdoors penyedia ML berbahaya untuk diaktifkan dengan pemicu tertentu
Ya
11
Mengeksploitasi Dependensi Perangkat Lunak
Penyerang menggunakan eksploitasi perangkat lunak tradisional seperti luapan buffer untuk membingungkan/mengontrol sistem ML
Ya

Ringkasan Kegagalan yang Tidak Diinginkan

Skenario #
Kegagalan
Gambaran umum
12
Peretasan Hadiah
Sistem Pembelajaran penguatan (RL) bertindak dengan cara yang tidak diinginkan karena ketidakcocokan antara hadiah yang dinyatakan dan hadiah sejati
13
Efek Samping
Sistem RL mengganggu lingkungan saat mencoba mencapai tujuannya
14
Pergeseran distribusi
Sistem ini diuji dalam satu jenis lingkungan, tetapi tidak dapat beradaptasi dengan perubahan di jenis lingkungan lain
15
Contoh Adversarial Alami
Tanpa perturbasi penyerang, sistem ML gagal karena penambangan negatif keras
16
Kerusakan Umum
Sistem tidak dapat menangani kerusakan umum dan perturbasi seperti miring, perbesar tampilan, atau gambar yang bising.
17
Pengujian Tidak Lengkap
Sistem ML tidak diuji dalam kondisi realistis yang dimaksudkan untuk beroperasi.

Detail tentang Kegagalan yang Sengaja Dimotivasi

Skenario # Kelas Serangan Deskripsi Jenis Kompromi Skenario
1 Serangan perturbasi Dalam serangan gaya perturbasi, penyerang secara diam-diam memodifikasi kueri untuk mendapatkan respons yang diinginkan Integritas Gambar: Kebisingan ditambahkan ke gambar sinar-X, yang membuat prediksi dari pemindaian normal ke abnormal [1][Blackbox]

Terjemahan teks: Karakter tertentu dimanipulasi untuk menghasilkan terjemahan yang salah. Serangan ini dapat menekan kata tertentu atau bahkan dapat menghapus kata sepenuhnya[2][Blackbox dan Whitebox]

Ucapan: Peneliti menunjukkan bagaimana diberikan bentuk gelombang ucapan, bentuk gelombang lain dapat direplikasi dengan tepat tetapi mentranskripsikan ke dalam teks yang sama sekali berbeda[3][Whitebox tetapi dapat diperluas ke kotak hitam]

2 Serangan keracunan Tujuan dari penyerang adalah untuk mencemari model mesin yang dihasilkan dalam fase pelatihan, sehingga prediksi pada data baru akan dimodifikasi dalam fase pengujian

Ditargetkan: Dalam serangan keracunan yang ditargetkan, penyerang ingin salah mengklasifikasikan contoh tertentu

Tidak jelas: Tujuannya di sini adalah untuk menyebabkan efek seperti DoS, yang membuat sistem tidak tersedia.

Integritas Dalam himpunan data medis di mana tujuannya adalah untuk memprediksi dosis obat antikoagulan Warfarin menggunakan informasi demografis, dll. Peneliti memperkenalkan sampel berbahaya pada tingkat keracunan 8%, yang mengubah dosis sebesar 75,06% untuk setengah pasien[4][Blackbox]

Dalam tay chatbot, percakapan di masa depan ternoda karena sebagian kecil dari percakapan masa lalu digunakan untuk melatih sistem melalui umpan balik[5] [Blackbox]

3 Inversi Model Fitur privat yang digunakan dalam model pembelajaran mesin dapat dipulihkan Kerahasiaan; Para peneliti dapat memulihkan data pelatihan privat yang digunakan untuk melatih algoritma[6] Penulis dapat merekonstruksi wajah, hanya dengan nama dan akses ke model ke titik di mana turki Mekanis dapat menggunakan foto untuk mengidentifikasi individu dari garis-ke atas dengan akurasi 95%. Penulis juga dapat mengekstrak informasi tertentu. [Kotak Putih dan Kotak Hitam] [12]
4 Serangan Inferensi Keanggotaan Penyerang dapat menentukan apakah rekaman data tertentu adalah bagian dari himpunan data pelatihan model atau tidak Kerahasiaan Para peneliti dapat memprediksi prosedur utama pasien (misalnya: Operasi yang dilalui pasien) berdasarkan atribut (misalnya: usia, jenis kelamin, rumah sakit)[7][Blackbox]
5 Pencurian model Penyerang membuat ulang model yang mendasar dengan mengkueri model secara sah. Fungsionalitas model baru sama dengan model yang mendasar. Kerahasiaan Peneliti berhasil menimulasi algoritma yang mendasar dari Amazon, BigML. Misalnya, dalam kasus BigML, peneliti dapat memulihkan model yang digunakan untuk memprediksi apakah seseorang harus memiliki risiko kredit yang baik/buruk (himpunan data Kartu Kredit Jerman) menggunakan 1.150 kueri dan dalam waktu 10 menit[8]
6 Memprogram ulang jaring neural dalam Dengan kueri yang dibuat secara khusus dari seterusnya, sistem pembelajaran mesin dapat diprogram ulang ke tugas yang menyimpang dari niat asli pembuat Integritas, Ketersediaan Menunjukkan bagaimana ImageNet, sistem yang digunakan untuk mengklasifikasikan salah satu dari beberapa kategori gambar digunakan kembali untuk menghitung kuadrat. Penulis mengakhiri makalah dengan skenario hipotetis: Penyerang mengirim gambar Captcha ke pengklasifikasi visi komputer dalam layanan foto yang dihosting cloud untuk memecahkan captchas gambar untuk membuat akun spam[9]
7 Contoh Adversarial di domain Fisik Contoh adversarial adalah input/kueri dari entitas berbahaya yang dikirim dengan satu-satunya tujuan menyesatkan sistem pembelajaran mesin Contoh ini dapat bermanifestasi di domain fisik Integritas Peneliti 3D mencetak senapan dengan tekstur kustom yang membodohi sistem pengenalan gambar agar berpikir bahwa itu adalah kura-kura[10]

Peneliti membuat kacamata hidup dengan desain yang sekarang dapat mengelabui sistem pengenalan gambar, dan tidak lagi mengenali wajah dengan benar[11]

8 Penyedia ML berbahaya yang dapat memulihkan data pelatihan Penyedia ML berbahaya dapat mengkueri model yang digunakan oleh pelanggan dan memulihkan data pelatihan pelanggan Kerahasiaan Peneliti menunjukkan bagaimana penyedia berbahaya menyajikan algoritma backdoored, di mana data pelatihan privat dipulihkan. Mereka mampu merekonstruksi wajah dan teks, mengingat model saja. [12]
9 Menyerang Rantai Pasokan ML[13] Karena sumber daya besar (data + komputasi) yang diperlukan untuk melatih algoritma, praktik saat ini adalah menggunakan kembali model yang dilatih oleh perusahaan besar, dan memodifikasinya sedikit untuk tugas yang ditangani (misalnya: ResNet adalah model pengenalan gambar populer dari Microsoft). Model-model ini dikumpulkan ina Model Zoo (Caffe menghosting model pengenalan gambar populer). Dalam serangan ini, musuh menyerang model yang dihosting di Caffe, sehingga meracuni sumur untuk orang lain. Integritas Peneliti menunjukkan bagaimana mungkin bagi penyerang untuk memeriksa kode berbahaya ke dalam salah satu model populer. Pengembang ML yang tidak terduga mengunduh model ini dan menggunakannya sebagai bagian dari sistem pengenalan gambar dalam kode mereka [14]. Penulis menunjukkan bagaimana dalam Caffe, ada model yang hash SHA1-nya tidak cocok dengan hash penulis, menunjukkan perubahan. Ada 22 model tanpa hash SHA1 untuk pemeriksaan integritas sama sekali.
10 backdoor Pembelajaran Mesin Seperti dalam "Menyerang Rantai Pasokan ML", Dalam skenario serangan ini, proses pelatihan sepenuhnya atau sebagian dialihdayakan kepada pihak jahat yang ingin memberi pengguna model terlatih yang berisi backdoor. Model backdoored akan berkinerja baik pada sebagian besar input (termasuk input yang dapat ditahan pengguna akhir sebagai set validasi) tetapi menyebabkan kesalahan klasifikasi yang ditargetkan atau menurunkan akurasi model untuk input yang memenuhi beberapa rahasia, properti yang dipilih penyerang, yang akan kami sebut sebagai pemicu backdoor Kerahasiaan, Integritas Peneliti membuat pengklasifikasi tanda jalan A.S. backdoored yang mengidentifikasi tanda berhenti sebagai batas kecepatan hanya ketika stiker khusus ditambahkan ke tanda berhenti (pemicu backdoor) 20 Mereka sekarang memperluas pekerjaan ini ke sistem pemrosesan teks, di mana kata-kata tertentu diganti dengan pemicu menjadi aksen pembicara[15]
11 Mengeksploitasi dependensi perangkat lunak sistem ML Dalam serangan ini, penyerang TIDAK memanipulasi algoritma. Sebaliknya, mengeksploitasi kerentanan perangkat lunak tradisional seperti luapan buffer. Kerahasiaan, Integritas, Ketersediaan, Adversary mengirimkan input yang rusak ke sistem pengenalan gambar yang menyebabkannya salah diklasifikasikan dengan mengeksploitasi bug perangkat lunak di salah satu dependensi.

Detail tentang Kegagalan yang Tidak Diinginkan

Skenario # Kelas Serangan Deskripsi Jenis Kompromi Skenario
12 Peretasan Hadiah Sistem pembelajaran penguatan bertindak dengan cara yang tidak diinginkan karena perbedaan antara hadiah yang ditentukan dan hadiah yang sebenarnya dimaksudkan. Brankas sistem Korpus besar contoh game di AI telah dikompilasi di sini[1]
13 Efek Samping Sistem RL mengganggu lingkungan saat mencoba mencapai tujuan mereka Brankas sistem Skenario, verbatim dari penulis di [2]:"Misalkan seorang desainer menginginkan agen RL (misalnya robot pembersihan kami) untuk mencapai beberapa tujuan, seperti memindahkan kotak dari satu sisi ruangan ke sisi lainnya. Terkadang cara paling efektif untuk mencapai tujuan melibatkan melakukan sesuatu yang tidak terkait dan merusak lingkungan lainnya, seperti mengetuk vas air yang ada di jalannya. Jika agen diberikan hadiah hanya untuk memindahkan kotak, mungkin akan mengetuk vas."
14 Pergeseran distribusi Sistem ini diuji dalam satu jenis lingkungan, tetapi tidak dapat beradaptasi dengan perubahan di jenis lingkungan lain Brankas sistem Para peneliti melatih dua status agen RL seni, Rainbow DQN dan A2C dalam simulasi untuk menghindari lava. Selama pelatihan, agen RL berhasil menghindari lava dan mencapai tujuannya. Selama pengujian, mereka sedikit memindahkan posisi lava, tetapi agen RL tidak dapat menghindari [3]
15 Contoh Adversarial Alami Sistem salah mengenali input yang ditemukan menggunakan penambangan negatif keras Brankas sistem Di sini penulis menunjukkan bagaimana dengan proses sederhana penambangan negatif keras[4], dimungkinkan untuk membingungkan sistem ML dengan menyampaikan contoh.
16 Kerusakan Umum Sistem tidak dapat menangani kerusakan umum dan perturbasi seperti miring, perbesar tampilan, atau gambar yang bising. Brankas sistem Penulis[5] menunjukkan bagaimana kerusakan umum seperti perubahan pada kecerahan, kontras, kabut atau kebisingan yang ditambahkan ke gambar, memiliki penurunan metrik yang signifikan dalam pengenalan gambar
17 Pengujian Tidak Lengkap dalam Kondisi realistis Sistem ML tidak diuji dalam kondisi realistis yang dimaksudkan untuk beroperasi di Brankas sistem Penulis dalam [25] menyoroti bahwa sementara pembela umumnya memperhitungkan ketahanan algoritma ML, mereka kehilangan pandangan tentang kondisi realistis. Misalnya, mereka berpendapat bahwa tanda berhenti yang hilang terputus di angin (yang lebih realistis) daripada penyerang yang mencoba mengganggu input sistem.

Pengakuan

Kami ingin berterima kasih kepada Andrew Marshall, Magnus Nystrom, John Walton, John Lambert, Sharon Xia, Andi Comissoneru, Emre Kiciman, Jugal Parikh, Sharon Gillet, anggota AI microsoft dan Ethics in Engineering and Research (AETHER) komite Aliran kerja Keamanan, Amar Ashar, Samuel Klein, Jonathan Zittrain, anggota AI Brankas ty Security Working Group di Berkman Klein untuk memberikan umpan balik yang bermanfaat. Kami juga ingin mengucapkan terima kasih kepada peninjau dari 23 mitra eksternal, organisasi standar, dan organisasi pemerintah untuk membentuk taksonomi.

Bibliografi

[1] Li, Guofu, dkk. "Masalah Keamanan: Survei tentang Pembelajaran Mesin Adversarial." arXiv preprint arXiv:1810.07339 (2018).

[2] Chakraborty, Anirban, dkk. "Serangan dan pertahanan musuh: Survei." arXiv preprint arXiv:1810.00069 (2018).

[3] Ortega, Pedro, dan Vishal Maini. "Membangun kecerdasan buatan yang aman: spesifikasi, ketahanan, dan jaminan." Blog DeepMind Brankas ty Research (2018).

[4] Amodei, Dario, dkk. "Masalah konkret dalam keselamatan AI." arXiv preprint arXiv:1606.06565 (2016).

[5] Shankar Siva Kumar, Ram, dkk. "Hukum dan Pembelajaran Mesin Adversarial." arXiv preprint arXiv:1810.10731 (2018).

[6] Calo, Ryan, dkk. "Apakah Menipu Robot Hacking?." Makalah Penelitian Hukum Universitas Washington 2018-05 (2018).

[7] Paschali, Magdalini, dkk. "Generalisasi vs. Ketahanan: Contoh Musuh untuk Pencitraan Medis." arXiv preprint arXiv:1804.00504 (2018).

[8] Ebrahimi, Javid, Daniel Lowd, dan Dejing Dou. "Pada Contoh Adversarial untuk Terjemahan Mesin Neural Tingkat Karakter." arXiv preprint arXiv:1806.09030 (2018)

[9] Carlini, Nicholas, dan David Wagner. "Contoh iklan audio: Serangan yang ditargetkan pada ucapan ke teks." arXiv preprint arXiv:1801.01944 (2018).

[10] Jagielski, Matthew, dkk. "Memanipulasi pembelajaran mesin: Serangan keracunan dan penanggulangan untuk pembelajaran regresi." arXiv preprint arXiv:1804.00308 (2018)

[11] [https://blogs.microsoft.com/blog/2016/03/25/learning-tays-introduction/]

[12] Fredrikson M, Jha S, Ristenpart T. 2015. Serangan inversi model yang mengeksploitasi informasi keyakinan dan penanggulangan dasar

[13] Shokri R, Stronati M, Song C, Shmatikov V. 2017. Serangan inferensi keanggotaan terhadap model pembelajaran mesin. Dalam Proc. dari IEEE Symp. on Security and Privacy (SP) 2017, San Jose, CA, 22–24 Mei 2017, pp. 3–18. New York, NY: IEEE.

[14] Tramèr, Florian, dkk. "Mencuri Model Pembelajaran Mesin melalui API Prediksi." USENIX Security Symposium. 2016.

[15] Elsayed, Gamaleldin F., Ian Goodfellow, dan Jascha Sohl-Dickstein. "Pemrograman Ulang Adversarial Jaringan Neural." arXiv preprint arXiv:1806.11146 (2018).

[16] Athalye, Anish, dan Ilya Sutskever. "Mensintesis contoh iklan yang kuat." arXiv preprint arXiv:1707.07397(2017)

[17] Sharif, Mahmood, dkk. "Jaring Generatif Musuh: Serangan Jaringan Neural pada Pengenalan Wajah State-of-the-Art." arXiv preprint arXiv:1801.00349 (2017).

[19] Xiao, Qixue, dkk. "Risiko Keamanan dalam Implementasi Pembelajaran Mendalam." arXiv preprint arXiv:1711.11008 (2017).

[20] Gu, Tianyu, Brendan Dolan-Gavitt, dan Siddharth Garg. "Badnets: Mengidentifikasi kerentanan dalam rantai pasokan model pembelajaran mesin." arXiv preprint arXiv:1708.06733 (2017)

[21] [https://www.wired.com/story/machine-learning-backdoors/]

[22] [https://docs.google.com/spreadsheets/d/e/2PACX-1vRPiprOaC3HsCf5Tuum8bRfzYUiKLRqJmbOoC-32JorNdfyTiRRsR7Ea5eWtvsWzuxo8bjOxCG84dAg/pubhtml]

[23] Amodei, Dario, dkk. "Masalah konkret dalam keselamatan AI." arXiv preprint arXiv:1606.06565 (2016).

[24] Leike, Jan, dkk. "AI safety gridworlds." arXiv preprint arXiv:1711.09883 (2017).

[25] Gilmer, Justin, dkk. "Memotivasi aturan permainan untuk penelitian contoh iklan." arXiv preprint arXiv:1807.06732 (2018).

[26] Hendrycks, Dan, dan Thomas Dietterich. "Tolok ukur ketahanan jaringan neural terhadap korupsi dan perturbasi umum." arXiv preprint arXiv:1903.12261 (2019).