Bagikan melalui


Mode Kegagalan dalam Pembelajaran Mesin

Microsoft Corporation Pusat Internet dan Masyarakat Berkman Klein di Universitas Harvard

Ram Shankar Siva Kumar

David O'Brien

Jeffrey Snover

Kendra Albert

Salome Viljoen

November 2019

Pengantar & Latar Belakang

Dalam dua tahun terakhir, lebih dari 200 makalah telah ditulis tentang bagaimana Pembelajaran Mesin (ML) dapat gagal karena serangan adversarial pada algoritma dan data; angka ini meningkat tajam jika kita menggabungkan mode kegagalan non-adversarial. Banyaknya makalah telah menyulitkan praktisi ML, apalagi insinyur, pengacara, dan pembuat kebijakan, untuk mengikuti serangan terhadap dan pembelaan sistem ML. Namun, karena sistem ini menjadi lebih merata, kebutuhan untuk memahami bagaimana mereka gagal, apakah oleh ulah antagonis atau karena desain bawaan sistem, akan semakin mendesak. Tujuan dari dokumen ini adalah untuk mencatat kedua mode kegagalan ini secara bersama-sama dalam satu tabel.

  • Kegagalan yang disengaja di mana kegagalan disebabkan oleh adversary aktif yang mencoba menumbangkan sistem untuk mencapai tujuannya - baik untuk salah mengklasifikasikan hasil, menyimpulkan data pelatihan privat, atau mencuri algoritma yang mendasarinya.

  • Kegagalan yang tidak disengaja di mana kegagalan adalah karena sistem ML menghasilkan hasil yang benar tetapi sepenuhnya tidak aman secara resmi.

Kami ingin menunjukkan bahwa ada taksonomi dan kerangka kerja lain yang secara individual menyoroti mode kegagalan yang disengaja[1],[2] dan mode kegagalan yang tidak disengaja[3],[4]. Klasifikasi kami menyatukan dua mode kegagalan terpisah di satu tempat dan memenuhi kebutuhan berikut:

  1. Kebutuhan untuk melengkapi pengembang perangkat lunak, responden insiden keamanan, pengacara, dan pembuat kebijakan dengan istilah yang sama dalam membahas masalah ini. Setelah mengembangkan versi awal taksonomi tahun lalu, kami bekerja dengan tim keamanan dan ML di Microsoft, 23 mitra eksternal, organisasi standar, dan pemerintah untuk memahami bagaimana pemangku kepentingan akan menggunakan kerangka kerja kami. Berdasarkan studi kegunaan ini dan umpan balik pemangku kepentingan, kami melakukan iterasi pada kerangka kerja.

    Hasil: Ketika disajikan dengan mode kegagalan ML, kami sering mengamati bahwa pengembang perangkat lunak dan pengacara secara mental memetakan mode kegagalan ML ke serangan perangkat lunak tradisional seperti penyelundupan data. Jadi, di seluruh makalah ini, kami mencoba menyoroti bagaimana mode kegagalan pembelajaran mesin berbeda secara bermakna dari kegagalan perangkat lunak tradisional dalam perspektif teknologi dan kebijakan.

  2. Kebutuhan akan platform bersama yang dapat digunakan oleh insinyur untuk membangun di atasnya dan terintegrasi dengan praktik pengembangan perangkat lunak dan keamanan yang sudah mereka miliki. Secara luas, kami ingin taksonomi menjadi lebih dari alat pendidikan - kami ingin itu mempengaruhi hasil rekayasa nyata.

    Hasil: Dengan menggunakan taksonomi ini sebagai lensa, Microsoft memodifikasi proses Siklus Hidup Pengembangan Keamanan untuk seluruh organisasinya. Secara khusus, ilmuwan data dan insinyur keamanan di Microsoft sekarang berbagi bahasa umum taksonomi ini, memungkinkan mereka untuk lebih efektif memodelkan sistem ML mereka sebelum menyebarkan ke produksi; Penanggap Insiden Keamanan juga memiliki bilah bug untuk melakukan triase ancaman baru ini khusus untuk ML, proses standar untuk triase dan respons kerentanan yang digunakan oleh Pusat Respons Keamanan Microsoft dan semua tim produk Microsoft.

  3. Kebutuhan akan kosakata umum untuk menggambarkan serangan ini di antara pembuat kebijakan dan pengacara. Kami percaya bahwa ini untuk menjelaskan berbagai mode kegagalan ML dan analisis tentang bagaimana bahaya mereka mungkin diatur adalah langkah pertama yang bermakna menuju kebijakan yang diinformasikan.

    Hasil: Taksonomi ini ditulis untuk audiens interdisipliner yang luas - jadi, pembuat kebijakan yang melihat masalah dari perspektif ML/AI umum, serta domain tertentu seperti informasi yang salah/layanan kesehatan harus menemukan katalog mode kegagalan yang berguna. Kami juga menyoroti intervensi hukum yang berlaku untuk mengatasi mode kegagalan.

Lihat juga Pemodelan Ancaman untuk Sistem dan Dependensi AI/ML dari Microsoft dan Pivot Bilah Bug pada SDL untuk Kerentanan Pembelajaran Mesin.

Cara menggunakan dokumen ini

Pada awalnya, kami mengakui bahwa ini adalah dokumen hidup yang akan berkembang dari waktu ke waktu dengan lanskap ancaman. Kami juga tidak menetapkan mitigasi teknologi untuk modus kegagalan ini di sini, karena pertahanan bersifat spesifik menurut skenario dan berkaitan dengan model ancaman serta arsitektur sistem yang dipertimbangkan. Opsi yang disajikan untuk mitigasi ancaman didasarkan pada penelitian saat ini dengan harapan bahwa pertahanan tersebut akan berkembang dari waktu ke waktu juga.

Untuk teknisi, sebaiknya telusuri gambaran umum kemungkinan mode kegagalan dan melompat ke dokumen pemodelan ancaman. Dengan cara ini, teknisi dapat mengidentifikasi ancaman, serangan, kerentanan, dan menggunakan kerangka kerja untuk merencanakan penanggulangan jika tersedia. Kami kemudian merujuk Anda ke panel bug yang memetakan kerentanan baru ini dalam taksonomi bersama kerentanan perangkat lunak tradisional, dan memberikan peringkat untuk setiap kerentanan pembelajaran mesin (ML) (seperti kritis, penting). Bilah bug ini mudah diintegrasikan ke dalam proses/playbook respons insiden yang ada.

Untuk pengacara dan pembuat kebijakan, dokumen ini mengatur mode kegagalan ML dan menyajikan kerangka kerja untuk menganalisis masalah utama yang relevan bagi siapa pun yang menjelajahi opsi kebijakan, seperti pekerjaan yang dilakukan di sini[5],[6]. Secara khusus, kami telah mengkategorikan kegagalan dan konsekuensi dengan cara agar pembuat kebijakan dapat mulai menarik perbedaan antara penyebab, yang akan menginformasikan inisiatif kebijakan publik untuk mempromosikan keselamatan dan keamanan ML. Kami berharap bahwa pembuat kebijakan akan menggunakan kategori ini mulai melahirkan bagaimana rezim hukum yang ada mungkin (tidak) secara memadai menangkap masalah yang muncul, rezim hukum historis atau solusi kebijakan apa yang mungkin telah berurusan dengan bahaya serupa, dan di mana kita harus sangat sensitif terhadap masalah kebebasan sipil.

Struktur Dokumen

Di bagian Mode Kegagalan Yang Disengaja dan Mode Kegagalan Yang Tidak Disengaja , kami memberikan definisi singkat tentang serangan, dan contoh ilustrasi dari literatur.

Di bagian Mode Kegagalan yang Disengaja , kami menyediakan bidang tambahan:

  1. Apa upaya serangan untuk membahayakan dalam sistem ML - Kerahasiaan, Integritas, atau Ketersediaan? Kami mendefinisikan Kerahasiaan sebagai jaminan bahwa komponen sistem ML (data, algoritma, model) hanya dapat diakses oleh pihak yang berwenang; Integritas didefinisikan sebagai jaminan bahwa sistem ML hanya dapat dimodifikasi oleh pihak yang berwenang; Ketersediaan didefinisikan sebagai jaminan bahwa sistem ML dapat diakses oleh pihak yang berwenang. Bersama-sama, Kerahasiaan, Integritas, dan Ketersediaan disebut triad CIA. Untuk setiap mode kegagalan yang disengaja, kami mencoba mengidentifikasi triad CIA mana yang disusupi.

  2. Berapa banyak pengetahuan yang diperlukan untuk memasang serangan ini - kotak hitam atau kotak putih? Dalam serangan gaya Blackbox., penyerang TIDAK memiliki akses langsung ke data pelatihan, tidak ada pengetahuan tentang algoritma ML yang digunakan dan tidak ada akses ke kode sumber model. Penyerang hanya mengkueri model dan mengamati respons. Dalam serangan gaya kotak putih, penyerang memiliki pengetahuan tentang algoritma ML atau akses ke kode sumber model.

  3. Komentar tentang apakah penyerang melanggar gagasan teknologi tradisional tentang akses/otorisasi.

Ringkasan Kegagalan yang Dimotivasi dengan Sengaja

Nomor Skenario
Serangan
Ikhtisar
Melanggar gagasan teknologi tradisional tentang akses/otorisasi?
1
Serangan perturbasi
Penyerang memodifikasi kueri untuk mendapatkan respons yang sesuai
No
2
Serangan keracunan
Penyerang mengkontaminasi fase pelatihan sistem ML untuk mendapatkan hasil yang dimaksudkan
No
3
Inversi Model
Penyerang memulihkan fitur rahasia yang digunakan dalam model dengan melalui kueri yang cermat
No
4
Inferensi Keanggotaan
Penyerang dapat menyimpulkan apakah rekaman data tertentu adalah bagian dari himpunan data pelatihan model atau tidak
No
5
Pencurian Model
Penyerang dapat memulihkan model melalui kueri yang dibuat dengan hati-hati
No
6
Memprogram ulang sistem ML
Gunakan kembali sistem ML untuk melakukan aktivitas yang tidak diprogram untuk
No
7
Contoh Adversarial di Domain Fisik
Penyerang membawa contoh adversarial ke dalam domain fisik untuk mengelabui sistem pembelajaran mesin, seperti mencetak kacamata khusus 3D untuk mengelabui sistem pengenalan wajah
No
8
Penyedia ML berbahaya memulihkan data pelatihan
Penyedia ML berbahaya dapat mengkueri model yang digunakan oleh pelanggan dan memulihkan data pelatihan pelanggan
Yes
9
Menyerang rantai pasokan ML
Penyerang merusak model ML ketika sedang diunduh untuk digunakan
Yes
10
Backdoor ML
Penyedia ML berbahaya menyisipkan backdoor ke dalam algoritma untuk diaktifkan dengan pemicu tertentu
Yes
11
Mengeksploitasi Dependensi Perangkat Lunak
Penyerang menggunakan eksploitasi perangkat lunak tradisional seperti luapan buffer untuk membingungkan/mengontrol sistem ML
Yes

Ringkasan Kegagalan yang Tidak Diinginkan

Skenario #
Kegagalan
Ikhtisar
12
Pemanfaatan Hadiah
Sistem Reinforcement Learning (RL) bertindak dengan cara yang tidak diinginkan karena ketidakcocokan antara hadiah yang dinyatakan dan hadiah sejati
13
Efek Samping
Sistem RL mengganggu lingkungan saat mencoba mencapai tujuannya
14
Pergeseran distribusi
Sistem ini diuji dalam satu jenis lingkungan, tetapi tidak dapat beradaptasi dengan perubahan di jenis lingkungan lain
15
Contoh Adversarial Alami
Tanpa perturbasi penyerang, sistem ML gagal karena penambangan negatif keras
16
Kerusakan Umum
Sistem tidak dapat menangani kerusakan umum dan perturbasi seperti miring, perbesar tampilan, atau gambar yang bising.
17
Pengujian Tidak Lengkap
Sistem ML tidak diuji dalam kondisi realistis yang dimaksudkan untuk beroperasi.

Rincian tentang Kegagalan yang Bermaksud

Skenario # Kelas Serangan Deskripsi Jenis Kompromi Skenario
1 Serangan gangguan Dalam serangan gaya perturbasi, penyerang secara diam-diam memodifikasi kueri untuk mendapatkan respons yang diinginkan Integritas Gambar: Kebisingan ditambahkan ke gambar sinar-X, yang membuat prediksi dari pemindaian normal ke abnormal [1][Blackbox]

Terjemahan teks: Karakter tertentu dimanipulasi untuk menghasilkan terjemahan yang salah. Serangan ini dapat menekan kata tertentu atau bahkan dapat menghapus kata sepenuhnya[2][Blackbox dan Whitebox]

Ucapan: Peneliti menunjukkan bagaimana bentuk gelombang ucapan tertentu dapat direplikasi secara persis menjadi bentuk gelombang lain, tetapi kemudian ditranskripsikan ke dalam teks yang sepenuhnya berbeda[3][Whitebox tetapi dapat diperluas menjadi blackbox]

2 Serangan keracunan Tujuan dari penyerang adalah untuk mencemari model mesin yang dihasilkan dalam fase pelatihan, sehingga prediksi pada data baru akan dimodifikasi dalam fase pengujian

Ditargetkan: Dalam serangan keracunan yang ditargetkan, penyerang ingin salah mengklasifikasikan contoh tertentu

Indiskriminatif: Tujuannya di sini adalah untuk menyebabkan efek serupa DoS, yang membuat sistem tidak tersedia.

Integritas Dalam himpunan data medis di mana tujuannya adalah untuk memprediksi dosis obat antikoagulan Warfarin menggunakan informasi demografis, dll. Peneliti memperkenalkan sampel berbahaya pada tingkat keracunan 8%, yang mengubah dosis sebesar 75,06% untuk setengah pasien[4][Blackbox]

Dalam Tay chatbot, percakapan di masa depan ternoda karena sebagian kecil dari percakapan masa lalu digunakan untuk melatih sistem melalui masukan[5] [Blackbox]

3 Inversi Model Fitur privat yang digunakan dalam model pembelajaran mesin dapat dipulihkan Kerahasiaan; Para peneliti berhasil memulihkan data pelatihan privat yang digunakan untuk melatih algoritma. Para penulis berhasil merekonstruksi wajah, hanya dengan nama dan mengakses model hingga pada titik di mana Amazon Mechanical Turk dapat menggunakan foto untuk mengidentifikasi individu dari barisan dengan akurasi 95%. Penulis juga dapat mengekstrak informasi tertentu. [Kotak Putih dan Kotak Hitam][12]
4 Serangan Inferensi Keanggotaan Penyerang dapat menentukan apakah rekaman data tertentu adalah bagian dari himpunan data pelatihan model atau tidak Kerahasiaan Para peneliti dapat memprediksi prosedur utama pasien (misalnya: Operasi yang dilalui pasien) berdasarkan atribut (misalnya: usia, jenis kelamin, rumah sakit)[7][Blackbox]
5 Pencurian model Penyerang merekonstruksi model dasar dengan mengajukan kueri ke model secara sah. Fungsionalitas model baru sama dengan model yang mendasar. Kerahasiaan Peneliti berhasil menimulasi algoritma yang mendasar dari Amazon, BigML. Misalnya, dalam kasus BigML, peneliti dapat memulihkan model yang digunakan untuk memprediksi apakah seseorang harus memiliki risiko kredit yang baik/buruk (himpunan data Kartu Kredit Jerman) menggunakan 1.150 kueri dan dalam waktu 10 menit[8]
6 Memprogram ulang jaringan neural dalam Dengan kueri yang dibuat secara khusus dari lawan, sistem pembelajaran mesin dapat diprogram ulang ke tugas yang menyimpang dari niat asli pembuatnya. Integritas, Ketersediaan Menunjukkan bagaimana ImageNet, sistem yang digunakan untuk mengklasifikasikan salah satu dari beberapa kategori gambar digunakan kembali untuk menghitung kuadrat. Penulis mengakhiri makalah dengan skenario hipotetis: Penyerang mengirim gambar Captcha ke klasifikasi visi komputer dalam layanan foto yang di-host di cloud untuk memecahkan gambar Captcha dan membuat akun spam[9]
7 Contoh Serangan di Ranah Fisik Contoh adversarial adalah input/kueri dari entitas berbahaya yang dikirim dengan satu-satunya tujuan menyesatkan sistem pembelajaran mesin Contoh ini dapat bermanifestasi di domain fisik Integritas Peneliti 3D mencetak senapan dengan tekstur kustom yang membodohi sistem pengenalan gambar agar berpikir bahwa itu adalah kura-kura[10]

Peneliti membuat kacamata hitam dengan desain yang sekarang dapat mengelabui sistem pengenalan gambar, sehingga tidak lagi mengenali wajah dengan benar[11]

8 Penyedia ML berbahaya yang dapat memulihkan data pelatihan Penyedia ML berbahaya dapat mengkueri model yang digunakan oleh pelanggan dan memulihkan data pelatihan pelanggan Kerahasiaan Peneliti menunjukkan cara penyedia berbahaya menyajikan algoritma dengan celah, di mana data pelatihan pribadi dipulihkan. Mereka mampu merekonstruksi wajah dan teks, hanya dengan model tersebut. [12]
9 Menyerang Rantai Pasokan ML[13] Karena sumber daya besar (data + komputasi) yang diperlukan untuk melatih algoritma, praktik saat ini adalah menggunakan kembali model yang dilatih oleh perusahaan besar, dan memodifikasinya sedikit untuk tugas yang ditangani (misalnya: ResNet adalah model pengenalan gambar populer dari Microsoft). Model-model ini dikumpulkan dalam Model Zoo (Caffe menghosting model pengenalan gambar populer). Dalam serangan ini, musuh menyerang model yang dihosting di Caffe, sehingga meracuni sumur untuk orang lain. Integritas Peneliti menunjukkan bagaimana mungkin bagi penyerang untuk memeriksa kode berbahaya ke dalam salah satu model populer. Pengembang ML yang tidak terduga mengunduh model ini dan menggunakannya sebagai bagian dari sistem pengenalan gambar dalam kode mereka [14]. Penulis menunjukkan bagaimana dalam Caffe, ada model yang hash SHA1-nya tidak cocok dengan hasil digest penulis, menunjukkan adanya pengubahan. Ada 22 model tanpa hash SHA1 untuk pemeriksaan integritas sama sekali.
10 Pembelajaran Mesin Backdoor Seperti dalam "Menyerang Rantai Pasokan ML", Dalam skenario serangan ini, proses pelatihan sepenuhnya atau sebagian dialihdayakan kepada pihak jahat yang ingin memberi pengguna model terlatih yang berisi backdoor. Model backdoored akan berkinerja baik pada sebagian besar input (termasuk input yang mungkin digunakan oleh pengguna akhir sebagai set validasi) tetapi menyebabkan kesalahan klasifikasi yang ditujukan atau menurunkan akurasi model untuk input yang memenuhi properti rahasia tertentu yang dipilih oleh penyerang, yang akan kami sebut sebagai pemicu backdoor. Kerahasiaan, Integritas Peneliti membuat pengklasifikasi tanda jalan A.S. yang telah disusupi backdoor, yang mengidentifikasi tanda berhenti sebagai batas kecepatan hanya ketika stiker khusus ditambahkan ke tanda berhenti (pemicu backdoor). Mereka sekarang memperluas pekerjaan ini ke sistem pengolahan teks, di mana kata-kata tertentu diganti dengan pemicu yang berupa aksen pembicara.
11 Mengeksploitasi dependensi perangkat lunak sistem ML Dalam serangan ini, penyerang TIDAK memanipulasi algoritma. Sebaliknya, mengeksploitasi kerentanan perangkat lunak tradisional seperti luapan buffer. Kerahasiaan, Integritas, Ketersediaan, Penyerang mengirimkan input yang rusak ke dalam sistem pengenalan gambar sehingga menyebabkan kesalahan klasifikasi dengan mengeksploitasi bug perangkat lunak pada salah satu dependensi.

Detail tentang Kegagalan yang Tidak Diinginkan

Skenario # Kelas Serangan Deskripsi Jenis Kompromi Skenario
12 Manipulasi Sistem Imbalan Sistem pembelajaran penguatan bertindak dengan cara yang tidak diinginkan karena perbedaan antara hadiah yang ditentukan dan hadiah yang sebenarnya dimaksudkan. Keamanan sistem Korpus besar contoh game di AI telah dikompilasi di sini[1]
13 Efek Samping Sistem RL mengganggu lingkungan saat mencoba mencapai tujuan mereka Keamanan sistem Skenario, verbatim dari penulis di [2]: "Misalkan seorang desainer menginginkan agen RL (misalnya robot pembersihan kami) untuk mencapai beberapa tujuan, seperti memindahkan sebuah kotak dari satu sisi ruangan ke sisi lainnya. Terkadang cara paling efektif untuk mencapai tujuan melibatkan melakukan sesuatu yang tidak terkait dan merusak bagian lain dari lingkungan, seperti menabrak vas berisi air yang ada di jalannya. Jika agen diberikan hadiah hanya untuk memindahkan kotak, agen tersebut mungkin akan menjungkalkan vas.
14 Pergeseran dalam distribusi Sistem ini diuji dalam satu jenis lingkungan, tetapi tidak dapat beradaptasi dengan perubahan di jenis lingkungan lain Keamanan sistem Para peneliti melatih dua agen RL mutakhir, Rainbow DQN dan A2C, dalam simulasi agar dapat menghindari lava. Selama pelatihan, agen RL berhasil menghindari lava dan mencapai tujuannya. Selama pengujian, mereka sedikit memindahkan posisi lava, tetapi agen RL tidak dapat menghindari [3]
15 Contoh Adversarial Alamiah Sistem salah mengenali input yang ditemukan menggunakan penambangan negatif keras Keamanan sistem Di sini penulis menunjukkan bagaimana dengan proses sederhana penambangan negatif keras[4], dimungkinkan untuk membingungkan sistem ML dengan menyampaikan contoh.
16 Kerusakan Umum Sistem tidak dapat menangani kerusakan umum dan perturbasi seperti miring, perbesar tampilan, atau gambar yang bising. Keamanan sistem Penulis[5] menunjukkan bagaimana kerusakan umum seperti perubahan pada kecerahan, kontras, kabut atau kebisingan yang ditambahkan ke gambar, memiliki penurunan metrik yang signifikan dalam pengenalan gambar
17 Pengujian Tidak Lengkap dalam Kondisi realistis Sistem ML tidak diuji dalam kondisi realistis yang dimaksudkan untuk beroperasi di Keamanan sistem Penulis dalam [25] menyoroti bahwa sementara pembela umumnya memperhitungkan ketahanan algoritma ML, mereka kehilangan pandangan tentang kondisi realistis. Misalnya, mereka berpendapat bahwa tanda berhenti yang hilang tertiup angin, lebih realistis, daripada penyerang yang mencoba mengganggu input sistem.

Pengakuan

Kami ingin berterima kasih kepada Andrew Marshall, Magnus Nystrom, John Walton, John Lambert, Sharon Xia, Andi Comissoneru, Emre Kiciman, Jugal Parikh, Sharon Gillet, anggota AI microsoft dan Ethics in Engineering and Research (AETHER) komite Aliran kerja Keamanan, Amar Ashar, Samuel Klein, Jonathan Zittrain, anggota Kelompok Kerja Keamanan Keselamatan AI di Berkman Klein untuk memberikan umpan balik yang bermanfaat. Kami juga ingin mengucapkan terima kasih kepada peninjau dari 23 mitra eksternal, organisasi standar, dan organisasi pemerintah untuk membentuk taksonomi.

Bibliografi

[1] Li, Guofu, dkk. "Masalah Keamanan: Survei tentang Pembelajaran Mesin Adversarial." arXiv preprint arXiv:1810.07339 (2018).

[2] Chakraborty, Anirban, dkk. "Serangan dan pertahanan musuh: Survei." arXiv preprint arXiv:1810.00069 (2018).

[3] Ortega, Pedro, dan Vishal Maini. "Membangun kecerdasan buatan yang aman: spesifikasi, ketahanan, dan jaminan." Blog Penelitian Keselamatan DeepMind (2018).

[4] Amodei, Dario, dkk. "Masalah konkret dalam keselamatan AI." arXiv preprint arXiv:1606.06565 (2016).

[5] Shankar Siva Kumar, Ram, dkk. "Hukum dan Pembelajaran Mesin Adversarial." arXiv preprint arXiv:1810.10731 (2018).

[6] Calo, Ryan, dkk. "Apakah Mengelabui Robot Termasuk Peretasan?" Makalah Penelitian dari Fakultas Hukum Universitas Washington 2018-05 (2018).

[7] Paschali, Magdalini, dkk. "Generalisasi vs. Ketahanan: Contoh Musuh untuk Pencitraan Medis." arXiv preprint arXiv:1804.00504 (2018).

[8] Ebrahimi, Javid, Daniel Lowd, dan Dejing Dou. Contoh Adversarial untuk Penerjemahan Mesin Tingkat Karakter. arXiv preprint arXiv:1806.09030 (2018)

[9] Carlini, Nicholas, dan David Wagner. Contoh adveresial audio: Serangan yang ditargetkan pada ucapan ke teks. arXiv preprint arXiv:1801.01944 (2018).

[10] Jagielski, Matthew, dkk. "Memanipulasi pembelajaran mesin: Serangan keracunan dan penanggulangan untuk pembelajaran regresi." arXiv preprint arXiv:1804.00308 (2018)

[11] [https://blogs.microsoft.com/blog/2016/03/25/learning-tays-introduction/]

[12] Fredrikson M, Jha S, Ristenpart T. 2015. Serangan inversi model yang mengeksploitasi informasi kepercayaan dan tindakan pencegahan dasar

[13] Shokri R, Stronati M, Song C, Shmatikov V. 2017. Serangan inferensi keanggotaan terhadap model pembelajaran mesin. Dalam Pros. dari Simposium IEEE tentang Keamanan dan Privasi (SP) 2017, San Jose, CA, 22–24 Mei 2017, pp. 3–18. New York, NY: IEEE.

[14] Tramèr, Florian, dkk. "Mencuri Model Pembelajaran Mesin melalui API Prediksi." USENIX Security Symposium. 2016.

[15] Elsayed, Gamaleldin F., Ian Goodfellow, dan Jascha Sohl-Dickstein. "Pemrograman Ulang Adversarial Jaringan Saraf." arXiv preprint arXiv:1806.11146 (2018).

[16] Athalye, Anish, dan Ilya Sutskever. Mensintesis contoh-contoh adversarial yang kuat. arXiv preprint arXiv:1707.07397(2017)

[17] Sharif, Mahmood, dkk. "Jaringan Adversarial Generatif: Serangan Jaringan Neural pada Pengenalan Wajah Terdepan." arXiv preprint arXiv:1801.00349 (2017).

[19] Xiao, Qixue, dkk. "Risiko Keamanan dalam Implementasi Pembelajaran Mendalam." arXiv preprint arXiv:1711.11008 (2017).

[20] Gu, Tianyu, Brendan Dolan-Gavitt, dan Siddharth Garg. "Badnets: Mengidentifikasi kerentanan dalam rantai pasokan model pembelajaran mesin." arXiv preprint arXiv:1708.06733 (2017)

[21] [https://www.wired.com/story/machine-learning-backdoors/]

[22] [https://docs.google.com/spreadsheets/d/e/2PACX-1vRPiprOaC3HsCf5Tuum8bRfzYUiKLRqJmbOoC-32JorNdfyTiRRsR7Ea5eWtvsWzuxo8bjOxCG84dAg/pubhtml]

[23] Amodei, Dario, dkk. "Masalah konkret dalam keselamatan AI." arXiv preprint arXiv:1606.06565 (2016).

[24] Leike, Jan, dkk. "AI safety gridworlds." arXiv preprint arXiv:1711.09883 (2017).

[25] Gilmer, Justin, dkk. "Memotivasi aturan dasar untuk penelitian contoh adversarial." arXiv preprint arXiv:1807.06732 (2018).

[26] Hendrycks, Dan, dan Thomas Dietterich. "Tolok ukur ketahanan jaringan neural terhadap korupsi dan perturbasi umum." arXiv preprint arXiv:1903.12261 (2019).