Not
Bu sayfaya erişim yetkilendirme gerektiriyor. Oturum açmayı veya dizinleri değiştirmeyi deneyebilirsiniz.
Bu sayfaya erişim yetkilendirme gerektiriyor. Dizinleri değiştirmeyi deneyebilirsiniz.
| Microsoft Corporation | Berkman Klein Harvard Üniversitesi İnternet ve Toplum Merkezi |
|---|---|
Kasım 2019
Giriş ve Arka Plan
Son iki yılda, algoritmalara ve verilere yönelik karşıt saldırılar nedeniyle Makine Öğrenimi'nin (ML) nasıl başarısız olabileceğine dair 200'den fazla makale yazılmıştır; saldırgan olmayan hata türlerini dahil ettiğimizde bu sayı daha da artar. Çok sayıda makale, yalnızca mühendisleri, avukatları ve politika yapıcıları değil, aynı zamanda ML uygulayıcılarının da ML sistemlerindeki saldırılara ve savunmalara ayak uydurmasını zorlaştırdı. Ancak, bu sistemler daha yaygın hale geldikçe, bir saldırganın eliyle veya bir sistemin doğası gereği tasarımından dolayı nasıl başarısız olduklarını anlama ihtiyacı daha baskılı hale gelecektir. Bu belgenin amacı, bu hata modlarının her ikisini de tek bir yerde birlikte tabloya eklemektir.
Kasıtlı hatalar, aktif bir saldırganın, bir sistemi hedeflerine ulaşmak için alt etmeye çalışması durumunda ortaya çıkar: Sonucu yanlış sınıflandırmak, özel eğitim verilerini çıkarmak veya temel algoritmayı çalmak gibi.
Bir ML sistemi tarafından resmi olarak doğru ancak tamamen güvenli olmayan bir sonucun üretilmesi, kasıtsız hatalara neden olur.
Kasıtlı hata modlarını[1],[2] ve kasıtsız hata modlarını ayrı ayrı vurgulayan başka taksonomiler ve çerçeveler olduğunu belirtmek isteriz[3],[4]. Sınıflandırmamız iki ayrı hata modunu tek bir yerde bir araya getirir ve aşağıdaki gereksinimleri karşılar:
Yazılım geliştiricilerini, güvenlik olayı yanıtlayıcılarını, avukatları ve politika oluşturucuları bu sorun hakkında konuşmak için ortak bir dille donatma ihtiyacı. Taksonominin ilk sürümünü geçen yıl geliştirdikten sonra, proje katılımcılarının çerçevemizi nasıl kullanacağını anlamak için Microsoft, 23 dış iş ortağı, standartlar kuruluşu ve kamu kuruluşları genelinde güvenlik ve ML ekipleriyle birlikte çalıştık. Bu kullanılabilirlik çalışmasına ve paydaş geri bildirimlerine dayanarak çerçeveyi yineledik.
Sonuç -ları: ML hata modu sunulduğunda, yazılım geliştiricilerinin ve avukatların ml hata modlarını zihinsel olarak veri sızdırma gibi geleneksel yazılım saldırılarına eşlediğini sık sık gözlemledik. Bu nedenle, makale boyunca makine öğrenmesi hata modlarının teknoloji ve ilke perspektifinden geleneksel yazılım hatalarından anlamlı olarak nasıl farklı olduğunu vurgulama girişiminde bulunuyoruz.
Mühendislerin mevcut yazılım geliştirme ve güvenlik uygulamalarına entegre etmeleri ve üzerinde inşa etmeleri için ortak bir platform ihtiyacı. Genel olarak taksonominin bir eğitim aracından daha fazlası olmasını istedik; somut mühendislik sonuçlarını etkilemesini istiyoruz.
Sonuç -ları: Microsoft, bu taksonomiyi mercek olarak kullanarak tüm kuruluş için Güvenlik Geliştirme Yaşam Döngüsü sürecini değiştirdi. Özellikle, Microsoft'taki veri bilimciler ve güvenlik mühendisleri artık bu taksonominin ortak dilini paylaşarak ML sistemlerini üretime dağıtmadan önce daha etkili bir şekilde tehdit modellemesine olanak tanır. Ayrıca, Güvenlik Olayı Yanıtlayıcıları, Microsoft Güvenlik Yanıt Merkezi ve tüm Microsoft ürün ekipleri tarafından kullanılan güvenlik açıklarına yönelik standart önceliklendirme ve yanıt süreci kapsamında, ML'ye özgü bu yeni tehditleri değerlendirmek için bir hata önceliklendirme aracına sahiptir.
Politika yapıcılar ve avukatlar arasındaki bu saldırıları tanımlamak için ortak bir sözlük ihtiyacı. Bunun farklı ML hata modlarını açıklamanın ve zararlarının nasıl düzenlenebileceğini analiz etmenin bilinçli ilkeye yönelik anlamlı bir ilk adım olduğuna inanıyoruz.
Sonuç -ları: Bu taksonomi, disiplinler arası geniş bir kitle için yazılmıştır. Bu nedenle, genel ML/AI perspektifinden sorunlara bakan ilke oluşturucuların yanı sıra yanlış bilgi/sağlık gibi belirli etki alanları hata modu kataloğunu yararlı bulmalıdır. Hata modlarını ele almak için geçerli yasal müdahaleleri de vurgularız.
Ayrıca bkz. Microsoft'un Tehdit Modelleme AI/ML Sistemleri ve Bağımlılıkları veMakine Öğrenmesi Güvenlik Açıkları için SDL Hata Çubuğu Özetleri.
Bu belgeyi kullanma
Başlangıçta, bunun tehdit ortamıyla birlikte zaman içinde gelişecek canlı bir belge olduğunu kabul ediyoruz. Savunmalar senaryoya özgü olduğundan ve tehdit modeli ve sistem mimarisi dikkate alındığından, bu hata modlarına teknolojik risk azaltmaları da belirlemeyiz. Tehdit azaltma için sunulan seçenekler, bu savunmaların da zaman içinde gelişeceği beklentisiyle mevcut araştırmalara dayanır.
Mühendisler için olası hata modlarına genel bakışa göz atmanızı ve tehdit modelleme belgesine atlamanızı öneririz. Bu şekilde mühendisler tehditleri, saldırıları, güvenlik açıklarını belirleyebilir ve mümkünse karşı önlemleri planlamak için çerçeveyi kullanabilir. Ardından sizi taksonomideki bu yeni güvenlik açıklarını geleneksel yazılım güvenlik açıklarıyla eşleyen ve her ML güvenlik açığı için bir derecelendirme (kritik, önemli gibi) sağlayan hata çubuğuna yönlendiriyoruz. Bu hata çubuğu, mevcut olay yanıt süreçlerine/playbook'larına kolayca tümleştirilir.
Avukatlar ve ilke oluşturucular için bu belge ML hata modlarını düzenler ve burada yapılan çalışmalar gibi ilke seçeneklerini keşfeden herkesle ilgili önemli sorunları analiz etmek için bir çerçeve sunar[5],[6]. Özellikle, hataları ve sonuçları, ilke oluşturucuların nedenler arasında ayrımlar çizmeye başlayıp ML güvenliğini ve güvenliğini teşvik etmeye yönelik genel ilke girişimlerini bilgilendirecek şekilde kategorilere ayırdık. Politika yapıcıların bu kategorileri kullanarak mevcut yasal rejimlerin yeni çıkan sorunları nasıl yeterli şekilde yakalayabileceğini (yakalamadığını), hangi tarihsel yasal rejimlerin veya politika çözümlerinin benzer zararlarla başa çıkabileceğini ve sivil özgürlükler konusunda özellikle hassas olmamız gerektiğini ortaya çıkaracağını umuyoruz.
Belge Yapısı
Hem Kasıtlı Hata Modları hem de İstenmeyen Hata Modları bölümlerinde saldırının kısa bir tanımını ve literatürden bir örnek sunuyoruz.
Kasıtlı Hata Modları bölümünde ek alanları sağlarız:
Saldırı ML sisteminde neleri tehlikeye atmaya çalışır: Gizlilik, Bütünlük veya Kullanılabilirlik? Gizlilik'i, ML sisteminin bileşenlerinin (veri, algoritma, model) yalnızca yetkili taraflarca erişilebilir olmasını güvence olarak tanımlarız; Bütünlük, ML sisteminin yalnızca yetkili taraflarca değiştirilebileceğinin güvencesi olarak tanımlanır; Kullanılabilirlik, ML sisteminin yetkili taraflar tarafından erişilebildiğinin güvencesi olarak tanımlanır. Gizlilik, Bütünlük ve Kullanılabilirlik birlikte CIA üçlemi olarak adlandırılır. Her bir kasıtlı hata modu için, hangi CIA üçlüsünün tehlikeye girdiğini belirlemeye çalışıyoruz.
Bu saldırıyı gerçekleştirmek için ne kadar bilgi gerekir: siyah kutu veya beyaz kutu? Kara Kutu stili saldırılarında saldırganın eğitim verilerine doğrudan erişimi YOKTUR, kullanılan ML algoritması hakkında bilgi sahibi değildir ve modelin kaynak koduna erişimi yoktur. Saldırgan yalnızca modeli sorgular ve yanıtı gözlemler. Bir beyaz kutu stili saldırısında saldırgan ML algoritması veya model kaynak koduna erişim hakkında bilgi sahibidir.
Saldırganın geleneksel teknolojik erişim/yetkilendirme kuralını ihlal ettiği hakkında yorum.
Kasıtlı Motivasyonlu Hatalar Özeti
|
|
|
|
|
|---|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
İstenmeyen Hatalar Özeti
|
|
|
|
|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Kasıtlı Motive Edilmiş Hatalarla İlgili Ayrıntılar
| Senaryo # | Saldırı Sınıfı | Açıklama | Kompromis Türü | Scenario |
|---|---|---|---|---|
| 1 | Pertürbasyon saldırıları | Pertürbasyon stili saldırılarında saldırgan istenen yanıtı almak için sorguyu gizlice değiştirir | Dürüstlük | Görüntü: X-ray görüntüsüne kirlilik eklenir ve bu da tahminlerin normal taramadan anormale gitmesini sağlar [1][Blackbox] Metin çevirisi: Belirli karakterler yanlış çeviriye neden olacak şekilde değiştirilir. Saldırı belirli bir sözcüğü bastırabilir veya sözcüğü tamamen kaldırabilir[2][Blackbox ve Whitebox] Konuşma: Araştırmacılar, bir konuşma dalga formu verilip başka bir dalga formunun tam olarak kopyalanabileceğini ve ancak tamamen farklı bir metin olarak yazıya dökülebileceğini gösterdiler[3][Beyaz Kutu modeli ancak Kara Kutu modeline genişletilebilir] |
| 2 | Zehirlenme saldırıları | Saldırganın amacı, eğitim aşamasında oluşturulan makine modelini kirletmek ve böylece test aşamasında yeni verilerle ilgili tahminlerin değiştirilmesini sağlamaktır Hedeflenen: Hedeflenen zehirlenme saldırılarında saldırgan belirli örnekleri yanlış sınıflandırmak ister Ayrımcı olmayan: Burada amaç, sistemi kullanılamaz hale getiren DoS benzeri bir etkiye neden olmaktır. |
Dürüstlük | tr-TR: Demografik bilgileri kullanarak antikoagülan ilaç Warfarin dozunu tahmin etmeyi amaçlayan bir tıbbi veri kümesinde, araştırmacılar %8 veri zehirleme oranında kötü amaçlı örnekler eklemiş ve bu, hastaların yarısı için dozu %75,06 oranında değiştirmiştir[4][Blackbox]. Tay sohbet botunda, geri bildirim yoluyla sistemi eğitmek için geçmiş konuşmaların bir bölümü kullanıldığından gelecekteki konuşmalar bozulmuştu[5] [Blackbox] |
| 3 | Model İnversiyonu | Makine öğrenmesi modellerinde kullanılan özel özellikler kurtarılabilir | Gizli -lik; | Araştırmacılar, algoritmayı eğitmek için kullanılan özel eğitim verilerini kurtarabildi.[6] Yazarlar, yalnızca bir isim ve modele erişimle yüzleri yeniden oluşturabildiler ve böylece Mechanical Turk kullanıcıları, bir sıra diziliminden bireyleri yüzde 95 doğrulukla tanımlamak için fotoğrafları kullanabildi. Yazarlar belirli bilgileri de ayıklayabildi. [Beyaz Kutu ve Siyah Kutu][12] |
| 4 | Üyelik Çıkarım Saldırısı | Saldırgan, belirli bir veri kaydının modelin eğitim veri kümesinin parçası olup olmadığını belirleyebilir | Gizli -lik | Araştırmacılar, özniteliklere (yaş, cinsiyet, hastane gibi) göre bir hastanın ana prosedürünü tahmin edebildi (örneğin: Hastanın geçtiği ameliyat)[7][Blackbox] |
| 5 | Model çalma | Saldırganlar, modeli yasal olarak sorgulayarak temel alınan modeli yeniden oluşturur. Yeni modelin işlevselliği, temel alınan modelle aynıdır. | Gizlilik | Araştırmacılar Amazon ve BigML'in temel algoritmasını başarıyla taklit etti. Örneğin BigML örneğinde araştırmacılar, birinin 1.150 sorgu kullanarak ve 10 dakika içinde iyi/kötü kredi riski (Alman Kredi Kartı veri kümesi) olup olmadığını tahmin etmek için kullanılan modeli kurtarabildi[8] |
| 6 | Derin sinir ağlarını yeniden programlama | Bir saldırgandan özel olarak hazırlanmış bir sorgu sayesinde Makine öğrenmesi sistemleri, oluşturucunun özgün amacından sapan bir göreve yeniden programlanabilir | Bütünlük, Kullanılabilirlik | Çeşitli görüntü kategorilerinden birini sınıflandırmak için kullanılan bir sistem olan ImageNet'in kareleri saymak için nasıl yeniden kullanıldığı gösterildi. Yazarlar bu makaleye varsayımsal bir senaryoyla son veriyor: Saldırgan, istenmeyen posta hesapları oluşturmak üzere görüntü captcha'larını çözmek için bulutta barındırılan bir fotoğraf hizmetindeki görüntü işleme sınıflandırıcısına Captcha görüntüleri gönderiyor[9] |
| 7 | Fiziksel etki alanındaki Saldırgan Örnek | Saldırgan bir örnek, yalnızca makine öğrenmesi sistemini yanıltmak amacıyla gönderilen kötü amaçlı bir varlıktan gelen giriş/sorgudur Bu örnekler fiziksel etki alanında gösterilebilir | Dürüstlük | Araştırmacılar 3D, görüntü tanıma sistemini bir kaplumbağa olduğunu düşünerek kandıran özel dokuya sahip bir tüfek yazdırıyor[10] Araştırmacılar artık görüntü tanıma sistemlerini kandırabilen ve yüzleri doğru tanıyamayacak bir tasarımla güneş gözlüğü inşa ediyor[11] |
| 8 | Eğitim verilerini kurtarabilen kötü amaçlı ML sağlayıcıları | Kötü amaçlı ML sağlayıcısı müşteri tarafından kullanılan modeli sorgulayabilir ve müşterinin eğitim verilerini kurtarabilir | Gizli -lik | Araştırmacılar, kötü amaçlı bir sağlayıcının özel eğitim verilerinin kurtarıldığı arka kapılı algoritmayı nasıl gösterdiğini gösterir. Yalnızca modele göre yüzleri ve metinleri yeniden yapılandırabiliyorlardı. [12] |
| 9 | ML Tedarik Zincirine Saldırma[13] | Algoritmaları eğitmek için gereken büyük kaynaklar (veri + hesaplama) nedeniyle, geçerli uygulama büyük şirketler tarafından eğitilen modelleri yeniden kullanmak ve bunları eldeki görev için biraz değiştirmektir (örneğin: ResNet, Microsoft'un popüler bir görüntü tanıma modelidir). Bu modeller bir Model Zoo'da (Caffe popüler görüntü tanıma modellerini sunuyor) derlenmiştir. Bu saldırıda saldırgan Caffe'de barındırılan modellere saldırır ve böylece kuyuyu başkaları için zehirler. | Dürüstlük | Araştırmacılar, bir saldırganın kötü amaçlı kodu popüler modellerden birinde denetlemesinin nasıl mümkün olduğunu gösterir. Beklenmeyen bir ML geliştiricisi bu modeli indirir ve kodunda görüntü tanıma sisteminin bir parçası olarak kullanır [14]. Yazarlar Caffe'de SHA1 karması yazarların özetiyle eşleşmeyen ve üzerinde değişiklik yapıldığını belirten bir modelin nasıl var olduğunu gösterir. Bütünlük denetimleri için SHA1 karması olmayan 22 model vardır. |
| 10 | Arka Kapı Makine Öğrenmesi | "ML Tedarik Zincirine Saldırma" gibi bu saldırı senaryosunda da eğitim süreci, kullanıcıya arka kapı içeren eğitilmiş bir model sağlamak isteyen kötü amaçlı bir tarafa tamamen veya kısmen dış kaynaklıdır. Arka kapılı model çoğu girişte (son kullanıcının doğrulama kümesi olarak tutabileceği girişler dahil) iyi performans gösterir, ancak hedeflenen yanlış sınıflandırmalara neden olur veya arka kapı tetikleyicisi olarak adlandıracağımız saldırgan tarafından seçilen bazı gizli dizileri karşılayan girişler için modelin doğruluğunu düşürür | Gizlilik, Bütünlük | Araştırmacılar, durdurma işaretlerini yalnızca durdurma işaretine (arka kapı tetikleyicisi) özel bir etiket eklendiğinde hız sınırları olarak tanımlayan arka kapılı bir ABD sokak işareti sınıflandırıcısı oluşturdular 20 Artık bu çalışmayı metin işleme sistemlerine genişletiyorlar; burada belirli sözcükler tetikleyicinin yerine konuşmacının vurgusu oluyor[15] |
| 11 | ML sisteminin yazılım bağımlılıklarından yararlanma | Bu saldırıda, saldırgan algoritmaları manipüle ETMEZ. Bunun yerine arabellek taşması gibi geleneksel yazılım güvenlik açıklarından yararlanılır. | Gizlilik, Bütünlük, Kullanılabilirlik, | Saldırgan, bir görüntü tanıma sistemine bozuk giriş gönderir ve bu da bağımlılıklardan birinde bir yazılım hatasından yararlanarak yanlış sınıflandırmasına neden olur. |
İstenmeyen Hatalarla İlgili Ayrıntılar
| Senaryo # | Saldırı Sınıfı | Açıklama | Kompromis Türü | Scenario |
|---|---|---|---|---|
| 12 | Ödül Kırma | Pekiştirme öğrenme sistemleri, belirtilen ödülle istenen gerçek ödül arasındaki tutarsızlıklar nedeniyle istenmeyen şekillerde hareket eder. | Sistemin güvenliği | Yapay zekadaki çok sayıda oyun örneği burada derlendi[1] |
| 13 | Yan Etkiler | RL sistemi hedefi doğrultusunda ilerlerken ortamda kesintiye neden oluyor. | Sistemin güvenliği | Senaryo, [2]:"Tasarımcının bir kutuyu odanın bir tarafından diğerine taşıma gibi bir hedefe ulaşmak için bir RL aracısı (örneğin temizlik robotumuz) istediğini varsayalım. Bazen hedefe ulaşmanın en etkili yolu, yolundaki bir su vazosunu devirmek gibi, çevrenin geri kalanı için ilgisiz ve yıkıcı bir şey yapmaktır. Eğer aracıya sadece kutuyu taşıdığı için ödül verilirse, muhtemelen vazoyu devirecektir." |
| 14 | Dağılımlı vardiyalar | Sistem tek bir ortamda test edilir, ancak diğer ortam türlerindeki değişikliklere uyum sağlayamaz | Sistemin güvenliği | Araştırmacılar Rainbow DQN ve A2C olmak üzere, lavlardan kaçınmak için iki son teknoloji RL ajanını bir simülasyonda eğitti. Eğitim sırasında RL aracısı lavlardan başarılı bir şekilde kaçınarak hedefine ulaşabildi. Test sırasında lavın konumunu hafifçe değiştirdiler, ancak RL ajanı bundan kaçınamadı [3] |
| 15 | Doğal Saldırgan Örnekler | Sistem, sabit negatif madencilik kullanılarak bulunan bir girişi yanlış algılar | Sistemin güvenliği | Burada yazarlar, basit bir sert negatif madencilik işlemiyle[4], örneği aktararak ML sisteminin karıştırılma ihtimalini göstermektedir. |
| 16 | Yaygın Bozulma | Sistem eğme, yakınlaştırma veya gürültülü görüntüler gibi yaygın bozulmaları ve pertürbasyonları işleyemiyor. | Sistemin güvenliği | Yazarlar[5] görüntülere eklenen parlaklık, karşıtlık, sis veya kirlilik gibi yaygın bozulmaların görüntü tanımada ölçümlerde önemli bir düşüşe sahip olduğunu gösteriyor |
| 17 | Gerçekçi koşullarda tamamlanmamış test | ML sistemi, içinde çalışması amaçlandığında gerçekçi koşullarda test edilmemektedir | Sistemin güvenliği | [25] içindeki yazarlar, savunmacılar genellikle ML algoritmasının sağlamlığını hesaba eklerken gerçekçi koşulları gözden kaçırdıklarını vurgulamaktadır. Örneğin, rüzgarda devrilmiş eksik bir dur işaretinin, sistemin girişlerini bozmak üzere bir saldırganın girişiminden daha gerçekçi olduğunu iddia ederler. |
Bildirimler
Faydalı geri bildirim sağladıkları için Andrew Marshall, Magnus Nystrom, John Walton, John Lambert, Sharon Xia, Andi Comissoneru, Emre Kiciman, Jugal Parikh, Sharon Gillet, Microsoft'un Mühendislik ve Araştırma'da Yapay Zeka ve Etik (AETHER) komitesinin Güvenlik çalışma akışındaki üyeleri, Amar Ashar, Samuel Klein, Jonathan Zittrain ve Berkman Klein'deki AI Safety Security Çalışma Grubu üyelerine teşekkür ederiz. Taksonomiyi şekillendiren 23 dış iş ortağı, standart kuruluşu ve kamu kuruluşundan da gözden geçirenlere teşekkür ederiz.
Kaynakça
[1] Li, Guofu, et al. "Security Matters: Bir Anket - Hasmane Makine Öğrenmesi Üzerine." arXiv preprint arXiv:1810.07339 (2018).
[2] Chakraborty, Anirban, et al. "Saldırgan saldırılar ve savunmalar: Bir anket." arXiv preprint arXiv:1810.00069 (2018).
[3] Ortega, Pedro ve Vishal Maini. "Güvenli yapay zeka oluşturma: belirtim, sağlamlık ve güvence." DeepMind Safety Research Blogu (2018).
[4] Amodei, Dario, vb. "Yapay zeka güvenliğindeki somut sorunlar." arXiv preprint arXiv:1606.06565 (2016).
[5] Shankar Siva Kumar, Ram, vb. "Hukuk ve Saldırgan Makine Öğrenmesi." arXiv preprint arXiv:1810.10731 (2018).
[6] Calo, Ryan, ve diğerleri. "Bir Robotu Kandırmak Hacklemek mi Demek?." University of Washington School of Law Research Paper 2018-05 (2018).
[7] Paschali, Magdalini, ve diğerleri. "Generalizability vs. Robustness: Adversarial Examples for Medical Imaging." arXiv preprint arXiv:1804.00504 (2018).
[8] Ebrahimi, Javid, Daniel Lowd ve Dejing Dou. Karakter Düzeyinde Sinirsel Makine Çevirisi için Saldırgan Örnekler Üzerine. arXiv preprint arXiv:1806.09030 (2018)
[9] Carlini, Nicholas ve David Wagner. "Ses saldırgan örnekleri: Konuşmayı metne dönüştürmeye yönelik hedefli saldırılar." arXiv preprint arXiv:1801.01944 (2018).
[10] Jagielski, Matthew ve diğer yazarlar "Makine öğrenmesini manipüle etme: Regresyon öğrenmesi için zehirleme saldırıları ve karşı önlemler." arXiv preprint arXiv:1804.00308 (2018)
[11] [https://blogs.microsoft.com/blog/2016/03/25/learning-tays-introduction/]
[12] Fredrikson M, Jha S, Ristenpart T. 2015. Güvenilirlik bilgilerinden ve temel karşı önlemlerden yararlanan model ters çevirme saldırıları
[13] Shokri R, Stronati M, Song C, Shmatikov V. 2017. Makine öğrenmesi modellerine yönelik üyelik çıkarımı saldırıları. In Proc. of the 2017 IEEE Symp. on Security and Privacy (SP), San Jose, CA, 22–24 Mayıs 2017, s. 3–18. New York, NY: IEEE.
[14] Tramèr, Florian, et al. "Tahmin API'leri aracılığıyla Makine Öğrenmesi Modellerini Çalma." USENIX Güvenlik Sempozyumu. 2016.
[15] Elsayed, Gamaleldin F., Ian Goodfellow ve Jascha Sohl-Dickstein. "Sinir Ağlarının Saldırgan Yeniden Programlanması." arXiv preprint arXiv:1806.11146 (2018).
[16] Athalye, Anish ve Ilya Sutskever. "Sağlam karşıt örnekler sentezleme." arXiv preprint arXiv:1707.07397(2017)
[17] Sharif, Mahmood, et al. "Saldırgan Üretken Ağlar: Son Model Yüz Tanımaya Sinir Ağı Saldırıları." arXiv preprint arXiv:1801.00349 (2017).
[19] Xiao, Qixue, vb. "Derin Öğrenme Uygulamalarında Güvenlik Riskleri." arXiv preprint arXiv:1711.11008 (2017).
[20] Gu, Tianyu, Brendan Dolan-Gavitt ve Siddharth Garg. "Badnets: Makine öğrenmesi modeli tedarik zincirindeki güvenlik açıklarını belirleme." arXiv preprint arXiv:1708.06733 (2017)
[21] [https://www.wired.com/story/machine-learning-backdoors/]
[22] [https://docs.google.com/spreadsheets/d/e/2PACX-1vRPiprOaC3HsCf5Tuum8bRfzYUiKLRqJmbOoC-32JorNdfyTiRRsR7Ea5eWtvsWzuxo8bjOxCG84dAg/pubhtml]
[23] Amodei, Dario, vb. "Yapay zeka güvenliğindeki somut sorunlar." arXiv preprint arXiv:1606.06565 (2016).
[24] Leike, Jan, et al. "AI güvenlik gridworld'leri." arXiv preprint arXiv:1711.09883 (2017).
[25] Gilmer, Justin ve diğerleri. "Saldırgan örnek araştırmalarında kuralları belirlemenin motivasyonu." arXiv preprint arXiv:1807.06732 (2018).
[26] Hendrycks, Dan ve Thomas Dietterich. "Sinir ağı sağlamlığını yaygın bozulmalar ve pertürbatasyonlarla karşılaştırma." arXiv preprint arXiv:1903.12261 (2019).