Aracılığıyla paylaş


Machine Learning'de Hata Modları

Microsoft Corporation Berkman Klein Harvard Üniversitesi İnternet ve Toplum Merkezi

Ram Shankar Siva Kumar

David O'Brien

Jeffrey Snover

Kendra Albert

Salome Viljoen

Kasım 2019

Giriş ve Arka Plan

Son iki yılda, algoritmalara ve verilere yönelik karşıt saldırılar nedeniyle Makine Öğrenimi'nin (ML) nasıl başarısız olabileceğine dair 200'den fazla makale yazılmıştır; saldırgan olmayan hata türlerini dahil ettiğimizde bu sayı daha da artar. Çok sayıda makale, yalnızca mühendisleri, avukatları ve politika yapıcıları değil, aynı zamanda ML uygulayıcılarının da ML sistemlerindeki saldırılara ve savunmalara ayak uydurmasını zorlaştırdı. Ancak, bu sistemler daha yaygın hale geldikçe, bir saldırganın eliyle veya bir sistemin doğası gereği tasarımından dolayı nasıl başarısız olduklarını anlama ihtiyacı daha baskılı hale gelecektir. Bu belgenin amacı, bu hata modlarının her ikisini de tek bir yerde birlikte tabloya eklemektir.

  • Kasıtlı hatalar, aktif bir saldırganın, bir sistemi hedeflerine ulaşmak için alt etmeye çalışması durumunda ortaya çıkar: Sonucu yanlış sınıflandırmak, özel eğitim verilerini çıkarmak veya temel algoritmayı çalmak gibi.

  • Bir ML sistemi tarafından resmi olarak doğru ancak tamamen güvenli olmayan bir sonucun üretilmesi, kasıtsız hatalara neden olur.

Kasıtlı hata modlarını[1],[2] ve kasıtsız hata modlarını ayrı ayrı vurgulayan başka taksonomiler ve çerçeveler olduğunu belirtmek isteriz[3],[4]. Sınıflandırmamız iki ayrı hata modunu tek bir yerde bir araya getirir ve aşağıdaki gereksinimleri karşılar:

  1. Yazılım geliştiricilerini, güvenlik olayı yanıtlayıcılarını, avukatları ve politika oluşturucuları bu sorun hakkında konuşmak için ortak bir dille donatma ihtiyacı. Taksonominin ilk sürümünü geçen yıl geliştirdikten sonra, proje katılımcılarının çerçevemizi nasıl kullanacağını anlamak için Microsoft, 23 dış iş ortağı, standartlar kuruluşu ve kamu kuruluşları genelinde güvenlik ve ML ekipleriyle birlikte çalıştık. Bu kullanılabilirlik çalışmasına ve paydaş geri bildirimlerine dayanarak çerçeveyi yineledik.

    Sonuç -ları: ML hata modu sunulduğunda, yazılım geliştiricilerinin ve avukatların ml hata modlarını zihinsel olarak veri sızdırma gibi geleneksel yazılım saldırılarına eşlediğini sık sık gözlemledik. Bu nedenle, makale boyunca makine öğrenmesi hata modlarının teknoloji ve ilke perspektifinden geleneksel yazılım hatalarından anlamlı olarak nasıl farklı olduğunu vurgulama girişiminde bulunuyoruz.

  2. Mühendislerin mevcut yazılım geliştirme ve güvenlik uygulamalarına entegre etmeleri ve üzerinde inşa etmeleri için ortak bir platform ihtiyacı. Genel olarak taksonominin bir eğitim aracından daha fazlası olmasını istedik; somut mühendislik sonuçlarını etkilemesini istiyoruz.

    Sonuç -ları: Microsoft, bu taksonomiyi mercek olarak kullanarak tüm kuruluş için Güvenlik Geliştirme Yaşam Döngüsü sürecini değiştirdi. Özellikle, Microsoft'taki veri bilimciler ve güvenlik mühendisleri artık bu taksonominin ortak dilini paylaşarak ML sistemlerini üretime dağıtmadan önce daha etkili bir şekilde tehdit modellemesine olanak tanır. Ayrıca, Güvenlik Olayı Yanıtlayıcıları, Microsoft Güvenlik Yanıt Merkezi ve tüm Microsoft ürün ekipleri tarafından kullanılan güvenlik açıklarına yönelik standart önceliklendirme ve yanıt süreci kapsamında, ML'ye özgü bu yeni tehditleri değerlendirmek için bir hata önceliklendirme aracına sahiptir.

  3. Politika yapıcılar ve avukatlar arasındaki bu saldırıları tanımlamak için ortak bir sözlük ihtiyacı. Bunun farklı ML hata modlarını açıklamanın ve zararlarının nasıl düzenlenebileceğini analiz etmenin bilinçli ilkeye yönelik anlamlı bir ilk adım olduğuna inanıyoruz.

    Sonuç -ları: Bu taksonomi, disiplinler arası geniş bir kitle için yazılmıştır. Bu nedenle, genel ML/AI perspektifinden sorunlara bakan ilke oluşturucuların yanı sıra yanlış bilgi/sağlık gibi belirli etki alanları hata modu kataloğunu yararlı bulmalıdır. Hata modlarını ele almak için geçerli yasal müdahaleleri de vurgularız.

Ayrıca bkz. Microsoft'un Tehdit Modelleme AI/ML Sistemleri ve Bağımlılıkları veMakine Öğrenmesi Güvenlik Açıkları için SDL Hata Çubuğu Özetleri.

Bu belgeyi kullanma

Başlangıçta, bunun tehdit ortamıyla birlikte zaman içinde gelişecek canlı bir belge olduğunu kabul ediyoruz. Savunmalar senaryoya özgü olduğundan ve tehdit modeli ve sistem mimarisi dikkate alındığından, bu hata modlarına teknolojik risk azaltmaları da belirlemeyiz. Tehdit azaltma için sunulan seçenekler, bu savunmaların da zaman içinde gelişeceği beklentisiyle mevcut araştırmalara dayanır.

Mühendisler için olası hata modlarına genel bakışa göz atmanızı ve tehdit modelleme belgesine atlamanızı öneririz. Bu şekilde mühendisler tehditleri, saldırıları, güvenlik açıklarını belirleyebilir ve mümkünse karşı önlemleri planlamak için çerçeveyi kullanabilir. Ardından sizi taksonomideki bu yeni güvenlik açıklarını geleneksel yazılım güvenlik açıklarıyla eşleyen ve her ML güvenlik açığı için bir derecelendirme (kritik, önemli gibi) sağlayan hata çubuğuna yönlendiriyoruz. Bu hata çubuğu, mevcut olay yanıt süreçlerine/playbook'larına kolayca tümleştirilir.

Avukatlar ve ilke oluşturucular için bu belge ML hata modlarını düzenler ve burada yapılan çalışmalar gibi ilke seçeneklerini keşfeden herkesle ilgili önemli sorunları analiz etmek için bir çerçeve sunar[5],[6]. Özellikle, hataları ve sonuçları, ilke oluşturucuların nedenler arasında ayrımlar çizmeye başlayıp ML güvenliğini ve güvenliğini teşvik etmeye yönelik genel ilke girişimlerini bilgilendirecek şekilde kategorilere ayırdık. Politika yapıcıların bu kategorileri kullanarak mevcut yasal rejimlerin yeni çıkan sorunları nasıl yeterli şekilde yakalayabileceğini (yakalamadığını), hangi tarihsel yasal rejimlerin veya politika çözümlerinin benzer zararlarla başa çıkabileceğini ve sivil özgürlükler konusunda özellikle hassas olmamız gerektiğini ortaya çıkaracağını umuyoruz.

Belge Yapısı

Hem Kasıtlı Hata Modları hem de İstenmeyen Hata Modları bölümlerinde saldırının kısa bir tanımını ve literatürden bir örnek sunuyoruz.

Kasıtlı Hata Modları bölümünde ek alanları sağlarız:

  1. Saldırı ML sisteminde neleri tehlikeye atmaya çalışır: Gizlilik, Bütünlük veya Kullanılabilirlik? Gizlilik'i, ML sisteminin bileşenlerinin (veri, algoritma, model) yalnızca yetkili taraflarca erişilebilir olmasını güvence olarak tanımlarız; Bütünlük, ML sisteminin yalnızca yetkili taraflarca değiştirilebileceğinin güvencesi olarak tanımlanır; Kullanılabilirlik, ML sisteminin yetkili taraflar tarafından erişilebildiğinin güvencesi olarak tanımlanır. Gizlilik, Bütünlük ve Kullanılabilirlik birlikte CIA üçlemi olarak adlandırılır. Her bir kasıtlı hata modu için, hangi CIA üçlüsünün tehlikeye girdiğini belirlemeye çalışıyoruz.

  2. Bu saldırıyı gerçekleştirmek için ne kadar bilgi gerekir: siyah kutu veya beyaz kutu? Kara Kutu stili saldırılarında saldırganın eğitim verilerine doğrudan erişimi YOKTUR, kullanılan ML algoritması hakkında bilgi sahibi değildir ve modelin kaynak koduna erişimi yoktur. Saldırgan yalnızca modeli sorgular ve yanıtı gözlemler. Bir beyaz kutu stili saldırısında saldırgan ML algoritması veya model kaynak koduna erişim hakkında bilgi sahibidir.

  3. Saldırganın geleneksel teknolojik erişim/yetkilendirme kuralını ihlal ettiği hakkında yorum.

Kasıtlı Motivasyonlu Hatalar Özeti

Senaryo Numarası
Saldırı
Genel bakış
Geleneksel teknolojik erişim/yetkilendirmeyi ihlal mi ediyor?
1
Pertürbasyon saldırısı
Saldırgan uygun yanıtı almak için sorguyu değiştirir
Hayır
2
Zehirlenme saldırısı
Saldırgan, hedeflenen sonucu elde etmek için ML sistemlerinin eğitim aşamasını kirletir
Hayır
3
Model Ters Çevirme
Saldırgan, modelde kullanılan gizli özellikleri dikkatli sorgularla ortaya çıkarır
Hayır
4
Üyelik Çıkarımı
Saldırgan, belirli bir veri kaydının modelin eğitim veri kümesinin parçası olup olmadığını çıkarsayabilir
Hayır
5
Model Çalma
Saldırgan, dikkatle hazırlanmış sorgular aracılığıyla modeli kurtarabilir
Hayır
6
ML sistemini yeniden programlama
ML sistemini programlanmadığı bir etkinliği gerçekleştirmek için yeniden kullanma
Hayır
7
Fiziksel Alanda Karşıt Örnek
Saldırgan, saldırgan örnekleri fiziksel etki alanına getirerek bir Makine Öğrenimi (ML) sistemini alt eder, örneğin: yüz tanıma sistemini aldatmak için özel 3D gözlük üretmek.
Hayır
8
Kötü amaçlı ML sağlayıcısı eğitim verilerini kurtarıyor
Kötü amaçlı ML sağlayıcısı müşteri tarafından kullanılan modeli sorgulayabilir ve müşterinin eğitim verilerini kurtarabilir
Evet
9
ML tedarik zincirine saldırma
Saldırgan, kullanım için indirilirken ML modellerinin güvenliğini tehlikeye atıyor
Evet
10
Backdoor ML
Kötü amaçlı ML sağlayıcısı, belirli bir tetikleyiciyle etkinleşecek şekilde bir algoritmaya arka kapı yerleştirir
Evet
11
Yazılım Bağımlılıklarından Yararlan
Saldırgan, ML sistemlerini karıştırmak/denetlemek için arabellek taşması gibi geleneksel yazılım açıklarını kullanır
Evet

İstenmeyen Hatalar Özeti

Senaryo #
Başarısızlık
Genel bakış
12
Ödül Kazanma Kurnazlıkları
Pekiştirmeli Öğrenme (RL) sistemleri, belirtilen ödülle gerçek ödül arasındaki uyumsuzluk nedeniyle istenmeyen şekillerde hareket eder
13
Yan Etkiler
RL sistemi hedefine ulaşmaya çalışırken ortamı kesintiye uğratıyor
14
Dağılımlı vardiyalar
Sistem tek bir ortamda test edilir, ancak diğer ortam türlerindeki değişikliklere uyum sağlayamaz
15
Doğal Saldırgan Örnekler
Saldırgan pertürbasyonları olmadan ML sistemi, zorlu negatif madencilik nedeniyle başarısız oluyor
16
Ortak Bozulma
Sistem eğme, yakınlaştırma veya gürültülü görüntüler gibi yaygın bozulmaları ve pertürbasyonları işleyemiyor.
17
Tamamlanmamış Test
ML sistemi, çalışması amaçlandığında gerçekçi koşullarda test edilmemektedir.

Kasıtlı Motive Edilmiş Hatalarla İlgili Ayrıntılar

Senaryo # Saldırı Sınıfı Açıklama Kompromis Türü Scenario
1 Pertürbasyon saldırıları Pertürbasyon stili saldırılarında saldırgan istenen yanıtı almak için sorguyu gizlice değiştirir Dürüstlük Görüntü: X-ray görüntüsüne kirlilik eklenir ve bu da tahminlerin normal taramadan anormale gitmesini sağlar [1][Blackbox]

Metin çevirisi: Belirli karakterler yanlış çeviriye neden olacak şekilde değiştirilir. Saldırı belirli bir sözcüğü bastırabilir veya sözcüğü tamamen kaldırabilir[2][Blackbox ve Whitebox]

Konuşma: Araştırmacılar, bir konuşma dalga formu verilip başka bir dalga formunun tam olarak kopyalanabileceğini ve ancak tamamen farklı bir metin olarak yazıya dökülebileceğini gösterdiler[3][Beyaz Kutu modeli ancak Kara Kutu modeline genişletilebilir]

2 Zehirlenme saldırıları Saldırganın amacı, eğitim aşamasında oluşturulan makine modelini kirletmek ve böylece test aşamasında yeni verilerle ilgili tahminlerin değiştirilmesini sağlamaktır

Hedeflenen: Hedeflenen zehirlenme saldırılarında saldırgan belirli örnekleri yanlış sınıflandırmak ister

Ayrımcı olmayan: Burada amaç, sistemi kullanılamaz hale getiren DoS benzeri bir etkiye neden olmaktır.

Dürüstlük tr-TR: Demografik bilgileri kullanarak antikoagülan ilaç Warfarin dozunu tahmin etmeyi amaçlayan bir tıbbi veri kümesinde, araştırmacılar %8 veri zehirleme oranında kötü amaçlı örnekler eklemiş ve bu, hastaların yarısı için dozu %75,06 oranında değiştirmiştir[4][Blackbox].

Tay sohbet botunda, geri bildirim yoluyla sistemi eğitmek için geçmiş konuşmaların bir bölümü kullanıldığından gelecekteki konuşmalar bozulmuştu[5] [Blackbox]

3 Model İnversiyonu Makine öğrenmesi modellerinde kullanılan özel özellikler kurtarılabilir Gizli -lik; Araştırmacılar, algoritmayı eğitmek için kullanılan özel eğitim verilerini kurtarabildi.[6] Yazarlar, yalnızca bir isim ve modele erişimle yüzleri yeniden oluşturabildiler ve böylece Mechanical Turk kullanıcıları, bir sıra diziliminden bireyleri yüzde 95 doğrulukla tanımlamak için fotoğrafları kullanabildi. Yazarlar belirli bilgileri de ayıklayabildi. [Beyaz Kutu ve Siyah Kutu][12]
4 Üyelik Çıkarım Saldırısı Saldırgan, belirli bir veri kaydının modelin eğitim veri kümesinin parçası olup olmadığını belirleyebilir Gizli -lik Araştırmacılar, özniteliklere (yaş, cinsiyet, hastane gibi) göre bir hastanın ana prosedürünü tahmin edebildi (örneğin: Hastanın geçtiği ameliyat)[7][Blackbox]
5 Model çalma Saldırganlar, modeli yasal olarak sorgulayarak temel alınan modeli yeniden oluşturur. Yeni modelin işlevselliği, temel alınan modelle aynıdır. Gizlilik Araştırmacılar Amazon ve BigML'in temel algoritmasını başarıyla taklit etti. Örneğin BigML örneğinde araştırmacılar, birinin 1.150 sorgu kullanarak ve 10 dakika içinde iyi/kötü kredi riski (Alman Kredi Kartı veri kümesi) olup olmadığını tahmin etmek için kullanılan modeli kurtarabildi[8]
6 Derin sinir ağlarını yeniden programlama Bir saldırgandan özel olarak hazırlanmış bir sorgu sayesinde Makine öğrenmesi sistemleri, oluşturucunun özgün amacından sapan bir göreve yeniden programlanabilir Bütünlük, Kullanılabilirlik Çeşitli görüntü kategorilerinden birini sınıflandırmak için kullanılan bir sistem olan ImageNet'in kareleri saymak için nasıl yeniden kullanıldığı gösterildi. Yazarlar bu makaleye varsayımsal bir senaryoyla son veriyor: Saldırgan, istenmeyen posta hesapları oluşturmak üzere görüntü captcha'larını çözmek için bulutta barındırılan bir fotoğraf hizmetindeki görüntü işleme sınıflandırıcısına Captcha görüntüleri gönderiyor[9]
7 Fiziksel etki alanındaki Saldırgan Örnek Saldırgan bir örnek, yalnızca makine öğrenmesi sistemini yanıltmak amacıyla gönderilen kötü amaçlı bir varlıktan gelen giriş/sorgudur Bu örnekler fiziksel etki alanında gösterilebilir Dürüstlük Araştırmacılar 3D, görüntü tanıma sistemini bir kaplumbağa olduğunu düşünerek kandıran özel dokuya sahip bir tüfek yazdırıyor[10]

Araştırmacılar artık görüntü tanıma sistemlerini kandırabilen ve yüzleri doğru tanıyamayacak bir tasarımla güneş gözlüğü inşa ediyor[11]

8 Eğitim verilerini kurtarabilen kötü amaçlı ML sağlayıcıları Kötü amaçlı ML sağlayıcısı müşteri tarafından kullanılan modeli sorgulayabilir ve müşterinin eğitim verilerini kurtarabilir Gizli -lik Araştırmacılar, kötü amaçlı bir sağlayıcının özel eğitim verilerinin kurtarıldığı arka kapılı algoritmayı nasıl gösterdiğini gösterir. Yalnızca modele göre yüzleri ve metinleri yeniden yapılandırabiliyorlardı. [12]
9 ML Tedarik Zincirine Saldırma[13] Algoritmaları eğitmek için gereken büyük kaynaklar (veri + hesaplama) nedeniyle, geçerli uygulama büyük şirketler tarafından eğitilen modelleri yeniden kullanmak ve bunları eldeki görev için biraz değiştirmektir (örneğin: ResNet, Microsoft'un popüler bir görüntü tanıma modelidir). Bu modeller bir Model Zoo'da (Caffe popüler görüntü tanıma modellerini sunuyor) derlenmiştir. Bu saldırıda saldırgan Caffe'de barındırılan modellere saldırır ve böylece kuyuyu başkaları için zehirler. Dürüstlük Araştırmacılar, bir saldırganın kötü amaçlı kodu popüler modellerden birinde denetlemesinin nasıl mümkün olduğunu gösterir. Beklenmeyen bir ML geliştiricisi bu modeli indirir ve kodunda görüntü tanıma sisteminin bir parçası olarak kullanır [14]. Yazarlar Caffe'de SHA1 karması yazarların özetiyle eşleşmeyen ve üzerinde değişiklik yapıldığını belirten bir modelin nasıl var olduğunu gösterir. Bütünlük denetimleri için SHA1 karması olmayan 22 model vardır.
10 Arka Kapı Makine Öğrenmesi "ML Tedarik Zincirine Saldırma" gibi bu saldırı senaryosunda da eğitim süreci, kullanıcıya arka kapı içeren eğitilmiş bir model sağlamak isteyen kötü amaçlı bir tarafa tamamen veya kısmen dış kaynaklıdır. Arka kapılı model çoğu girişte (son kullanıcının doğrulama kümesi olarak tutabileceği girişler dahil) iyi performans gösterir, ancak hedeflenen yanlış sınıflandırmalara neden olur veya arka kapı tetikleyicisi olarak adlandıracağımız saldırgan tarafından seçilen bazı gizli dizileri karşılayan girişler için modelin doğruluğunu düşürür Gizlilik, Bütünlük Araştırmacılar, durdurma işaretlerini yalnızca durdurma işaretine (arka kapı tetikleyicisi) özel bir etiket eklendiğinde hız sınırları olarak tanımlayan arka kapılı bir ABD sokak işareti sınıflandırıcısı oluşturdular 20 Artık bu çalışmayı metin işleme sistemlerine genişletiyorlar; burada belirli sözcükler tetikleyicinin yerine konuşmacının vurgusu oluyor[15]
11 ML sisteminin yazılım bağımlılıklarından yararlanma Bu saldırıda, saldırgan algoritmaları manipüle ETMEZ. Bunun yerine arabellek taşması gibi geleneksel yazılım güvenlik açıklarından yararlanılır. Gizlilik, Bütünlük, Kullanılabilirlik, Saldırgan, bir görüntü tanıma sistemine bozuk giriş gönderir ve bu da bağımlılıklardan birinde bir yazılım hatasından yararlanarak yanlış sınıflandırmasına neden olur.

İstenmeyen Hatalarla İlgili Ayrıntılar

Senaryo # Saldırı Sınıfı Açıklama Kompromis Türü Scenario
12 Ödül Kırma Pekiştirme öğrenme sistemleri, belirtilen ödülle istenen gerçek ödül arasındaki tutarsızlıklar nedeniyle istenmeyen şekillerde hareket eder. Sistemin güvenliği Yapay zekadaki çok sayıda oyun örneği burada derlendi[1]
13 Yan Etkiler RL sistemi hedefi doğrultusunda ilerlerken ortamda kesintiye neden oluyor. Sistemin güvenliği Senaryo, [2]:"Tasarımcının bir kutuyu odanın bir tarafından diğerine taşıma gibi bir hedefe ulaşmak için bir RL aracısı (örneğin temizlik robotumuz) istediğini varsayalım. Bazen hedefe ulaşmanın en etkili yolu, yolundaki bir su vazosunu devirmek gibi, çevrenin geri kalanı için ilgisiz ve yıkıcı bir şey yapmaktır. Eğer aracıya sadece kutuyu taşıdığı için ödül verilirse, muhtemelen vazoyu devirecektir."
14 Dağılımlı vardiyalar Sistem tek bir ortamda test edilir, ancak diğer ortam türlerindeki değişikliklere uyum sağlayamaz Sistemin güvenliği Araştırmacılar Rainbow DQN ve A2C olmak üzere, lavlardan kaçınmak için iki son teknoloji RL ajanını bir simülasyonda eğitti. Eğitim sırasında RL aracısı lavlardan başarılı bir şekilde kaçınarak hedefine ulaşabildi. Test sırasında lavın konumunu hafifçe değiştirdiler, ancak RL ajanı bundan kaçınamadı [3]
15 Doğal Saldırgan Örnekler Sistem, sabit negatif madencilik kullanılarak bulunan bir girişi yanlış algılar Sistemin güvenliği Burada yazarlar, basit bir sert negatif madencilik işlemiyle[4], örneği aktararak ML sisteminin karıştırılma ihtimalini göstermektedir.
16 Yaygın Bozulma Sistem eğme, yakınlaştırma veya gürültülü görüntüler gibi yaygın bozulmaları ve pertürbasyonları işleyemiyor. Sistemin güvenliği Yazarlar[5] görüntülere eklenen parlaklık, karşıtlık, sis veya kirlilik gibi yaygın bozulmaların görüntü tanımada ölçümlerde önemli bir düşüşe sahip olduğunu gösteriyor
17 Gerçekçi koşullarda tamamlanmamış test ML sistemi, içinde çalışması amaçlandığında gerçekçi koşullarda test edilmemektedir Sistemin güvenliği [25] içindeki yazarlar, savunmacılar genellikle ML algoritmasının sağlamlığını hesaba eklerken gerçekçi koşulları gözden kaçırdıklarını vurgulamaktadır. Örneğin, rüzgarda devrilmiş eksik bir dur işaretinin, sistemin girişlerini bozmak üzere bir saldırganın girişiminden daha gerçekçi olduğunu iddia ederler.

Bildirimler

Faydalı geri bildirim sağladıkları için Andrew Marshall, Magnus Nystrom, John Walton, John Lambert, Sharon Xia, Andi Comissoneru, Emre Kiciman, Jugal Parikh, Sharon Gillet, Microsoft'un Mühendislik ve Araştırma'da Yapay Zeka ve Etik (AETHER) komitesinin Güvenlik çalışma akışındaki üyeleri, Amar Ashar, Samuel Klein, Jonathan Zittrain ve Berkman Klein'deki AI Safety Security Çalışma Grubu üyelerine teşekkür ederiz. Taksonomiyi şekillendiren 23 dış iş ortağı, standart kuruluşu ve kamu kuruluşundan da gözden geçirenlere teşekkür ederiz.

Kaynakça

[1] Li, Guofu, et al. "Security Matters: Bir Anket - Hasmane Makine Öğrenmesi Üzerine." arXiv preprint arXiv:1810.07339 (2018).

[2] Chakraborty, Anirban, et al. "Saldırgan saldırılar ve savunmalar: Bir anket." arXiv preprint arXiv:1810.00069 (2018).

[3] Ortega, Pedro ve Vishal Maini. "Güvenli yapay zeka oluşturma: belirtim, sağlamlık ve güvence." DeepMind Safety Research Blogu (2018).

[4] Amodei, Dario, vb. "Yapay zeka güvenliğindeki somut sorunlar." arXiv preprint arXiv:1606.06565 (2016).

[5] Shankar Siva Kumar, Ram, vb. "Hukuk ve Saldırgan Makine Öğrenmesi." arXiv preprint arXiv:1810.10731 (2018).

[6] Calo, Ryan, ve diğerleri. "Bir Robotu Kandırmak Hacklemek mi Demek?." University of Washington School of Law Research Paper 2018-05 (2018).

[7] Paschali, Magdalini, ve diğerleri. "Generalizability vs. Robustness: Adversarial Examples for Medical Imaging." arXiv preprint arXiv:1804.00504 (2018).

[8] Ebrahimi, Javid, Daniel Lowd ve Dejing Dou. Karakter Düzeyinde Sinirsel Makine Çevirisi için Saldırgan Örnekler Üzerine. arXiv preprint arXiv:1806.09030 (2018)

[9] Carlini, Nicholas ve David Wagner. "Ses saldırgan örnekleri: Konuşmayı metne dönüştürmeye yönelik hedefli saldırılar." arXiv preprint arXiv:1801.01944 (2018).

[10] Jagielski, Matthew ve diğer yazarlar "Makine öğrenmesini manipüle etme: Regresyon öğrenmesi için zehirleme saldırıları ve karşı önlemler." arXiv preprint arXiv:1804.00308 (2018)

[11] [https://blogs.microsoft.com/blog/2016/03/25/learning-tays-introduction/]

[12] Fredrikson M, Jha S, Ristenpart T. 2015. Güvenilirlik bilgilerinden ve temel karşı önlemlerden yararlanan model ters çevirme saldırıları

[13] Shokri R, Stronati M, Song C, Shmatikov V. 2017. Makine öğrenmesi modellerine yönelik üyelik çıkarımı saldırıları. In Proc. of the 2017 IEEE Symp. on Security and Privacy (SP), San Jose, CA, 22–24 Mayıs 2017, s. 3–18. New York, NY: IEEE.

[14] Tramèr, Florian, et al. "Tahmin API'leri aracılığıyla Makine Öğrenmesi Modellerini Çalma." USENIX Güvenlik Sempozyumu. 2016.

[15] Elsayed, Gamaleldin F., Ian Goodfellow ve Jascha Sohl-Dickstein. "Sinir Ağlarının Saldırgan Yeniden Programlanması." arXiv preprint arXiv:1806.11146 (2018).

[16] Athalye, Anish ve Ilya Sutskever. "Sağlam karşıt örnekler sentezleme." arXiv preprint arXiv:1707.07397(2017)

[17] Sharif, Mahmood, et al. "Saldırgan Üretken Ağlar: Son Model Yüz Tanımaya Sinir Ağı Saldırıları." arXiv preprint arXiv:1801.00349 (2017).

[19] Xiao, Qixue, vb. "Derin Öğrenme Uygulamalarında Güvenlik Riskleri." arXiv preprint arXiv:1711.11008 (2017).

[20] Gu, Tianyu, Brendan Dolan-Gavitt ve Siddharth Garg. "Badnets: Makine öğrenmesi modeli tedarik zincirindeki güvenlik açıklarını belirleme." arXiv preprint arXiv:1708.06733 (2017)

[21] [https://www.wired.com/story/machine-learning-backdoors/]

[22] [https://docs.google.com/spreadsheets/d/e/2PACX-1vRPiprOaC3HsCf5Tuum8bRfzYUiKLRqJmbOoC-32JorNdfyTiRRsR7Ea5eWtvsWzuxo8bjOxCG84dAg/pubhtml]

[23] Amodei, Dario, vb. "Yapay zeka güvenliğindeki somut sorunlar." arXiv preprint arXiv:1606.06565 (2016).

[24] Leike, Jan, et al. "AI güvenlik gridworld'leri." arXiv preprint arXiv:1711.09883 (2017).

[25] Gilmer, Justin ve diğerleri. "Saldırgan örnek araştırmalarında kuralları belirlemenin motivasyonu." arXiv preprint arXiv:1807.06732 (2018).

[26] Hendrycks, Dan ve Thomas Dietterich. "Sinir ağı sağlamlığını yaygın bozulmalar ve pertürbatasyonlarla karşılaştırma." arXiv preprint arXiv:1903.12261 (2019).