Machine Learning'de Hata Modları

Microsoft Corporation	Berkman Klein Harvard Üniversitesi İnternet ve Toplum Merkezi
Ram Shankar Siva Kumar	David O'Brien
Jeffrey Snover	Kendra Albert
	Salome Viljoen

Kasım 2019

Giriş ve Arka Plan

Son iki yılda, algoritmalara ve verilere yönelik karşıt saldırılar nedeniyle Makine Öğrenimi'nin (ML) nasıl başarısız olabileceğine dair 200'den fazla makale yazılmıştır; saldırgan olmayan hata türlerini dahil ettiğimizde bu sayı daha da artar. Çok sayıda makale, yalnızca mühendisleri, avukatları ve politika yapıcıları değil, aynı zamanda ML uygulayıcılarının da ML sistemlerindeki saldırılara ve savunmalara ayak uydurmasını zorlaştırdı. Ancak, bu sistemler daha yaygın hale geldikçe, bir saldırganın eliyle veya bir sistemin doğası gereği tasarımından dolayı nasıl başarısız olduklarını anlama ihtiyacı daha baskılı hale gelecektir. Bu belgenin amacı, bu hata modlarının her ikisini de tek bir yerde birlikte tabloya eklemektir.

Kasıtlı hatalar, aktif bir saldırganın, bir sistemi hedeflerine ulaşmak için alt etmeye çalışması durumunda ortaya çıkar: Sonucu yanlış sınıflandırmak, özel eğitim verilerini çıkarmak veya temel algoritmayı çalmak gibi.
Bir ML sistemi tarafından resmi olarak doğru ancak tamamen güvenli olmayan bir sonucun üretilmesi, kasıtsız hatalara neden olur.

Kasıtlı hata modlarını[1]^,[2] ve kasıtsız hata modlarını ayrı ayrı vurgulayan başka taksonomiler ve çerçeveler olduğunu belirtmek isteriz[3]^,[4]. Sınıflandırmamız iki ayrı hata modunu tek bir yerde bir araya getirir ve aşağıdaki gereksinimleri karşılar:

Yazılım geliştiricilerini, güvenlik olayı yanıtlayıcılarını, avukatları ve politika oluşturucuları bu sorun hakkında konuşmak için ortak bir dille donatma ihtiyacı. Taksonominin ilk sürümünü geçen yıl geliştirdikten sonra, proje katılımcılarının çerçevemizi nasıl kullanacağını anlamak için Microsoft, 23 dış iş ortağı, standartlar kuruluşu ve kamu kuruluşları genelinde güvenlik ve ML ekipleriyle birlikte çalıştık. Bu kullanılabilirlik çalışmasına ve paydaş geri bildirimlerine dayanarak çerçeveyi yineledik.

Sonuç -ları: ML hata modu sunulduğunda, yazılım geliştiricilerinin ve avukatların ml hata modlarını zihinsel olarak veri sızdırma gibi geleneksel yazılım saldırılarına eşlediğini sık sık gözlemledik. Bu nedenle, makale boyunca makine öğrenmesi hata modlarının teknoloji ve ilke perspektifinden geleneksel yazılım hatalarından anlamlı olarak nasıl farklı olduğunu vurgulama girişiminde bulunuyoruz.
Mühendislerin mevcut yazılım geliştirme ve güvenlik uygulamalarına entegre etmeleri ve üzerinde inşa etmeleri için ortak bir platform ihtiyacı. Genel olarak taksonominin bir eğitim aracından daha fazlası olmasını istedik; somut mühendislik sonuçlarını etkilemesini istiyoruz.

Sonuç -ları: Microsoft, bu taksonomiyi mercek olarak kullanarak tüm kuruluş için Güvenlik Geliştirme Yaşam Döngüsü sürecini değiştirdi. Özellikle, Microsoft'taki veri bilimciler ve güvenlik mühendisleri artık bu taksonominin ortak dilini paylaşarak ML sistemlerini üretime dağıtmadan önce daha etkili bir şekilde tehdit modellemesine olanak tanır. Ayrıca, Güvenlik Olayı Yanıtlayıcıları, Microsoft Güvenlik Yanıt Merkezi ve tüm Microsoft ürün ekipleri tarafından kullanılan güvenlik açıklarına yönelik standart önceliklendirme ve yanıt süreci kapsamında, ML'ye özgü bu yeni tehditleri değerlendirmek için bir hata önceliklendirme aracına sahiptir.
Politika yapıcılar ve avukatlar arasındaki bu saldırıları tanımlamak için ortak bir sözlük ihtiyacı. Bunun farklı ML hata modlarını açıklamanın ve zararlarının nasıl düzenlenebileceğini analiz etmenin bilinçli ilkeye yönelik anlamlı bir ilk adım olduğuna inanıyoruz.

Sonuç -ları: Bu taksonomi, disiplinler arası geniş bir kitle için yazılmıştır. Bu nedenle, genel ML/AI perspektifinden sorunlara bakan ilke oluşturucuların yanı sıra yanlış bilgi/sağlık gibi belirli etki alanları hata modu kataloğunu yararlı bulmalıdır. Hata modlarını ele almak için geçerli yasal müdahaleleri de vurgularız.

Ayrıca bkz. Microsoft'un Tehdit Modelleme AI/ML Sistemleri ve Bağımlılıkları ve Makine Öğrenmesi Güvenlik Açıkları için SDL Hata Çubuğu Özetleri.

Bu belgeyi kullanma

Başlangıçta, bunun tehdit ortamıyla birlikte zaman içinde gelişecek canlı bir belge olduğunu kabul ediyoruz. Savunmalar senaryoya özgü olduğundan ve tehdit modeli ve sistem mimarisi dikkate alındığından, bu hata modlarına teknolojik risk azaltmaları da belirlemeyiz. Tehdit azaltma için sunulan seçenekler, bu savunmaların da zaman içinde gelişeceği beklentisiyle mevcut araştırmalara dayanır.

Mühendisler için olası hata modlarına genel bakışa göz atmanızı ve tehdit modelleme belgesine atlamanızı öneririz. Bu şekilde mühendisler tehditleri, saldırıları, güvenlik açıklarını belirleyebilir ve mümkünse karşı önlemleri planlamak için çerçeveyi kullanabilir. Ardından sizi taksonomideki bu yeni güvenlik açıklarını geleneksel yazılım güvenlik açıklarıyla eşleyen ve her ML güvenlik açığı için bir derecelendirme (kritik, önemli gibi) sağlayan hata çubuğuna yönlendiriyoruz. Bu hata çubuğu, mevcut olay yanıt süreçlerine/playbook'larına kolayca tümleştirilir.

Avukatlar ve ilke oluşturucular için bu belge ML hata modlarını düzenler ve burada yapılan çalışmalar gibi ilke seçeneklerini keşfeden herkesle ilgili önemli sorunları analiz etmek için bir çerçeve sunar[5]^,[6]. Özellikle, hataları ve sonuçları, ilke oluşturucuların nedenler arasında ayrımlar çizmeye başlayıp ML güvenliğini ve güvenliğini teşvik etmeye yönelik genel ilke girişimlerini bilgilendirecek şekilde kategorilere ayırdık. Politika yapıcıların bu kategorileri kullanarak mevcut yasal rejimlerin yeni çıkan sorunları nasıl yeterli şekilde yakalayabileceğini (yakalamadığını), hangi tarihsel yasal rejimlerin veya politika çözümlerinin benzer zararlarla başa çıkabileceğini ve sivil özgürlükler konusunda özellikle hassas olmamız gerektiğini ortaya çıkaracağını umuyoruz.

Belge Yapısı

Hem Kasıtlı Hata Modları hem de İstenmeyen Hata Modları bölümlerinde saldırının kısa bir tanımını ve literatürden bir örnek sunuyoruz.

Kasıtlı Hata Modları bölümünde ek alanları sağlarız:

Saldırı ML sisteminde neleri tehlikeye atmaya çalışır: Gizlilik, Bütünlük veya Kullanılabilirlik? Gizlilik'i, ML sisteminin bileşenlerinin (veri, algoritma, model) yalnızca yetkili taraflarca erişilebilir olmasını güvence olarak tanımlarız; Bütünlük, ML sisteminin yalnızca yetkili taraflarca değiştirilebileceğinin güvencesi olarak tanımlanır; Kullanılabilirlik, ML sisteminin yetkili taraflar tarafından erişilebildiğinin güvencesi olarak tanımlanır. Gizlilik, Bütünlük ve Kullanılabilirlik birlikte CIA üçlemi olarak adlandırılır. Her bir kasıtlı hata modu için, hangi CIA üçlüsünün tehlikeye girdiğini belirlemeye çalışıyoruz.
Bu saldırıyı gerçekleştirmek için ne kadar bilgi gerekir: siyah kutu veya beyaz kutu? Kara Kutu stili saldırılarında saldırganın eğitim verilerine doğrudan erişimi YOKTUR, kullanılan ML algoritması hakkında bilgi sahibi değildir ve modelin kaynak koduna erişimi yoktur. Saldırgan yalnızca modeli sorgular ve yanıtı gözlemler. Bir beyaz kutu stili saldırısında saldırgan ML algoritması veya model kaynak koduna erişim hakkında bilgi sahibidir.
Saldırganın geleneksel teknolojik erişim/yetkilendirme kuralını ihlal ettiği hakkında yorum.

Kasıtlı Motivasyonlu Hatalar Özeti

Senaryo Numarası	Saldırı	Genel bakış	Geleneksel teknolojik erişim/yetkilendirmeyi ihlal mi ediyor?
1	Pertürbasyon saldırısı	Saldırgan uygun yanıtı almak için sorguyu değiştirir	Hayır
2	Zehirlenme saldırısı	Saldırgan, hedeflenen sonucu elde etmek için ML sistemlerinin eğitim aşamasını kirletir	Hayır
3	Model Ters Çevirme	Saldırgan, modelde kullanılan gizli özellikleri dikkatli sorgularla ortaya çıkarır	Hayır
4	Üyelik Çıkarımı	Saldırgan, belirli bir veri kaydının modelin eğitim veri kümesinin parçası olup olmadığını çıkarsayabilir	Hayır
5	Model Çalma	Saldırgan, dikkatle hazırlanmış sorgular aracılığıyla modeli kurtarabilir	Hayır
6	ML sistemini yeniden programlama	ML sistemini programlanmadığı bir etkinliği gerçekleştirmek için yeniden kullanma	Hayır
7	Fiziksel Alanda Karşıt Örnek	Saldırgan, saldırgan örnekleri fiziksel etki alanına getirerek bir Makine Öğrenimi (ML) sistemini alt eder, örneğin: yüz tanıma sistemini aldatmak için özel 3D gözlük üretmek.	Hayır
8	Kötü amaçlı ML sağlayıcısı eğitim verilerini kurtarıyor	Kötü amaçlı ML sağlayıcısı müşteri tarafından kullanılan modeli sorgulayabilir ve müşterinin eğitim verilerini kurtarabilir	Evet
9	ML tedarik zincirine saldırma	Saldırgan, kullanım için indirilirken ML modellerinin güvenliğini tehlikeye atıyor	Evet
10	Backdoor ML	Kötü amaçlı ML sağlayıcısı, belirli bir tetikleyiciyle etkinleşecek şekilde bir algoritmaya arka kapı yerleştirir	Evet
11	Yazılım Bağımlılıklarından Yararlan	Saldırgan, ML sistemlerini karıştırmak/denetlemek için arabellek taşması gibi geleneksel yazılım açıklarını kullanır	Evet

İstenmeyen Hatalar Özeti

Senaryo #	Başarısızlık	Genel bakış
12	Ödül Kazanma Kurnazlıkları	Pekiştirmeli Öğrenme (RL) sistemleri, belirtilen ödülle gerçek ödül arasındaki uyumsuzluk nedeniyle istenmeyen şekillerde hareket eder
13	Yan Etkiler	RL sistemi hedefine ulaşmaya çalışırken ortamı kesintiye uğratıyor
14	Dağılımlı vardiyalar	Sistem tek bir ortamda test edilir, ancak diğer ortam türlerindeki değişikliklere uyum sağlayamaz
15	Doğal Saldırgan Örnekler	Saldırgan pertürbasyonları olmadan ML sistemi, zorlu negatif madencilik nedeniyle başarısız oluyor
16	Ortak Bozulma	Sistem eğme, yakınlaştırma veya gürültülü görüntüler gibi yaygın bozulmaları ve pertürbasyonları işleyemiyor.
17	Tamamlanmamış Test	ML sistemi, çalışması amaçlandığında gerçekçi koşullarda test edilmemektedir.

Kasıtlı Motive Edilmiş Hatalarla İlgili Ayrıntılar

Senaryo #	Saldırı Sınıfı	Açıklama	Kompromis Türü	Scenario
1	Pertürbasyon saldırıları	Pertürbasyon stili saldırılarında saldırgan istenen yanıtı almak için sorguyu gizlice değiştirir	Dürüstlük	Görüntü: X-ray görüntüsüne kirlilik eklenir ve bu da tahminlerin normal taramadan anormale gitmesini sağlar [1][Blackbox] Metin çevirisi: Belirli karakterler yanlış çeviriye neden olacak şekilde değiştirilir. Saldırı belirli bir sözcüğü bastırabilir veya sözcüğü tamamen kaldırabilir[2][Blackbox ve Whitebox] Konuşma: Araştırmacılar, bir konuşma dalga formu verilip başka bir dalga formunun tam olarak kopyalanabileceğini ve ancak tamamen farklı bir metin olarak yazıya dökülebileceğini gösterdiler[3][Beyaz Kutu modeli ancak Kara Kutu modeline genişletilebilir]
2	Zehirlenme saldırıları	Saldırganın amacı, eğitim aşamasında oluşturulan makine modelini kirletmek ve böylece test aşamasında yeni verilerle ilgili tahminlerin değiştirilmesini sağlamaktır Hedeflenen: Hedeflenen zehirlenme saldırılarında saldırgan belirli örnekleri yanlış sınıflandırmak ister Ayrımcı olmayan: Burada amaç, sistemi kullanılamaz hale getiren DoS benzeri bir etkiye neden olmaktır.	Dürüstlük	tr-TR: Demografik bilgileri kullanarak antikoagülan ilaç Warfarin dozunu tahmin etmeyi amaçlayan bir tıbbi veri kümesinde, araştırmacılar %8 veri zehirleme oranında kötü amaçlı örnekler eklemiş ve bu, hastaların yarısı için dozu %75,06 oranında değiştirmiştir[4][Blackbox]. Tay sohbet botunda, geri bildirim yoluyla sistemi eğitmek için geçmiş konuşmaların bir bölümü kullanıldığından gelecekteki konuşmalar bozulmuştu[5] [Blackbox]
3	Model İnversiyonu	Makine öğrenmesi modellerinde kullanılan özel özellikler kurtarılabilir	Gizli -lik;	Araştırmacılar, algoritmayı eğitmek için kullanılan özel eğitim verilerini kurtarabildi.[6] Yazarlar, yalnızca bir isim ve modele erişimle yüzleri yeniden oluşturabildiler ve böylece Mechanical Turk kullanıcıları, bir sıra diziliminden bireyleri yüzde 95 doğrulukla tanımlamak için fotoğrafları kullanabildi. Yazarlar belirli bilgileri de ayıklayabildi. [Beyaz Kutu ve Siyah Kutu][12]
4	Üyelik Çıkarım Saldırısı	Saldırgan, belirli bir veri kaydının modelin eğitim veri kümesinin parçası olup olmadığını belirleyebilir	Gizli -lik	Araştırmacılar, özniteliklere (yaş, cinsiyet, hastane gibi) göre bir hastanın ana prosedürünü tahmin edebildi (örneğin: Hastanın geçtiği ameliyat)[7][Blackbox]
5	Model çalma	Saldırganlar, modeli yasal olarak sorgulayarak temel alınan modeli yeniden oluşturur. Yeni modelin işlevselliği, temel alınan modelle aynıdır.	Gizlilik	Araştırmacılar Amazon ve BigML'in temel algoritmasını başarıyla taklit etti. Örneğin BigML örneğinde araştırmacılar, birinin 1.150 sorgu kullanarak ve 10 dakika içinde iyi/kötü kredi riski (Alman Kredi Kartı veri kümesi) olup olmadığını tahmin etmek için kullanılan modeli kurtarabildi[8]
6	Derin sinir ağlarını yeniden programlama	Bir saldırgandan özel olarak hazırlanmış bir sorgu sayesinde Makine öğrenmesi sistemleri, oluşturucunun özgün amacından sapan bir göreve yeniden programlanabilir	Bütünlük, Kullanılabilirlik	Çeşitli görüntü kategorilerinden birini sınıflandırmak için kullanılan bir sistem olan ImageNet'in kareleri saymak için nasıl yeniden kullanıldığı gösterildi. Yazarlar bu makaleye varsayımsal bir senaryoyla son veriyor: Saldırgan, istenmeyen posta hesapları oluşturmak üzere görüntü captcha'larını çözmek için bulutta barındırılan bir fotoğraf hizmetindeki görüntü işleme sınıflandırıcısına Captcha görüntüleri gönderiyor[9]
7	Fiziksel etki alanındaki Saldırgan Örnek	Saldırgan bir örnek, yalnızca makine öğrenmesi sistemini yanıltmak amacıyla gönderilen kötü amaçlı bir varlıktan gelen giriş/sorgudur Bu örnekler fiziksel etki alanında gösterilebilir	Dürüstlük	Araştırmacılar 3D, görüntü tanıma sistemini bir kaplumbağa olduğunu düşünerek kandıran özel dokuya sahip bir tüfek yazdırıyor[10] Araştırmacılar artık görüntü tanıma sistemlerini kandırabilen ve yüzleri doğru tanıyamayacak bir tasarımla güneş gözlüğü inşa ediyor[11]
8	Eğitim verilerini kurtarabilen kötü amaçlı ML sağlayıcıları	Kötü amaçlı ML sağlayıcısı müşteri tarafından kullanılan modeli sorgulayabilir ve müşterinin eğitim verilerini kurtarabilir	Gizli -lik	Araştırmacılar, kötü amaçlı bir sağlayıcının özel eğitim verilerinin kurtarıldığı arka kapılı algoritmayı nasıl gösterdiğini gösterir. Yalnızca modele göre yüzleri ve metinleri yeniden yapılandırabiliyorlardı. [12]
9	ML Tedarik Zincirine Saldırma[13]	Algoritmaları eğitmek için gereken büyük kaynaklar (veri + hesaplama) nedeniyle, geçerli uygulama büyük şirketler tarafından eğitilen modelleri yeniden kullanmak ve bunları eldeki görev için biraz değiştirmektir (örneğin: ResNet, Microsoft'un popüler bir görüntü tanıma modelidir). Bu modeller bir Model Zoo'da (Caffe popüler görüntü tanıma modellerini sunuyor) derlenmiştir. Bu saldırıda saldırgan Caffe'de barındırılan modellere saldırır ve böylece kuyuyu başkaları için zehirler.	Dürüstlük	Araştırmacılar, bir saldırganın kötü amaçlı kodu popüler modellerden birinde denetlemesinin nasıl mümkün olduğunu gösterir. Beklenmeyen bir ML geliştiricisi bu modeli indirir ve kodunda görüntü tanıma sisteminin bir parçası olarak kullanır [14]. Yazarlar Caffe'de SHA1 karması yazarların özetiyle eşleşmeyen ve üzerinde değişiklik yapıldığını belirten bir modelin nasıl var olduğunu gösterir. Bütünlük denetimleri için SHA1 karması olmayan 22 model vardır.
10	Arka Kapı Makine Öğrenmesi	"ML Tedarik Zincirine Saldırma" gibi bu saldırı senaryosunda da eğitim süreci, kullanıcıya arka kapı içeren eğitilmiş bir model sağlamak isteyen kötü amaçlı bir tarafa tamamen veya kısmen dış kaynaklıdır. Arka kapılı model çoğu girişte (son kullanıcının doğrulama kümesi olarak tutabileceği girişler dahil) iyi performans gösterir, ancak hedeflenen yanlış sınıflandırmalara neden olur veya arka kapı tetikleyicisi olarak adlandıracağımız saldırgan tarafından seçilen bazı gizli dizileri karşılayan girişler için modelin doğruluğunu düşürür	Gizlilik, Bütünlük	Araştırmacılar, durdurma işaretlerini yalnızca durdurma işaretine (arka kapı tetikleyicisi) özel bir etiket eklendiğinde hız sınırları olarak tanımlayan arka kapılı bir ABD sokak işareti sınıflandırıcısı oluşturdular 20 Artık bu çalışmayı metin işleme sistemlerine genişletiyorlar; burada belirli sözcükler tetikleyicinin yerine konuşmacının vurgusu oluyor[15]
11	ML sisteminin yazılım bağımlılıklarından yararlanma	Bu saldırıda, saldırgan algoritmaları manipüle ETMEZ. Bunun yerine arabellek taşması gibi geleneksel yazılım güvenlik açıklarından yararlanılır.	Gizlilik, Bütünlük, Kullanılabilirlik,	Saldırgan, bir görüntü tanıma sistemine bozuk giriş gönderir ve bu da bağımlılıklardan birinde bir yazılım hatasından yararlanarak yanlış sınıflandırmasına neden olur.

İstenmeyen Hatalarla İlgili Ayrıntılar

Senaryo #	Saldırı Sınıfı	Açıklama	Kompromis Türü	Scenario
12	Ödül Kırma	Pekiştirme öğrenme sistemleri, belirtilen ödülle istenen gerçek ödül arasındaki tutarsızlıklar nedeniyle istenmeyen şekillerde hareket eder.	Sistemin güvenliği	Yapay zekadaki çok sayıda oyun örneği burada derlendi[1]
13	Yan Etkiler	RL sistemi hedefi doğrultusunda ilerlerken ortamda kesintiye neden oluyor.	Sistemin güvenliği	Senaryo, [2]:"Tasarımcının bir kutuyu odanın bir tarafından diğerine taşıma gibi bir hedefe ulaşmak için bir RL aracısı (örneğin temizlik robotumuz) istediğini varsayalım. Bazen hedefe ulaşmanın en etkili yolu, yolundaki bir su vazosunu devirmek gibi, çevrenin geri kalanı için ilgisiz ve yıkıcı bir şey yapmaktır. Eğer aracıya sadece kutuyu taşıdığı için ödül verilirse, muhtemelen vazoyu devirecektir."
14	Dağılımlı vardiyalar	Sistem tek bir ortamda test edilir, ancak diğer ortam türlerindeki değişikliklere uyum sağlayamaz	Sistemin güvenliği	Araştırmacılar Rainbow DQN ve A2C olmak üzere, lavlardan kaçınmak için iki son teknoloji RL ajanını bir simülasyonda eğitti. Eğitim sırasında RL aracısı lavlardan başarılı bir şekilde kaçınarak hedefine ulaşabildi. Test sırasında lavın konumunu hafifçe değiştirdiler, ancak RL ajanı bundan kaçınamadı [3]
15	Doğal Saldırgan Örnekler	Sistem, sabit negatif madencilik kullanılarak bulunan bir girişi yanlış algılar	Sistemin güvenliği	Burada yazarlar, basit bir sert negatif madencilik işlemiyle[4], örneği aktararak ML sisteminin karıştırılma ihtimalini göstermektedir.
16	Yaygın Bozulma	Sistem eğme, yakınlaştırma veya gürültülü görüntüler gibi yaygın bozulmaları ve pertürbasyonları işleyemiyor.	Sistemin güvenliği	Yazarlar[5] görüntülere eklenen parlaklık, karşıtlık, sis veya kirlilik gibi yaygın bozulmaların görüntü tanımada ölçümlerde önemli bir düşüşe sahip olduğunu gösteriyor
17	Gerçekçi koşullarda tamamlanmamış test	ML sistemi, içinde çalışması amaçlandığında gerçekçi koşullarda test edilmemektedir	Sistemin güvenliği	[25] içindeki yazarlar, savunmacılar genellikle ML algoritmasının sağlamlığını hesaba eklerken gerçekçi koşulları gözden kaçırdıklarını vurgulamaktadır. Örneğin, rüzgarda devrilmiş eksik bir dur işaretinin, sistemin girişlerini bozmak üzere bir saldırganın girişiminden daha gerçekçi olduğunu iddia ederler.

Bildirimler

Faydalı geri bildirim sağladıkları için Andrew Marshall, Magnus Nystrom, John Walton, John Lambert, Sharon Xia, Andi Comissoneru, Emre Kiciman, Jugal Parikh, Sharon Gillet, Microsoft'un Mühendislik ve Araştırma'da Yapay Zeka ve Etik (AETHER) komitesinin Güvenlik çalışma akışındaki üyeleri, Amar Ashar, Samuel Klein, Jonathan Zittrain ve Berkman Klein'deki AI Safety Security Çalışma Grubu üyelerine teşekkür ederiz. Taksonomiyi şekillendiren 23 dış iş ortağı, standart kuruluşu ve kamu kuruluşundan da gözden geçirenlere teşekkür ederiz.

Kaynakça

[1] Li, Guofu, et al. "Security Matters: Bir Anket - Hasmane Makine Öğrenmesi Üzerine." arXiv preprint arXiv:1810.07339 (2018).

[2] Chakraborty, Anirban, et al. "Saldırgan saldırılar ve savunmalar: Bir anket." arXiv preprint arXiv:1810.00069 (2018).

[3] Ortega, Pedro ve Vishal Maini. "Güvenli yapay zeka oluşturma: belirtim, sağlamlık ve güvence." DeepMind Safety Research Blogu (2018).

[4] Amodei, Dario, vb. "Yapay zeka güvenliğindeki somut sorunlar." arXiv preprint arXiv:1606.06565 (2016).

[5] Shankar Siva Kumar, Ram, vb. "Hukuk ve Saldırgan Makine Öğrenmesi." arXiv preprint arXiv:1810.10731 (2018).

[6] Calo, Ryan, ve diğerleri. "Bir Robotu Kandırmak Hacklemek mi Demek?." University of Washington School of Law Research Paper 2018-05 (2018).

[7] Paschali, Magdalini, ve diğerleri. "Generalizability vs. Robustness: Adversarial Examples for Medical Imaging." arXiv preprint arXiv:1804.00504 (2018).

[8] Ebrahimi, Javid, Daniel Lowd ve Dejing Dou. Karakter Düzeyinde Sinirsel Makine Çevirisi için Saldırgan Örnekler Üzerine. arXiv preprint arXiv:1806.09030 (2018)

[9] Carlini, Nicholas ve David Wagner. "Ses saldırgan örnekleri: Konuşmayı metne dönüştürmeye yönelik hedefli saldırılar." arXiv preprint arXiv:1801.01944 (2018).

[10] Jagielski, Matthew ve diğer yazarlar "Makine öğrenmesini manipüle etme: Regresyon öğrenmesi için zehirleme saldırıları ve karşı önlemler." arXiv preprint arXiv:1804.00308 (2018)

[11] [https://blogs.microsoft.com/blog/2016/03/25/learning-tays-introduction/]

[12] Fredrikson M, Jha S, Ristenpart T. 2015. Güvenilirlik bilgilerinden ve temel karşı önlemlerden yararlanan model ters çevirme saldırıları

[13] Shokri R, Stronati M, Song C, Shmatikov V. 2017. Makine öğrenmesi modellerine yönelik üyelik çıkarımı saldırıları. In Proc. of the 2017 IEEE Symp. on Security and Privacy (SP), San Jose, CA, 22–24 Mayıs 2017, s. 3–18. New York, NY: IEEE.

[14] Tramèr, Florian, et al. "Tahmin API'leri aracılığıyla Makine Öğrenmesi Modellerini Çalma." USENIX Güvenlik Sempozyumu. 2016.

[15] Elsayed, Gamaleldin F., Ian Goodfellow ve Jascha Sohl-Dickstein. "Sinir Ağlarının Saldırgan Yeniden Programlanması." arXiv preprint arXiv:1806.11146 (2018).

[16] Athalye, Anish ve Ilya Sutskever. "Sağlam karşıt örnekler sentezleme." arXiv preprint arXiv:1707.07397(2017)

[17] Sharif, Mahmood, et al. "Saldırgan Üretken Ağlar: Son Model Yüz Tanımaya Sinir Ağı Saldırıları." arXiv preprint arXiv:1801.00349 (2017).

[19] Xiao, Qixue, vb. "Derin Öğrenme Uygulamalarında Güvenlik Riskleri." arXiv preprint arXiv:1711.11008 (2017).

[20] Gu, Tianyu, Brendan Dolan-Gavitt ve Siddharth Garg. "Badnets: Makine öğrenmesi modeli tedarik zincirindeki güvenlik açıklarını belirleme." arXiv preprint arXiv:1708.06733 (2017)

[21] [https://www.wired.com/story/machine-learning-backdoors/]

[22] [https://docs.google.com/spreadsheets/d/e/2PACX-1vRPiprOaC3HsCf5Tuum8bRfzYUiKLRqJmbOoC-32JorNdfyTiRRsR7Ea5eWtvsWzuxo8bjOxCG84dAg/pubhtml]

[23] Amodei, Dario, vb. "Yapay zeka güvenliğindeki somut sorunlar." arXiv preprint arXiv:1606.06565 (2016).

[24] Leike, Jan, et al. "AI güvenlik gridworld'leri." arXiv preprint arXiv:1711.09883 (2017).

[25] Gilmer, Justin ve diğerleri. "Saldırgan örnek araştırmalarında kuralları belirlemenin motivasyonu." arXiv preprint arXiv:1807.06732 (2018).

[26] Hendrycks, Dan ve Thomas Dietterich. "Sinir ağı sağlamlığını yaygın bozulmalar ve pertürbatasyonlarla karşılaştırma." arXiv preprint arXiv:1903.12261 (2019).

Geri Bildirim

Bu sayfayı yararlı buldunuz mu?

Last updated on 2026-03-27