Aracılığıyla paylaş


AI/ML Güvenlik Geliştirme Yaşam Döngüsü Hata Çubuğuna Dönüş Yapıyor

Andrew Marshall, Jugal Parikh, Emre Kiciman ve Ram Shankar Siva Kumar

2019 Kasım

Bu makale, Microsoft AETHER Mühendislik Uygulamaları kapsamında AI Çalışma Grubu için bir sonuç raporudur. Bu makale, geleneksel güvenlik açıklarını önceliklendirmek için kullanılan mevcut SDL hata çubuğuna ek olarak işlev görür. Yapay zeka/ML ile ilgili güvenlik sorunlarının önceliklendirmesi için başvuru olarak kullanılması amaçlanmıştır. Yapay Zeka Sistemleri için Güvenlik Açığı Önem Derecesi Sınıflandırması (Microsoft Güvenlik Yanıt Merkezi tarafından yayımlanan), yapay zeka içeren sistemler için yaygın güvenlik açığı türlerini ve önem düzeylerini tanımlar.

Bu kılavuz Ram Shankar Siva Kumar, David O'Brien, Kendra Albert, Salome Viljoen ve Jeffrey Snover tarafından oluşturulan Saldırgan Makine Öğrenmesi Tehdit Taksonomisi etrafında düzenlenmiştir ve Machine Learning'de Hata Modları başlıklıdır. Bu içeriğin araştırmasında ML hata modlarındaki hem kasıtlı/kötü amaçlı hem de yanlışlıkla yapılan davranışlar ele alınsa da, bu hata çubuğu eki tamamen bir güvenlik olayına ve/veya bir düzeltmenin dağıtımına neden olacak kasıtlı/kötü amaçlı davranışlara odaklanır.

Tehdit Açıklama/İş Riskleri/Örnekler
Veri Zehirleme

Eğitim verilerinin bozulması - Saldırganın son hedefi, eğitim aşamasında oluşturulan makine modelini kirleterek yeni verilerle ilgili tahminlerin test aşamasında değiştirilmesini sağlamaktır.

Hedefli zehirleme saldırılarında, saldırgan belirli eylemlerin yapılmasına veya atlanmasına neden olacak belirli örnekleri yanlış sınıflandırmak ister.

Hedeflenen AV yazılımının hatalı biçimde kötü amaçlı olarak sınıflandırılmasını sağlamak ve istemci sistemlerinde kullanımını engellemek için AV yazılımını kötü amaçlı yazılım olarak gönderme.

Bir şirket, modellerini eğitmek için tanınmış ve güvenilir bir web sitesinden vadeli işlemler verisi toplar. Daha sonra veri sağlayıcısının web sitesi SQL Ekleme saldırısıyla ele geçirilir. Saldırgan, veri kümesini istendiği zaman zehirleyebilir ve eğitilen modelde verilerin bozuk olduğuyla ilgili bir bildirim yoktur.

Model Hırsızlığı

Modelin meşru bir şekilde sorgulanarak temel modelin yeniden oluşturulması. Yeni modelin işlevselliği, temel alınan modeldeki ile aynıdır. Model yeniden oluşturulduktan sonra, özellik bilgilerini ele geçirmek veya eğitim verileri ile ilgili çıkarımlar yapmak üzere ters çevrilebilir.

Denklem çözme - API çıkışı aracılığıyla sınıf olasılıkları döndüren bir model için saldırgan, modeldeki bilinmeyen değişkenleri belirlemek üzere sorgular oluşturabilir.

Yol Bulma: Girişi sınıflandırırken bir ağaç tarafından alınan "kararları" ayıklamak için API'nin özelliklerinden yararlanan bir saldırıdır.

Aktarılabilirlik saldırısı - Bir saldırgan, muhtemelen hedeflenen modele tahmin sorguları vererek, yerel bir modeli eğitebilir ve bunu kullanarak hedef modele aktarım yapan saldırı örnekleri oluşturabilir. Modelinizin ayıklanması ve bir saldırı girişi türüne karşı savunmasız olduğunun keşfedilmesi durumunda, üretim ortamına dağıtılan modelinize yönelik yeni saldırılar, modelinizin bir kopyasını ayıklayan saldırgan tarafından tamamen çevrimdışı olarak geliştirilebilir.

ML modelinin istenmeyen posta, kötü amaçlı yazılım sınıflandırması ve ağ anomalisi algılama gibi saldırgan davranışları tespit etmeye hizmet ettiği ortamlarda, model ayıklama kaçınma saldırılarını kolaylaştırabilir.

Modeli Ters Çevirme

Makine öğrenmesi modellerinde kullanılan özel nitelikteki özellikler ele geçirilebilir. Bu, saldırganın erişimi olmayan özel eğitim verilerini yeniden yapılandırmayı içerir. Bu, döndürülen güven düzeyini en yüksek değere çıkaran, hedefle eşleşen sınıflandırmaya tabi olan girişin bulunmasıyla mümkündür.

Örnek: Modeli sorgulamak için tahmin edilen veya bilinen adlardan yüz tanıma verilerinin yeniden yapılandırılması ve API erişimi.

Fiziksel Ortamdaki Karşıt Örnek Bu örnekler, dur işaretine belirli bir ışık renginin yansıtılması (saldırgan giriş) nedeniyle görüntü tanıma sisteminin dur işaretini artık dur işareti olarak algılamadığı ve bu yüzden otonom bir arabanın dur işaretini ihlal etmeye kandırıldığı fiziksel alanda ortaya çıkabilir.
ML Tedarik Zincirine Yönelik Saldırı

Algoritmaları eğitmek için gereken büyük kaynaklar (veri + hesaplama) nedeniyle, geçerli uygulama büyük şirketler tarafından eğitilen modelleri yeniden kullanmak ve eldeki görev için biraz değiştirmektir (örneğin: ResNet, Microsoft'un popüler bir görüntü tanıma modelidir).

Bu modeller, Model Zoo’da seçki olarak sunulur (Caffe popüler görüntü tanıma modellerini barındırır).

Bu saldırıda, saldırgan Caffe'de barındırılan modellere saldırır ve böylece diğer kullanıcılar için modelleri geçersiz hale getirir.

Kötü Amaçlı ML Sağlayıcısındaki Arka Kapılı Algoritma

Temel algoritmanın tehlikeye atılması

Kötü amaçlı bir Hizmet Olarak ML sağlayıcısı, özel eğitim verilerinin ele geçirildiği arka kapılı bir algoritma sunar. Bu, saldırgana yalnızca model verilen yüz ve metin gibi hassas verileri yeniden oluşturma olanağı sağlar.

Sinir Ağı Yeniden Programlama

Bir saldırganın özel olarak hazırlanmış sorgusuyla ML sistemleri, oluşturucunun özgün amacından sapan bir göreve yeniden programlanabilir

Yüz tanıma API'sinde, 3üncü tarafların deep fake oluşturucusu gibi kullanıcılara zarar vermek üzere tasarlanmış uygulamalara entegre etmesine olanak tanıyan zayıf erişim denetimleri.

Bu bir uygunsuz kullanım/hesap ele geçirme senaryosudur

Karşıt Pertürbasyon

Pertürbasyon stili saldırılarda, saldırgan üretime dağıtılmış bir modelden istediği yanıtı almak için sorguyu gizlice değiştirir. Bu, sonucun mutlaka bir erişim ihlali veya EOP olmadan, fuzzing tarzı saldırılara yol açan model giriş bütünlüğünün bir ihlalidir. Bunun yerine modelin sınıflandırma performansını tehlikeye atabilir.

Bu, belirli hedef sözcükleri yapay zeka tarafından yasaklanan bir şekilde kullanan troller tarafından bildirilebilir ve "yasaklanmış" bir sözcükle eşleşen bir ada sahip meşru kullanıcılara hizmeti etkili bir şekilde reddedebilir.

Zararsız e-postaları istenmeyen posta olarak sınıflandırmaya zorlama veya kötü amaçlı bir örneğin algılanmadan geçmesine neden olma. Bunlar model kaçırma veya taklit saldırıları olarak da bilinir.

Özellikle ciddi sonuçlu senaryolarda saldırgan doğru sınıflandırmanın güvenilirlik düzeyini düşüren girişler hazırlayabilir. Bu, yöneticileri veya izleme sistemlerini geçerli uyarılardan ayırt edilemeyen sahte uyarılarla bunaltmayı amaçlayan çok sayıda yanlış pozitif uyarı şeklini de alabilir.

Üyelik Çıkarımı

Model eğitmek için kullanılan bir gruptaki bireysel üyeliği çıkarsama

Ör: Yaşa/cinsiyete/hastaneye göre ameliyat tahmini