Otonom ajan temelli yapay zeka sistemleri için risk belirleme

Sütun adı: Tehditleri izleme ve algılama
Desen adı: Otonom aracı yapay zeka sistemi riskini azaltma

Bağlam ve Sorun

Otonom aracı yapay zeka sistemleri tek bir istem yerine eylemleri planlayabilir, yürütebilir ve hedeflere göre uyarlayabilir. Araçlar çağırabileceği, API'leri çağırabileceği, verilere erişebildiği ve hizmetler arasında eşgüdüm sağladıkları için, sınırlı insan müdahalesi ile gerçek dünya etkileri oluşturabilirler. Bu özerklik hem hataların etkisini hem de sistemin saldırganlara çekiciliğini artırır. Aracıdan aracıya, aracıdan hizmete ve aracıdan aracıya etkileşim saldırı yüzeyini genişletir ve dolaylı istem ekleme saldırıları, istenmeyen eylemler veya veri sızdırma gibi risklere neden olabilir.

Aşağıdaki riskler (kapsamlı olmasa da) genellikle otonom aracı yapay zeka sistemlerinde ortaya çıkar.

Tasarım Riskleri

  • Göreve bağlılık: Aracı, kullanıcının amaçlanan görevi, planı veya hedefiyle uyumlu olmayan eylemler gerçekleştirir.
  • İnsan gözetimi ve denetimi: Sistemde kullanıcı incelemesi, onayı, düzeltmesi veya otonom davranışın kesintiye uğraması için anlamlı puanlar yok.
  • Sistem anlaşılırlığı: Kullanıcılar aracının ne yaptığını, yapmayı planladığını veya zaten yaptığını göremez.
  • Saydamlık ve açıklama: Kullanıcılar veya aşağı akış alıcıları yapay zeka sistemiyle etkileşimde bulunduklarının veya yapay zeka tarafından oluşturulan eylemler/çıkışlarla karşılaştıklarının farkında değildir.

Güvenlik Riskleri

  • Aracı ele geçirme: Kötü amaçlı veya güvenilmeyen girişler, verilerle yönergeler arasındaki bulanık sınırlar nedeniyle araç çağrılarını ele geçirmektedir.
  • Hassas veri sızıntısı: Gizli, özel veya kişisel veriler çıkışlar, günlükler, bellek veya aşağı akış eylemleriyle kullanıma sunulur.
  • Tedarik zinciri güvenliğinin aşılmasına neden olan: Güvenlik açıkları modeller, araçlar, eklentiler, topraklama verileri veya diğer aracı bağımlılıkları aracılığıyla ortaya çıkmıştır.
  • Aracı yayılması: Yönetilmeyen veya fazla izinlere sahip aracılar çoğalarak güvenlik riskini artırır ve BT gözetimlerini azaltır.

Bu riskleri ele almak için hem temel tasarım ilkeleri hem de aracı yaşam döngüsü boyunca tutarlı bir şekilde uygulanan risklere özgü risk azaltmaları gerekir.

Çözüm

Temel tasarım yapılarını (aracının nasıl davrandığı ve kullanıcıların denetimde nasıl kaldığı) hedeflenen güvenlik ve idare azaltmaları (sistemin saldırılara karşı nasıl direndiği ve güvenli bir şekilde ölçeklendirildiği) birleştirerek otonom aracı yapay zeka sistemlerinde riski azaltın. Aşağıdaki sütunlar, bu tehditleri ele almak için sorumlu aracı sistem tasarımının temelini oluşturur. Tüm aracı kullanım durumlarına uygulanır ve aynı anda birden çok riskin azaltılmasına yardımcı olur.

Temel tasarım sütunları

Göreve bağlı kalma

Bir aracı kullanıcının amaçlanan görevi, planı veya hedefiyle tam olarak ilgili olmayan eylemler gerçekleştirdiğinde yetersiz görev bağlılığı oluşur. Bir aracı amacı yanlış yorumlayabilir, gerekli adımları atlayabilir veya kullanıcının yetkilendirmediği bir çıkarım amacını takip edebilir.

Bu riski yönetmek için:

  • Aracının amacı güvenilir bir şekilde yorumlaması ve yalnızca hedeflenen eylemleri yürütmesi için net sistem amacı ve sınırları tanımlayın.
  • Model çıkışından bağımsız olarak yasaklanmış eylemleri engellemek için belirleyici denetimleri kullanın.
  • En az ayrıcalık ve en az eylem uygulama. Yalnızca gereken en düşük araçlara, verilere ve işlemlere izin verin. Diğer her şeyi varsayılan olarak reddet.
  • Yüksek risk içeren görevler ve sistemin aşırı dayanıklılığı önlemek için bu riski nasıl işlediği hakkında iletişim kurun.

İnsan gözetimi ve denetimi

İnsan gözetimi, kullanıcılara otonom davranışları yönlendirmek, düzeltmek ve kesintiye uğratmak için anlamlı bir denetim vermek anlamına gelir; özellikle giriş belirsiz olduğunda, eylemler yüksek etkiye sahip olduğunda veya saldırgan işleme mümkün olduğunda.

Bu riski yönetmek için:

  • Kullanıcıların aracıların erişebileceği, yapabilecekleri ve hatırlayabilecekleri sınırlar belirlemesine izin verin.
  • Yüksek riskli veya geri alınamaz eylemler için onay gerektirir.
  • Aracıları güvenli ve anında duraklatmak veya durdurmak için güvenilir, sistem düzeyinde mekanizmalar sağlayın.
  • Yürütmeler arasında kuruluş ilkelerini ve kullanıcı tercihlerini tutarlı bir şekilde zorunlu kılma.

Yapay zeka sistemi anlaşılırlığı

Intelligibility, sistemin ne yapmayı planladığını gösterdiği, yürütme sırasında geri bildirim sağladığı ve hangi araçların ve verilerin kullanıldığı dahil olmak üzere neler olduğunu özetlediği anlamına gelir. Görünürlük olmadan kullanıcılar hataları geri alamaz, olaylara yanıt veremez veya sonuçları geliştiremez.

Sistem anlaşılırlığını tasarlamak için:

  • Özellikle yüksek riskli veya geri alınamaz adımlar için yürütmeden önce planlı eylemleri gösterin.
  • Kullanıcıların davranışı ortaya çıkış sürecinde izleyebilmesi için gerçek zamanlı durum ve ilerleme sağlayın.
  • Sonuçları özetleyin: ne oldu, önemli kararlar ve temsilcinin oraya ulaşmak için kullandığı şey.
  • Denetim ve olay yanıtı için eylemleri, araçları ve sonuçları kaydeden erişilebilir yürütme sonrası günlüklerini koruyun.

Saydamlık ve açıklama

Otonom aracı sistemler arka planda hareket edebilir ve etkileşimi başlatmayan kişileri etkileyebilir. Net açıklama beklentileri belirler, karışıklığı azaltır ve daha güvenli kullanımı destekler.

Etkileşimleri saydam ve anlaşılır hale getirmek için:

  • Özellikle yüksek riskli etki alanlarında veya aşağı akış bağlamlarında kullanıcıların yapay zeka sistemiyle ne zaman etkileşime geçtiğini açıkça belirtin.
  • Sistemin amacını, sınırlarını ve neler yapıp yapamayacağını açıklayın.
  • Kullanıcıların güveni uygun şekilde ayarlayabilmesi için sınırlamaları ve belirsizlikleri açığa çıkarın.
  • Aşağı akış alıcılarının yapay zeka tarafından oluşturulan çıkışları veya eylemleri tanıyabilmesini ve kökenlerini anlayabilmesini sağlayın.

Sistemik güvenlik ve idare riskleri

Aracı ele geçirme

Ajan ele geçirme, kötü amaçlı veya güvenilmeyen girişler ajan mantığını veya araç yürütmeyi manipüle ettiğinde oluşur. Aracı sistemlerde, veriler ve yönergeler arasındaki belirsiz ayrım, araç çağrılarını veya iş akışlarını yeniden yönlendirmek için çapraz istem ekleme saldırılarına izin verebilir.

Ajan ele geçirme riskini yönetmek için:

  • Tüm dış girişleri (alınan içerik ve araç çıkışları dahil) varsayılan olarak güvenilmeyen olarak değerlendirin.
  • Yönergeler, veriler, bellek ve araç parametreleri arasında katı ayrım uygulayın.
  • Girişleri kötü amaçlı desenleri algılamak ve engellemek amacıyla, ajan mantığına veya araç çalıştırma yollarına ulaşmadan önce filtreleyin.
  • yürütmeden önce izin verilenler listesi araçlarını uygulayın ve parametreleri kesin olarak doğrulayın.
  • Aracı davranışını çıkarım amacı yerine açık, sistem tanımlı kurallarda temel alarak örtük yönerge takibini en aza indirin.

Hassas veri sızıntısı

Gizli, özel veya kişisel bilgiler çıkışlar, günlükler, bellek veya aşağı akış eylemleriyle kullanıma sunulduğunda hassas veri sızıntısı oluşur. Ajanlar birden fazla kaynaktan toplandığında veya uzun süreli bağlamı koruduğunda risk artar.

Hassas veri sızıntısı riskini yönetmek için:

  • Aracı kimliklerine ve veri kaynaklarına en az ayrıcalık tanıyın, sadece mevcut görev için erişim verin.
  • Hassas verileri sınıflandırıp idare edin ve kullanım, saklama ve çıkış için belirleyici kurallar uygulayın.
  • Uzun süreli belleği sınırlayın ve yalnızca gerekli ve açıkça yönetilenleri kalıcı hale bırakın.
  • Yetkisiz açıklamayı algılamak ve önlemek için çıkış verilerini ve günlükleri izlemek ve filtrelemek.

Tedarik zinciri aşılması

Tedarik zincirinin güvenliğinin aşılması, güvenlik açıkları modeller, araçlar, eklentiler, topraklama verileri veya diğer bağımlılıklar aracılığıyla sunulduğunda ortaya çıkar. Herhangi bir bileşendeki zayıflık, otonom karar alma ve yürütmeye yayılabilir.

Tedarik zinciri riskini azaltmak için:

  • Aracılar tarafından kullanılan tüm modellerin, araçların, eklentilerin ve veri kaynaklarının envanterini oluşturun ve bunları güvenlik sınırının bir parçası olarak gözden geçirin.
  • Güncelleştirmelerin kasıtlı ve gözden geçirilebilir olması için sürüm oluşturma ve değişiklik denetimi uygulayın.
  • Patlama yarıçapını azaltmak ve basamaklı hataları önlemek için bileşenleri yalıtın.
  • Bağımlılık güvenliğinin aşıldığını veya veri zehirlenmesini gösterebilecek anomalileri izleyin.
  • Tek tek bileşenlerin başarısız olabileceğini ve uygun şekilde telafi denetimleri tasarlayabileceğini varsayalım.

Ajan genişlemesi

Aracı genişlemesi, yönetilmeyen veya aşırı izin verilmiş aracıların kontrolsüz bir şekilde çoğalmasıdır. Yayılma saldırı yüzeyini genişletir, en az ayrıcalığı zayıflatır ve sorumluluk ve BT gözetimini azaltır.

"Yazılım ajanlarının kontrolsüz yayılmasını önlemek için:"

  • Aracılar tarafından kullanılan tüm modellerin, araçların, eklentilerin ve veri kaynaklarının envanterini oluşturun ve bunları güvenlik sınırının bir parçası olarak gözden geçirin.
  • Sorumlu bir ekip veya birey de dahil olmak üzere her aracı için net sahiplik ve sorumluluk sahibi olun.
  • Kayıt, onay, süre sonu ve yetkisini alma dahil olmak üzere aracı yaşam döngüsü idaresini zorunlu tutma.
  • Varsayılan olarak en az ayrıcalık uygulayın ve her aracıya rolü için gereken en düşük izinleri, araçları ve veri erişimini verin.
  • Yetkilendirme, ilke zorlama ve izlenebilirliği etkinleştirmek için aracılara benzersiz, denetlenebilir kimlikler atayın.

Kılavuz

Bu düzeni benimsemek isteyen kuruluşlar aşağıdaki eyleme dönüştürülebilir uygulamaları uygulayabilir.

Alıştırma kategorisi Önerilen eylemler Kaynak
Paylaşılan sorumluluk İnsan gözetimi, kuruluşların ajanların davranış sorumluluğunda kalmasını sağlar. Yapay zeka (AI) paylaşılan sorumluluk modeli
Model seçenekleri Model seçimi, aracı sistemlerde temel bir denetim ve önemli bir tedarik zinciri kararıdır. Kasıtlı model seçimleri daha güvenli ve daha akıllı aracıların kilidini açar Microsoft Foundry Model Kataloğu
İçerik güvenliği ve göreve bağlılık Kötü amaçlı veya manipülatif girdileri tespit etme ve engelleme, dolaylı komut enjeksiyon saldırıları dahil Microsoft Foundry Risk ve Güvenlik Değerlendiricileri
Kötüye kullanım izleme Kötüye kullanım düzenlerini, yinelenen atlama girişimlerini veya anormal aracı davranışını izleme Microsoft Foundry Azure OpenAI Kötüye Kullanım İzleme
Ajan kimliği Aracıların çoğalmasını önlemek için en az ayrıcalık politikasını, yalıtım, yaşam döngüsü yönetimi ve denetim yeteneğini zorunlu kılma Microsoft Entra Aracısı Kimliği
Bağımlılık idaresi Aracılar tarafından kullanılan modelleri, araçları, eklentileri ve veri kaynaklarını envantere alma, doğrulama, sürüm ve izleme Microsoft Foundry Model Kataloğu
İnsan merkezli tasarım Kullanıcının aracının özelliklerini ve sınırlamalarını, insan gözetimini ve daha az kötüye kullanımı ve aşırı kullanım durumunu anlamayı sağlama Tasarım Yoluyla Güvenli UX Araç Seti

Sonuçlar

Avantajlar

  • Ajanlar yalnızca tanımlı niyet, izinler ve sınırlar içinde hareket eder.
  • Kullanıcılar yüksek riskli eylemleri gözden geçirebilir, onaylayabilir ve kesintiye uğratabilir.
  • Sistem davranışı net planlar, geri bildirimler ve günlükler aracılığıyla gözlemlenebilir ve denetlenebilir.
  • Hassas verilerin açığa kullanımı en az ayrıcalık, idare ve izleme yoluyla azaltılır.
  • Organizasyonlar, ajan kullanımı ekipler ve araçlar arasında ölçeklendikçe görünürlüğü ve denetimi korur.
  • Kullanıcılar sistemin davranışına güven oluşturur ve bu güveni korur.

Ödünleşimler

  • Daha belirleyici korumalar, gözetim ve kayıt oluşturmak için ek tasarım ve mühendislik çalışmaları gerekir.
  • Çok aracılı sistemler karmaşıklığı artırır ve beklenmeyen etkileşimler ve sonuçlar için fırsatları çoğaltır.
  • Net açıklama ve anlaşılırlık, kasıtlı UX planlaması gerektirir ve iş akışlarına sürtüşmeler ekleyebilir.

Önemli başarı faktörleri

  • Göreve bağlılık: Temsilci, eylemleri istenildiği gibi gerçekleştirir.
  • İnsan katılımı: İnsanlar yüksek etkiye veya belirsiz aracı eylemlerine karşı sorumlu olmaya devam eder.
  • Belirlenmci korumalar: Yasaklanan eylemler, model davranışından bağımsız olarak güvenilir bir şekilde engellenir.
  • Saydamlık ve açıklama: Kullanıcılar ve aşağı akış alıcıları, aracıların ne zaman davrandıklarını ve ne kullandıklarını anlar.
  • Ajans Ele Geçirme: Ajanslar Dolaylı Komut Enjeksiyonuna karşı koruma sağlamak için katmanlı savunmalara sahiptir, olaylar açısından izlenir ve güvenli bir şekilde kapatılmaya ayarlanır.
  • En az ayrıcalık ve yönetişim: Ajan kimlikleri, izinler ve yaşam döngüsü yayılmayı önlemek için yönetilir.
  • Tedarik zinciri farkındalığı: Modeller, araçlar ve veri kaynakları güvenlik bağımlılıkları olarak değerlendirilir.

Özet

Otonom aracı yapay zeka sistemleri, yapay zeka özellikli yazılımların yapabileceklerini genişletir, ancak otonomlukları riski güçlendirir. Temel tasarım sütunları – görev bağlılığı, insan gözetimi, sistem anlaşılabilirliği ve şeffaflık – aracıların amaçla uyumlu ve kullanıcıların kontrolü elinde tutmasına yardımcı olur. Aracı ele geçirme, hassas veri sızıntısı, tedarik zinciri güvenliğinin aşılması ve aracı yayılması gibi sistemik riskler, en az ayrıcalık, belirlenimci korumalar, idare ve izleme kapsamında hedeflenen risk azaltmaları gerektirir. Katmanlı savunmalar ve net sorumluluk sayesinde kuruluşlar, otonom, gözlemlenebilir ve dayanıklı olan aracı sistemleri tasarım gereği ölçeklendirebilir.