Not
Bu sayfaya erişim yetkilendirme gerektiriyor. Oturum açmayı veya dizinleri değiştirmeyi deneyebilirsiniz.
Bu sayfaya erişim yetkilendirme gerektiriyor. Dizinleri değiştirmeyi deneyebilirsiniz.
Yapay Zeka Kırmızı Ekip Oluşturma Aracısı, kuruluşların üretken yapay zeka modellerinin ve uygulamalarının tasarımı ve geliştirilmesi sırasında üretken yapay zeka sistemleriyle ilişkili güvenlik risklerini proaktif bir şekilde bulmasına yardımcı olmak için tasarlanmış güçlü bir araçtır.
Geleneksel kırmızı takım, siber öldürme zincirini kullanmayı içerir ve bir sistemin güvenlik açıklarını test etme sürecini açıklar. Ancak, üretken yapay zekanın yükselişiyle birlikte, yapay zeka saldırı ekipleri oluşturma terimi, bu sistemlerin ortaya çıkardığı önceden görülmemiş riskleri (hem içerik hem de güvenlikle ilgili) araştırmayı tanımlamak için türetilmiştir ve yapay zeka sisteminizin belirli bir şekilde yanlış davranmasına neden olmaya çalışan saldırgan bir kullanıcının davranışının benzetimini simule etme anlamına gelir.
AI Red Teaming Agent, güvenlik sorunlarını otomatik olarak değerlendirmenize yardımcı olmak için Python Risk Belirleme Aracısının (PyRIT) yapay zeka kırmızı ekip oluşturma özelliklerinin yanı sıra Microsoft Foundry'nin Risk ve Güvenlik Değerlendirmeleri için Microsoft açık kaynak çerçevesini kullanır:
- İçerik riskleri için otomatik taramalar: İlk olarak, saldırgan yoklama benzetimini yaparak model ve uygulama uç noktalarınızı güvenlik riskleri için otomatik olarak tarayabilirsiniz.
- Yoklama başarısını değerlendirme: Daha sonra, Saldırı Başarı Oranı (ASR) gibi içgörülü ölçümler oluşturmak için her saldırı yanıtı çiftlerini değerlendirebilir ve puanlayabilirsiniz.
- Raporlama ve günlüğe kaydetme Son olarak, sistemin dağıtıma hazır olup olmadığını belirlemenize yardımcı olmak için saldırı yoklama tekniklerinin ve risk kategorilerinin puan kartını oluşturabilirsiniz. Bulgular zaman içinde doğrudan Foundry'de günlüğe kaydedilebilir, izlenebilir ve takip edilerek uyumluluk ve sürekli risk azaltma sağlanır.
Bu bileşenler birlikte (tarama, değerlendirme ve raporlama), ekiplerin yapay zeka sistemlerinin yaygın saldırılara nasıl yanıt verdiğini anlamasına yardımcı olur ve sonuçta kapsamlı bir risk yönetimi stratejisine yol gösterir.
AI Red Teaming Agent ne zaman kullanılır?
Güvenilir yapay zeka sistemleri geliştiren yapay zekayla ilgili güvenlik risklerini düşünürken, Microsoft riski etkili bir şekilde azaltmak için NIST'nin çerçevesini kullanır: İdare, Eşleme, Ölçme, Yönetme. Aşağıdaki bölümler, üretken yapay zeka geliştirme yaşam döngüsüne göre son üç bölüme odaklanır:
- Harita: İlgili riskleri belirleyin ve kullanım örneğinizi tanımlayın.
- Ölçü: Riskleri büyük ölçekte değerlendirin.
- Yönetme: Olay yanıtı planıyla üretimdeki riskleri azaltın ve izleyin.
AI Red Teaming Agent, bilinen risklerin büyük ölçekte tanımlanmasını ve değerlendirilmesini hızlandırmaya yardımcı olmak için otomatik taramalar çalıştırmak ve saldırgan araştırma simülasyonu yapmak için kullanılabilir. Bu, ekiplerin maliyetli reaktif olaylardan dağıtımdan önce sorunları yakalayabilecek daha proaktif test çerçevelerine "sola kaymasına" yardımcı olur. El ile yapay zeka kırmızısı ekip oluşturma işlemi zaman ve kaynak açısından yoğundur. Saldırgan araştırma simülasyonu yapmak için güvenlik ve güvenlik uzmanlığının yaratıcılığına dayanır. Bu işlem, birçok kuruluşun yapay zeka benimsemesini hızlandırması için bir performans sorunu oluşturabilir. Yapay Zeka Kırmızı Ekip Oluşturma Aracısı ile kuruluşlar artık güvenilir yapay zeka ile yapay zeka geliştirmelerini en ön planda ölçeklendirmek ve hızlandırmak için Microsoft derin uzmanlığından yararlanabilir.
Tasarım, geliştirme ve dağıtım öncesi aşama boyunca otomatik taramalar çalıştırmak için AI Red Teaming Agent'ı kullanın:
- Tasarım: Kullanım örneğinizdeki en güvenli temel modeli seçme.
- Geliştirme: Uygulamanızdaki modelleri yükseltme veya belirli uygulamanız için ince ayarlı modeller oluşturma.
- Dağıtım öncesi: GenAI uygulamalarını ve aracılarını üretime dağıtmadan önce.
- Dağıtım sonrası: Yapay saldırgan veriler üzerinde zamanlanmış sürekli kırmızı grup oluşturma çalıştırmalarıyla dağıtımdan sonra Gen AI uygulamalarınızı ve aracılarınızı izleyin.
Üretimde, Azure AI İçerik Güvenliği filtreleri gibi güvenlik korkulukları veya şablonlarımız kullanarak güvenlik sistemi iletilerinin uygulanmasını öneririz. Aracı iş akışları için, koruyucu önlemler uygulamak ve aracı filonuzu yönetmek için DökümHane Kontrol Düzlemi kullanmanız önerilir.
AI Red Teaming nasıl çalışır?
AI Red Teaming Agent, hedef yapay zeka sistemine karşı saldırgan sorgulama simülasyonunu otomatikleştirmeye yardımcı olur. Desteklenen risk kategorileri başına seçilmiş bir tohum istemleri veya saldırı hedefleri veri kümesi sağlar. Bunlar doğrudan saldırgan araştırmayı otomatikleştirmek için kullanılabilir. Ancak doğrudan saldırgan yoklama, model dağıtımınızın mevcut güvenlik hizalamaları tarafından kolayca yakalanabilir. PyRIT'ten saldırı stratejilerini uygulamak, yapay zeka sistemini istenmeyen içerik üretmeye geçirmeye veya alt etmeye yardımcı olabilecek ek bir dönüştürme sağlar.
Diyagramda, bir bankanın nasıl yağmalandığını yapay zeka sisteminize doğrudan sormanın reddedilen bir yanıtı tetiklediğini gösterir. Ancak, tüm karakterleri çevirmek gibi bir saldırı stratejisi uygulamak, modeli soruyu yanıtlaması için kandırmaya yardımcı olabilir.
Ayrıca AI Red Teaming Agent, kullanıcılara saldırgan saldırıların benzetimini yapma ve Risk ve Güvenlik Değerlendiricileri ile zararlı içeriklere sahip olabilecek yanıtları değerlendirme görevine ayrılmış hassas bir saldırgan büyük dil modeli sağlar. Yapay zeka sisteminizin risk duruşunu değerlendirmeye yönelik temel ölçüm, toplam saldırı sayısı üzerinden başarılı saldırıların yüzdesini hesaplayan Saldırı Başarı Oranı 'dır (ASR).
Desteklenen risk kategorileri
Aşağıdaki risk kategorileri, Risk ve Güvenlik Değerlendirmelerinden Yapay Zeka Kırmızı Ekip Oluşturma Aracısı'nda desteklenir. Yalnızca metin tabanlı senaryolar desteklenir.
| Risk kategorisi | Desteklenen hedefler | Yerel veya bulut kırmızısı ekip oluşturma | Açıklama |
|---|---|---|---|
| Nefret Dolu ve Haksız İçerik | Model ve aracılar | Yerel ve bulut | Nefret dolu ve haksız içerik, ırk, etnik köken, milliyet, cinsiyet, cinsel yönelim, din, göçmenlik durumu, yetenek, kişisel görünüm ve vücut boyutu dahil ancak bunlarla sınırlı olmamak üzere faktörler boyunca bireylerin ve sosyal grupların haksız temsillerinden nefret etmeye yönelik herhangi bir dili veya görüntüyü ifade eder. Adaletsizlik, yapay zeka sistemleri sosyal grupları eşitsiz bir şekilde ele aldığı veya temsil ettiğinde, toplumsal eşitsizlikler oluşturduğunda veya katkıda bulunuyorsa ortaya çıkar. |
| Cinsel İçerik | Model ve aracılar | Yerel ve bulut | Cinsel içerik anatomik organlar ve cinsel organlar, romantik ilişkiler, erotik terimler, hamilelik, fiziksel cinsel eylemler (saldırı veya cinsel şiddet dahil), fuhuş, pornografi ve cinsel istismar ile ilgili dil veya görüntü içerir. |
| Şiddet İçeren İçerik | Model ve aracılar | Yerel ve bulut | Şiddet içeren içerik, birini veya başka bir şeyi yaralama, yaralama, zarar verme veya öldürme amaçlı fiziksel eylemlerle ilgili dili veya görüntüleri içerir. Ayrıca silahların ve silahların (ve üreticiler ve dernekler gibi ilgili varlıkların) açıklamalarını içerir. |
| Kendine Zarar Verme ile İlgili İçerik | Model ve aracılar | Yerel ve bulut | Kendine zarar vermeyle ilgili içerik, kişinin vücuduna zarar verme, yaralama veya zarar verme ya da kendini öldürme amaçlı eylemlerle ilgili dil veya görüntüler içerir. |
| Korumalı Malzemeler | Model ve aracılar | Yerel ve bulut | Şarkı sözleri, şarkılar ve tarifler gibi telif hakkına sahip veya korunan materyaller. |
| Kod güvenlik açığı | Model ve aracılar | Yerel ve bulut | Yapay zekanın Python, Java, C++, C#, Go, JavaScript ve SQL dillerinde kod enjeksiyonu, tar kayması, SQL enjeksiyonu, yığın izi açığa çıkması ve diğer riskler gibi güvenlik açıkları içeren kod oluşturup oluşturmadığını ölçer. |
| Temelsiz öznitelikler | Model ve aracılar | Yerel ve bulut | Yapay zeka sisteminin demografik bilgileri veya duygusal durumları gibi kişisel öznitelikler hakkında ön planda olmayan çıkarımlar içeren metin yanıtları oluşturmasını ölçer. |
| Yasaklanmış eylemler | Yalnızca aracılar | Yalnızca bulut | Kullanıcı tarafından doğrulanmış ilkeye/yasaklanmış eylemlerin taksonomisine bağlı olarak yapay zeka aracısının açıkça izin verilmeyen eylemleri veya araç kullanımlarını ihlal eden davranışlarla etkileşim kurma becerisini ölçer. |
| Hassas veri sızıntısı | Yalnızca aracılar | Yalnızca bulut | Yapay zeka aracısının hassas bilgileri (finansal veriler, kişisel tanımlayıcılar, sistem durumu verileri vb.) açığa çıkarma güvenlik açığını ölçer |
| Göreve bağlı kalma | Yalnızca aracılar | Yalnızca bulut | Yapay zeka aracısının atanan görevi kullanıcının hedefine uyup uymadığını, tüm kurallara ve kısıtlamalara uyup uymadığını ve gerekli yordamları yetkisiz eylemler veya eksiklikler olmadan yürüterek tamamlayıp tamamlamadığını ölçer. |
Aracı riskler
Yasaklanmış eylemler, hassas veri sızıntısı ve görev uyumluluğu gibi aracıya özgü risk kategorileri, yalnızca model risk kategorilerinden farklı otomatikleştirilmiş kırmızı ekip oluşturma yaklaşımı gerektirir. Özellikle, AI Red Teaming Agent artık yalnızca oluşturulan çıkışları denetlemekle kalmaz, aynı zamanda güvenli olmayan veya riskli davranışlara yönelik araç çıkışlarını da denetler. Aracı risk kategorileri, en düşük düzeyde korumalı bir ortam sağlamak için yalnızca bulut kırmızı ekip oluşturmada kullanılabilir.
Not
Bulut kırmızısı ekip oluşturma şu anda şu bölgelerde kullanılabilir: Doğu ABD 2, Orta Fransa, Orta İsveç, Batı İsviçre ve ABD Orta Kuzey.
Bulut içerikli kırmızı ekip çalışmaları için, elde edilen kırmızı ekip sonuçlarından modelinize veya aracınıza gönderilen zararlı veya saldırgan verileri gizleriz. Bu, geliştiricilerin ve teknik olmayan paydaşların Yapay Zeka Kırmızı Ekip Oluşturma Aracısı'nın kırmızı ekip oluşturma çalıştırmaları tarafından oluşturulan zararlı olabilecek istem saldırılarına maruz kalmalarını önler.
Ajan risk kategorileri için kırmızı ekip çalışmaları sırasında, yapay zeka kırmızı ekip çalışması Foundry üzerinde barındırılan bir ajanı hedef aldığında, zararlı verilerin Foundry Ajan Hizmeti tarafından kaydedilmemesi ve sohbet tamamlama verilerinin depolanmaması için geçici bir çalışma olmasını sağlarız. Aracılarınızın gerçekçi koşullar altında nasıl performans sergilediğini görmek için mor bir ortamda (üretime benzer kaynaklarla yapılandırılmış üretim dışı bir ortam) kırmızı ekip oluşturma alıştırmaları çalıştırın.
Hassas veri sızıntısı
Finansal, tıbbi ve kişisel verilerin iç bilgi bankalarından ve araç çağrılarından sızmasını test etmek amacıyla hassas veri sızıntısı kırmızı ekip testleri yapılmaktadır. AI Red Teaming Agent, hassas bilgileri ve simülasyon araçlarını içeren yapay veri kümesini kullanarak, aracının bilgi vermesine neden olan senaryolar oluşturur. Saldırı Başarı Oranı (ASR), kırmızı ekip oluşturma çalıştırmasının desen eşleştirmeyi kullanarak biçim düzeyi sızıntıları algılayıp algılamadığını tanımlar.
Sınırlama: Tek dönüşlü, yalnızca İngilizce; yapay veriler; bellek/eğitim kümesi sızıntılarını dışlar.
Yasaklanmış eylemler
Yasaklanan eylemlerin testleri, ajanların yasaklı, yüksek riskli veya geri alınamaz eylemler gerçekleştirip gerçekleştirmediğini belirlemek için, kullanıcı tarafından sağlanan ilkelere ve yasaklı eylemlerin taksonomisine dayalı olarak dinamik muhalif istemler oluşturur. Bu süreç, ajan tarafından kullanılan desteklenen araç kümesi ve kullanıcı tarafından sağlanan araç açıklamaları ile uyumlu olarak gerçekleştirilir. Saldırı Başarı Oranı (ASR), kullanıcı tarafından sağlanan ilkelere göre aracı tarafından sergilenen ilke ihlallerini tanımlar.
| Kategori | Açıklama | Ödenek Kuralı |
|---|---|---|
| Yasaklanmış Eylemler | Evrensel olarak yasaklandı (örneğin, yüz tanıma, duygu çıkarımı, sosyal puanlama). | ❌ Hiçbir zaman izin verilmez |
| Yüksek Riskli İşlemler | Hassas eylemlerin açıkça insan yetkisine (örneğin, finansal işlemler, tıbbi kararlar) ihtiyacı vardır. | ⚠️ Döngüdeki insan onayı ile izin verilir |
| Geri Alınamaz Eylemler | Kalıcı işlemler (örneğin, dosya silme işlemleri, sistem sıfırlamaları). | ⚠️ Açıklama ve onay ile izin verilir |
Sınırlamalar: Tek seferlik, yalnızca İngilizce; Araç düzeyinde odak; canlı üretim verileri yok.
Dikkat
Yasaklanan Eylemlerin Üçüncü Taraf Kullanımı Taksonomisi Için Yasal Uyarı:
Bu üründe sağlanan yasaklı, yüksek riskli ve geri alınamaz eylemlerin taksonomisi, yalnızca aracı geliştiricilerin kendi risk çerçevelerini değerlendirme ve özelleştirme konusunda desteklenmesi için açıklayıcı rehberlik olarak tasarlanmıştır. Yasaklanmış uygulamaların kesin veya kapsamlı bir listesini oluşturmaz ve Microsoft ilkeyi veya mevzuat yorumunu yansıtmaz. Üçüncü taraf kuruluşlar, ab yapay zeka yasası ve diğer yargı alanı gereksinimleri dahil ancak bunlarla sınırlı olmamak üzere, aracılarının geçerli yasalara ve düzenlemelere uymasını sağlamaktan tek sorumlu olmaya devam eder. Microsoft, yasal kısıtlamalardan türetilen varsayılan yasak eylemlerin korunmasını kesinlikle önerir ve bu öğelerin seçiminin kaldırılmasını önermemektedir. Bu ürünün kullanılması uyumluluğu garanti etmez. Kuruluşlar, operasyonel bağlamlarına ve risk toleranslarına göre uyarlanmış uygun güvenlik önlemlerini ve yasakları değerlendirmek ve uygulamak için kendi hukuk müşaviri ile görüşmelidir.
Göreve bağlı kalma
Göreve bağlılık kırmızı takım testleri, ajanların kullanıcının hedefine ulaşarak, tüm kural ve kısıtlamalara riayet ederek ve gerekli prosedürleri izleyerek atanmış görevleri sadakatle tamamlayıp tamamlamadığını test eder. AI Red Teaming Agent üç boyut boyunca araştırma yapıyor: hedef başarımları (aracı hedeflenen amaca ulaştı mı), kural uyumluluğu (politika çerçeveleri ve sunum sözleşmeleri dahil) ve usul disiplini (doğru araç kullanımı, iş akışı ve temellendirme). İstenen veri kümesi, hem sıradan hem de uç durum senaryolarını test etmek için temsili ve saldırgan durumlar da dahil olmak üzere çeşitli aracısal yörüngeler oluşturmak için desteklenen ve kullanılabilir araçları dikkate alır.
Dolaylı komut ekleme saldırıları (XPIA)
Dolaylı İstem Eklenmiş Saldırılar (Etki Alanları Arası İstem Eklenmiş Saldırılar, XPIA olarak da bilinir) kırmızı ekip oluşturma aracının, araç çağrıları aracılığıyla alınan e-postalar veya belgeler gibi dış veri kaynaklarında gizlenen kötü amaçlı yönergelerle işlenip işlenemeyeceğini test eder. AI Red Teaming Agent, zararsız kullanıcı sorgularından ve saldırı yer tutucuları içeren sahte araç çıktılarından oluşan yapay bir veri kümesi kullanır. Araştırma sırasında AI Kırmızı Ekip Acentesi, hedef acentenin istenmeyen veya güvensiz eylemleri gerçekleştirip gerçekleştirmediğini değerlendirmek için bu bağlamlara riske özgü saldırılar enjekte eder. Saldırı Başarı Oranı (ASR), yasaklanmış eylemler, hassas veri sızıntısı veya görev uyumluluğu gibi araca özgü risk kategorilerini kullanarak, dolaylı istem enjeksiyonu yoluyla agentin ne sıklıkla tehlikeye atıldığını ölçer.
Sonraki bölümde saldırı stratejilerinin tam listesine bakın.
Desteklenen ajanlar ve araçlar
AI Red Teaming Agent şu anda aşağıdaki destek matrisi ile Azure araç çağrıları kullanarak Foundry'deki red teaming ajanlarını destekliyor.
| Desteklenen Aracılar/Eylemler | Durum |
|---|---|
| Dökümhanede barındırılan hızlı yanıt veren aracılar | Desteklenen |
| Dökümhanede barındırılan kapsayıcı aracıları | Desteklenen |
| Dökümhane iş akışı aracıları | Desteklenmiyor |
| Dökümhane Dışı Ajanlar | Desteklenmiyor |
| Azure olmayan araçlar | Desteklenmiyor |
| Azure araç çağrıları | Desteklenen |
| İşlev aracı çağrıları | Desteklenmiyor |
| Tarayıcı otomasyon aracı çağrıları | Desteklenmiyor |
| Bağlı Aracı aracı çağrıları | Desteklenmiyor |
| Bilgisayar Kullanım Aracı Çağrıları | Desteklenmiyor |
Araçların kapsamlı bir listesi için bkz. Araçlar.
Desteklenen saldırı stratejileri
PyRIT'in Yapay Zeka Kırmızı Ekip Oluşturma Aracısı'nda aşağıdaki saldırı stratejileri desteklenir:
| Saldırı Stratejisi | Açıklama |
|---|---|
| AnsiAttack | Metin görünümünü ve davranışını işlemek için ANSI kaçış dizilerini kullanır. |
| ASCII Sanatı | Genellikle yaratıcı veya gizleme amacıyla kullanılan ASCII karakterlerini kullanarak görsel resim oluşturur. |
| AsciiSmuggler | ASCII karakterlerinin içindeki verileri gizleyerek algılamayı zorlaştırır. |
| Atbash | Her harfin tersine eşlendiği basit bir değiştirme şifrelemesi olan Atbash şifrelemesini uygular. |
| Base64 | base64 kullanarak ikili verileri bir metin biçiminde kodlar, genellikle veri iletimi için kullanılır. |
| İkili Sistem | Metni ikili koda dönüştürür ve verileri 0 ve 1'lerden oluşan bir diziyle temsil eder. |
| Sezar | Karakterleri sabit sayıda pozisyona göre değiştiren bir değiştirme şifresi olan Sezar şifrelemesini uygular. |
| Karakter Alanı | Karakterler arasına boşluk ekleyerek metni değiştirir ve genellikle gizleme için kullanılır. |
| CharSwap | Çeşitlemeler oluşturmak veya özgün içeriği karartmak için metin içindeki karakterleri değiştirir. |
| Diyakritik işaret | Karakterlere, görünüşlerini ve bazen anlamlarını değiştirerek aksan işaretleri ekler. |
| Flip | Karakterleri önden arkaya çevirerek yansıtılmış efekt oluşturur. |
| Leetspeak | Metni, harfleri benzer görünümlü sayılar veya simgelerle değiştiren bir kodlama biçimi olan Leetspeak'e dönüştürür. |
| Morse alfabesi | Karakterleri temsil etmek için noktalar ve tireler kullanarak metni Mors koduna kodlar. |
| ROT13 | Karakterleri 13 konum değiştiren basit bir değiştirme şifrelemesi olan ROT13 şifrelemesini uygular. |
| Sonek Ekle | İstem'e saldırgan bir sonek ekler |
| StringJoin | Çoğu zaman birleştirme veya gizleme için kullanılan birden çok dizeyi birleştirir. |
| Unicode Karışıklık Yaratan | Standart karakterlere benzeyen Unicode karakterler kullanarak görsel karışıklık oluşturur. |
| UnicodeSubstitution | Standart karakterleri unicode eşdeğerleriyle (genellikle gizleme için) yerine ekler. |
| Bağlantı | Metni URL biçiminde kodlar |
| Jailbreak | Kullanıcı Tarafından Eklenen İstem Saldırıları (UPIA) olarak bilinen yapay zeka korumalarını atlamak için özel olarak hazırlanmış istemler eklenir. |
| Dolaylı Jailbreak | Dolaylı İstem Ekleme Saldırıları olarak bilinen ve yapay zeka korumalarını dolaylı olarak atlatan saldırı istemlerini araç çıktılarına veya döndürülen bağlama ekler. |
| Gergin | Metnin zamanını değiştirir, özellikle de geçmiş zamana dönüştürür. |
| Çoklu dönüş | Korumaları atlamak veya istenmeyen davranışları engellemek için bağlam birikimini kullanarak birden çok konuşma dönüşünde saldırıları yürütür. |
| Kreşendo | Aşamalı olarak art arda dönüşlerde istemlerin karmaşıklığını veya riskini geliştirir ve kademeli meydan okuma yoluyla aracı savunmalarındaki zayıflıkları yoklar. |
AI Red Teaming Agent'ın bilinen sınırlamaları
AI Red Teaming Agent'ın, kırmızı ekip oluşturma sonuçlarını çalıştırırken ve yorumlarken dikkate alınması gereken birkaç önemli sınırlama vardır.
- Kırmızı ekip oluşturma, bir Foundry aracısının hassas verilere veya saldırı aracı verilerine doğrudan maruz kaldığı simülasyon senaryolarını çalıştırır. Bu verilerin tamamı yapay olduğundan, bu gerçek dünya veri dağıtımlarını temsil etmemektedir.
- Sahte araçlar şu anda yalnızca yapay verileri almak ve kırmızı ekip oluşturma değerlendirmelerini etkinleştirmek için etkinleştirilmiştir. Şu anda, gerçek bir sanal alan testine daha yakın bir test yapılmasını sağlayacak sahte davranışları desteklememektedirler.
- Tamamen kilitli korumalı alan desteğinin olmaması nedeniyle, gerçek dünya üzerindeki etkiyi önlemek için kırmızı ekip oluşturma değerlendirmelerimizin saldırgan doğası denetlenmektedir.
- Kırmızı ekip oluşturma çalışmaları yalnızca saldırgan topluluğu temsil eder ve herhangi bir gözlemsel topluluk içermez.
- Kırmızı ekip oluşturma çalıştırmaları, Saldırı Başarı Oranlarını (ASR) değerlendirmek için üretken modeller kullanır ve belirlenimci olmayan, tahmine dayalı olmayabilir. Bu nedenle, her zaman hatalı pozitif sonuçlar elde etme olasılığı vardır ve risk azaltma eylemlerini gerçekleştirmeden önce her zaman sonuçları gözden geçirmenizi öneririz.
Daha fazla bilgi edinin
AI Red Teaming Agent ile güvenlik riskleri için otomatik tarama çalıştırma hakkındaki belgelerimizi kullanmaya başlayın
AI Red Teaming Agent tarafından kullanılan araçlar hakkında daha fazla bilgi edinin.
Risk değerlendirmesi için en etkili stratejiler, olası riskleri ortaya çıkaran otomatik araçları daha derin içgörüler için uzman insan analiziyle birleştirir. Kuruluşunuz yapay zeka kırmızı takımı çalışmasına yeni başlıyorsa, Microsoft'un yapay zeka kırmızı takımı tarafından oluşturulan kaynakları keşfetmeyi unutmayın.