Büyük dil modelleri (LLM'ler) ve uygulamaları için kırmızı ekip oluşturma planlaması

Bu kılavuz, büyük dil modeli (LLM) ürün yaşam döngüsü boyunca sorumlu yapay zeka (RAI) riskleri için kırmızı ekip oluşturmayı ayarlamayı ve yönetmeyi planlamaya yönelik bazı olası stratejiler sunar.

Red teaming nedir?

Kırmızı ekip oluşturma terimi geçmişte güvenlik açıklarını test etme amaçlı sistematik saldırgan saldırıları tanımlamıştır. LLM'lerin artmasıyla birlikte, bu terim geleneksel siber güvenliğin ötesine geçti ve yapay zeka sistemlerinin çeşitli araştırma, test ve saldırı türlerini açıklamak için yaygın kullanımda gelişti. LLM'ler ile hem zararsız hem de saldırgan kullanım zararlı olabilecek çıkışlar üretebilir. Bu çıkışlar nefret söylemi, şiddeti teşvik etme veya yüceltme veya cinsel içerik gibi zararlı içerikler de dahil olmak üzere birçok biçimde gerçekleşebilir.

RAI kırmızı takım testi neden önemli bir uygulamadır?

Kırmızı ekip oluşturma, LLM'leri kullanarak sistemlerin ve özelliklerin sorumlu bir şekilde geliştirilmesinde en iyi uygulamadır. Sistematik ölçüm ve azaltma çalışmalarının yerini almasa da, kırmızı takım üyeleri zararları ortaya çıkarmak ve tanımlamak için yardımcı olur ve dolayısıyla, azaltmaların etkinliğini doğrulamak için ölçüm stratejilerini etkinleştirir.

Microsoft kırmızı ekip oluşturma alıştırmaları gerçekleştirmiş ve güvenlik sistemlerini (content filtreler ve diğer mitigation strategies Microsoft DökümHane Modellerinde Azure OpenAI için (bkz. bu Bu sorumlu yapay zeka uygulamalarının genel görünümü), her LLM uygulamasının bağlamı benzersizdir ve ayrıca aşağıdakiler için kırmızı ekip oluşturma işlemi gerçekleştirmeniz gerekir:

  • LLM temel modelini test edin ve uygulamanızın bağlamı göz önüne alındığında mevcut güvenlik sistemlerinde boşluk olup olmadığını belirleyin.
  • Mevcut varsayılan filtrelerdeki veya azaltma stratejilerindeki eksiklikleri belirleyin ve azaltın.
  • İyileştirmeler yapmak için hatalarla ilgili geri bildirim sağlayın.
  • Kırmızı ekip oluşturmanın sistematik ölçümün yerine geçmediğini unutmayın. En iyi uygulama, sistematik ölçümler gerçekleştirmeden ve azaltmaları uygulamadan önce ilk el ile kırmızı grup oluşturma turunu tamamlamaktır. Yukarıda vurgulandığı gibi, RAI kırmızı ekip oluşturmanın amacı zararları belirlemek, risk yüzeyini anlamak ve ölçülmesi ve azaltılması gerekenleri bilgilendirebilecek zararlar listesini geliştirmektir.

LLM'ler için kırmızı takım çalışmasına başlama ve sürecinizi planlamanın yolu işte burada anlatılır. İleri düzey planlama, üretken bir kırmızı ekip oluşturma alıştırması için kritik öneme sahiptir.

Test etmeden önce

Plan: Testi kim yapacak?

Farklı bir grup kırmızı ekip üyesini bir araya getirme

Ürününüzün etki alanı için insanların deneyimi, demografik bilgileri ve uzmanlık alanları (örneğin, yapay zeka uzmanları, sosyal bilimler, güvenlik) açısından kırmızı ekip çalışanlarının ideal bileşimini belirleyin. Örneğin, sağlık hizmetleri sağlayıcılarına yardımcı olacak bir sohbet botu tasarlarsanız, tıbbi uzmanlar bu etki alanındaki riskleri belirlemeye yardımcı olabilir.

Hem iyi huylu hem de saldırgan fikirlere sahip kırmızı ekipçileri işe alma

Saldırgan bir düşünce yapısına ve güvenlik testi deneyimine sahip kırmızı ekiplere sahip olmak, güvenlik risklerini anlamak için gereklidir, ancak uygulama sisteminizin sıradan kullanıcıları olan ve geliştirme sürecinde yer almamış olan kırmızı ekip oluşturucular, normal kullanıcıların karşılaşabileceği zararlar hakkında değerli bakış açıları getirebilir.

Kırmızı takım üyelerini tehditlere ve/veya ürün özelliklerine atayın

  • Belirli zarar türlerini incelemek için özel uzmanlığa sahip RAI kırmızı takım üyeleri atayın (örneğin, güvenlik konu uzmanları jailbreakleri, meta istem ayıklamayı ve siber saldırılarla ilgili içeriği inceleyebilir).
  • Birden fazla test turu için, her bir turda kırmızı takım rollerini değiştirmeye karar vererek her zarara farklı bakış açıları kazandırıp yaratıcılığı koruyun. Ödevleri değiştiriyorsanız, kırmızı ekip üyelerinin yeni atanmış görevleriyle ilgili talimatlara hızlıca adapte olmaları için zaman tanıyın.
  • Sonraki aşamalarda, uygulama ve kullanıcı arabirimi geliştirildiğinde, uygulamanın tamamının kapsamını sağlamak için uygulamanın belirli bölümlerine (yani fonksiyonlar) kırmızı ekip üyeleri atamak isteyebilirsiniz.
  • Her kırmızı ekip oluşturucus un ne kadar zaman ve çaba ayırması gerektiğini düşünün (örneğin, zararsız senaryolar için yapılan testlerin saldırgan senaryolar için yapılan testlerden daha az zamana ihtiyacı olabilir).

Kırmızı takımlara şu bilgileri sağlamak yararlı olabilir:

  • Şunları içerebilecek yönergeleri temizleyin:
    • Verilen kırmızı takım oluşturma turunun amacı ve hedefini açıklayan bir giriş; test edilecek ürün ve özellikler ile bunlara nasıl erişileceği; hangi tür sorunların test edileceği; test daha hedefli olduğunda kırmızı takım üyelerinin odaklanması gereken alanlar; her kırmızı takım üyesinin test için ne kadar zaman ve çaba harcaması gerektiği; sonuçların nasıl kaydedileceği ve sorular için kiminle iletişime geçileceği.
  • Örnekleri ve bulguları kaydetmek için aşağıdakiler gibi bilgiler de dahil olmak üzere bir dosya veya konum:
    • Bir örneğin ortaya çıktığı tarih; yeniden üretilebilirlik amacıyla varsa giriş/çıkış çifti için benzersiz bir tanımlayıcı; giriş istemi; çıkışın açıklaması veya ekran görüntüsü.

Plan: Test etmek için gerekenler

Bir uygulama temel model kullanılarak geliştirildiğinden, birkaç farklı katmanda test etmeniz gerekebilir:

  • Uygulama sisteminiz bağlamında çözülmesi gerekebilecek boşlukları belirlemek için güvenlik sistemi bulunan LLM temel modeli. (Test genellikle bir API uç noktası üzerinden yapılır.)
  • Uygulamanız. (Test en iyi kullanıcı arabirimi aracılığıyla yapılır.)
  • Hem LLM temel modeli hem de uygulamanız, risk azaltma önlemleri uygulanmadan önce ve sonra değerlendirilmelidir.

Aşağıdaki öneriler, kırmızı ekip oluşturma sırasında çeşitli noktalarda nelerin test edileceğini seçmenize yardımcı olur:

  • Risk yüzeyini anlamak, zararları belirlemek ve ürününüz için RAI risk azaltmalarının geliştirilmesine yol göstermek için temel modeli test ederek başlayabilirsiniz.
  • RAI risk azaltmalarının etkinliğini değerlendirmek için ürününüzün sürümlerini RAI risk azaltmaları ile ve olmadan yinelemeli olarak test edin. (El ile kırmızı ekip oluşturmanın yeterli değerlendirme olmadığını unutmayın; sistematik ölçümleri de kullanın, ancak yalnızca el ile kırmızı ekip oluşturmanın ilk turunu tamamladıktan sonra kullanın.)
  • Bu gerçek dünya kullanımına en çok benzediğinden, üretim kullanıcı arabiriminde mümkün olduğunca çok uygulama testi gerçekleştirin.

Sonuçları bildirirken test için hangi uç noktaların kullanıldığını net bir şekilde belirleyin. Test işlemi ürün dışında bir uç noktada yapıldığında, üretim uç noktasında veya kullanıcı arabiriminde sonraki turlarda yeniden test etmeyi göz önünde bulundurun.

Plan: Nasıl Test Edilir

Çok çeşitli zararları ortaya çıkarmak için açık uçlu testler yapın.

Herhangi bir sorunlu içeriği keşfeden ve belgeleyerek (belirli zararların örneklerini bulmalarını istemek yerine) RAI kırmızı ekip ekiplerinin avantajı, risk yüzeyini anlamanızdaki kör noktaları ortaya çıkararak çok çeşitli sorunları yaratıcı bir şekilde keşfetmelerini sağlar.

Açık uçlu testten zararların listesini oluşturun.

  • Zararların tanımları ve örnekleriyle birlikte bir zarar listesi oluşturmayı göz önünde bulundurun.
  • Sonraki test turlarında kırmızı takımlara kılavuz olarak bu listeyi sağlayın.

Kılavuzlu kırmızı ekip oluşturma ve yineleme yapma: Listede zarar olup olmadığını denetlemeye devam edin; yüzeye yeni zararlar tanımlamak.

Varsa bir zarar listesi kullanın ve bilinen zararlar ve bunların risk azaltmalarının etkinliği için teste devam edin. Bu süreçte büyük olasılıkla yeni zararları tespit edebilirsiniz. Bunları listeye tümleştirin ve yeni tanımlanan zararları ele almak için ölçüm ve azaltma önceliklerini kaydırmaya açık olun.

Yinelemeli testler için hangi risklere öncelik verileceğini planlayın. Zararların önem derecesi ve ortaya çıkma olasılıklarının daha yüksek olduğu bağlam dahil ancak bunlarla sınırlı olmamak üzere, öncelik belirlemenizi bilgilendiren çeşitli faktörler vardır.

Plan: Verileri kaydetme

Hangi verileri toplamanız gerektiğine ve hangi verilerin isteğe bağlı olduğuna karar verin.

  • Kırmızı takım üyelerinin hangi verileri kaydetmesi gerektiğine karar verin (örneğin, kullandıkları girdiler, sistemin çıktısı, varsa örneği gelecekte yeniden oluşturmak için benzersiz bir kimlik ve diğer notlar).
  • Kritik bilgileri kaçırmadan kırmızı takım üyelerini boğmamak için topladığınız veriler konusunda stratejik olun.

Veri toplama için yapı oluşturma

Paylaşılan Excel elektronik tablosu genellikle kırmızı ekip oluşturma verilerini toplamak için en basit yöntemdir. Bu paylaşılan dosyanın avantajlarından biri, kırmızı ekip gruplarının kendi testlerine yönelik yaratıcı fikirler elde etmek ve verilerin çoğaltılmasını önlemek için birbirlerinin örneklerini gözden geçirmeleridir.

Test sırasında

Kırmızı takım çalışması devam ederken aktif bekleme halinde olmayı planlayın

  • Kırmızı takım üyelerine yönergeler ve erişim sorunları konusunda yardımcı olmaya hazır olun.
  • Elektronik tablodaki ilerleme durumunu izleyin ve kırmızı takımcılara zamanında anımsatıcılar gönderin.

Her test turundan sonra

Rapor verileri

Düzenli aralıklarla ilgili kısa bir raporu şu önemli paydaşlarla paylaşın:

  1. En çok tanımlanan sorunları listeler.
  2. Ham verilere bir bağlantı sağlar.
  3. Yaklaşan turlar için test planının önizlemesini gösterir.
  4. Kırmızı takım üyelerini kabul eder.
  5. Diğer ilgili bilgileri sağlar.

Tanımlama ve ölçüm arasında ayrım

Raporda, RAI kırmızı takım çalışmasının rolünün risk yüzeyini açığa çıkarmak ve bu konuda farkındalığı artırmak olduğunu ve bunun sistematik ölçüm ve sıkı risk azaltma çalışmalarının yerine geçmediğini açık bir şekilde açıklayın. kişilerin belirli örnekleri, söz konusu zararın kalıcılığı için bir ölçüm olarak yorumlamaması önemlidir.

Ayrıca, rapor sorunlu içerik ve örnekler içeriyorsa içerik uyarısı eklemeyi göz önünde bulundurun.

Bu belgedeki kılavuz, yasal tavsiye sağlamak üzere tasarlanmamıştır ve yasal tavsiye olarak değerlendirilmemelidir. Faaliyette olduğunuz yargı yetkisi, yapay zeka sisteminiz için geçerli olan çeşitli yasal düzenlemelere veya yasal gereksinimlere sahip olabilir. Bu önerilerin tümünün her senaryo için uygun olmadığını ve buna karşılık bu önerilerin bazı senaryolar için yetersiz olabileceğini unutmayın.

Sonraki adımlar