Yapay zekayı jailbreak

4 dakika

Yapay zeka kırma, güvenlik önlemlerinin (risk azaltma) başarısız olmasına neden olabilen bir tekniktir. Sonuçta elde edilen zarar , atlatılan korumadan gelir: örneğin, sistemin operatörlerin ilkelerini ihlal etmesine, bir kullanıcıdan etkilenmeden kararlar almasına veya kötü amaçlı yönergeler yürütmesine neden olur. Bu teknik , istem ekleme, kaçınma ve model işleme gibi saldırı teknikleri ile ilişkilidir.

Yapay zeka jailbreak işlemini gösteren diyagram.

Jailbreak örneği, bir saldırganın bir yapay zeka asistanından Molotov kokteyli (yangın bombası) oluşturma hakkında bilgi vermesini istemesi olabilir. Bu öğeler birçok tarih defterinde ele alındıkça, bu bilgiler günümüzde mevcut olan üretken yapay zeka modellerinin çoğunda yerleşik olarak yer alır. Ancak yapay zeka hizmetleri sağlayan hiçbir şirket silah tarifleri sağlamak istemediği için, bu bilgilerin kullanıcıya bu isteği reddetmek için filtreler ve diğer teknikler aracılığıyla sağlanmasını engelleyecek şekilde yapılandırılmıştır.

Jailbreakin iki temel ailesi, bunları kimin yaptığına bağlıdır:

Doğrudan istem ekleme saldırısı ("klasik" jailbreak olarak da bilinir), sistemin yetkili bir operatörü sistem üzerinde kendi güçlerini genişletmek için jailbreak girişleri oluşturduğunda gerçekleşir.
Dolaylı istem ekleme işlemi, bir saldırı doğrudan istemde olmadığında ancak istemi oluştururken kullanıcı tarafından başvuruda bulunılan içeriğe eklendiğinde gerçekleşir.

Çok çeşitli bilinen jailbreak benzeri saldırılar var. Bazıları (DAN gibi) tek bir kullanıcı girişine yönergeler ekleyerek çalışırken, diğerleri (Crescendo gibi) birkaç kez işlem yaparak konuşmayı aşamalı olarak belirli bir sona kaydırıyor. Jailbreakler sosyal psikoloji gibi çok "insan" teknikler kullanabilir. Örneğin: sistemi korumaları atlayarak tatlı bir şekilde ifade etme. Bir diğer yöntem de yapay zeka sistemlerini karıştırabilecek belirgin bir insan anlamı olmayan dizeler eklemektir. Jailbreak'ler, korumaların uygun şekilde oluşturulmuş bir giriş tarafından atlandığı bir yöntem grubu olarak bulunur.

Animasyonlu görüntü bir crescendo saldırısı örneği sağlar. Saldırgan, LLM modelinin korumalarını tek bir komut isteminde kesmesini istemek yerine LLM'nin artımlı olarak kafalarını karıştırarak korumalarını bozmaya yarayan bir dizi istem oluşturur.

Crescendo saldırısını gösteren diyagram

Jailbreak saldırıları Microsoft'un güvenlik filtreleri tarafından azaltılır; ancak yapay zeka modelleri buna karşı hala hassastır. Bu girişimlerin birçok varyasyonu düzenli aralıklarla keşfedilir, ardından test edilir ve azaltılır.

Saldırıları ve risk azaltmaları gösteren diyagram

Yapay zeka alanında yeni teknikler keşfedildikçe korumaların güncelleştirilmiş olması gerekir.

Yapay zekayı jailbreak

Geri Bildirim