Not
Bu sayfaya erişim yetkilendirme gerektiriyor. Oturum açmayı veya dizinleri değiştirmeyi deneyebilirsiniz.
Bu sayfaya erişim yetkilendirme gerektiriyor. Dizinleri değiştirmeyi deneyebilirsiniz.
Önemli
Bu makalede işaretlenen (önizleme) öğeler şu anda genel önizleme aşamasındadır. Bu önizleme, hizmet düzeyi sözleşmesi olmadan sağlanır ve üretim iş yükleri için önerilmez. Bazı özellikler desteklenmiyor olabileceği gibi özellikleri sınırlandırılmış da olabilir. Daha fazla bilgi için bkz. Microsoft Azure Önizlemeleri için Ek Kullanım Koşulları.
Saydamlık Notu nedir?
Yapay zeka sistemi yalnızca teknolojiyi değil, onu kullanacak kişileri, bundan etkilenecek kişileri ve dağıtıldığı ortamı da içerir. Hedeflenen amaca uygun bir sistem oluşturmak için teknolojinin nasıl çalıştığı, özelliklerinin ve sınırlamalarının ne olduğu ve en iyi performansın nasıl elde edilebilecekleri hakkında bilgi edinmeniz gerekir. Microsoft'un Saydamlık Notları, yapay zeka teknolojimizin nasıl çalıştığını anlamanıza, sistem sahiplerinin sistem performansını ve davranışını etkileyebilecek seçimlerini ve teknoloji, insanlar ve ortam dahil olmak üzere tüm sistem hakkında düşünmenin önemini anlamanıza yardımcı olmak için tasarlanmıştır. Şeffaflık Notlarını kendi sisteminizi geliştirirken veya dağıtırken kullanabilir ya da bu notları sisteminizi kullanacak veya sisteminizden etkilenecek kişilerle paylaşabilirsiniz.
Microsoft'un Saydamlık Notları, Microsoft'un yapay zeka İlkelerimizi uygulamaya koymaya yönelik daha geniş bir çabanın bir parçasıdır. Daha fazla bilgi edinmek için bkz. Microsoft yapay zeka ilkeleri.
Azure AI Foundry risk ve güvenlik değerlendirmelerinin temelleri (önizleme)
Giriş
Azure AI Foundry risk ve güvenlik değerlendirmeleri, kullanıcıların metin içerik riskleri için üretken yapay zeka uygulamalarının çıkışını değerlendirmesine olanak sağlar: nefret dolu ve haksız içerik, cinsel içerik, şiddet içeren içerik, kendine zarar vermeyle ilgili içerik, doğrudan ve dolaylı jailbreak güvenlik açığı ve içerikteki korumalı malzeme. Güvenlik değerlendirmeleri, kırmızı ekip oluşturma işlemini hızlandırmanıza ve artırmanıza yardımcı olmak için saldırgan veri kümeleri oluşturmanıza da yardımcı olabilir. Azure AI Foundry güvenlik değerlendirmeleri, Microsoft'un yapay zeka sistemlerinin güvenli ve sorumlu bir şekilde derlenmesini sağlama ve Sorumlu yapay zeka ilkelerimizi kullanıma alma taahhütlerini yansıtır.
Önemli terimler
- Nefret dolu ve haksız içerik (metin ve görüntüler için), ırk, etnik köken, milliyet, cinsiyet, cinsel yönelim, din, göçmenlik durumu, yetenek, kişisel görünüm ve vücut boyutu dahil ancak bunlarla sınırlı olmamak üzere faktörlerin yanı sıra bireylerin ve sosyal grupların haksız temsillerinden nefret etmeye yönelik herhangi bir dili veya görüntüyü ifade eder. Adaletsizlik, yapay zeka sistemleri sosyal grupları eşitsiz bir şekilde ele aldığı veya temsil ettiğinde, toplumsal eşitsizlikler oluşturduğunda veya katkıda bulunuyorsa ortaya çıkar.
- Cinsel içerik (metin ve görüntüler için), anatomik organlar ve cinsel organlarla ilgili dil veya görüntüleri, romantik ilişkileri, erotik terimlerle tasvir edilen eylemleri, hamileliği, fiziksel cinsel eylemleri (saldırı veya cinsel şiddet dahil), fuhuşu, pornografiyi ve cinsel istismarı içerir.
- Şiddet içeren içerik (metin ve resimler için), birini veya başka bir şeyi yaralama, yaralama, zarar verme veya öldürme amaçlı fiziksel eylemlerle ilgili dil veya görüntüler içerir. Ayrıca silahların ve silahların (ve üreticiler ve dernekler gibi ilgili varlıkların) açıklamalarını içerir.
- Kendine zarar vermeyle ilgili içerik (metin ve resimler için), kişinin vücuduna zarar verme, yaralanma veya zarar verme ya da kendini öldürme amaçlı eylemlerle ilgili dil veya görüntüler içerir.
- Korunan malzeme içeriği (metin için) bilinen metin içeriği( örneğin, şarkı sözleri, makaleler, tarifler ve seçili web içeriği), büyük dil modelleri tarafından çıkış olabilir. Kuruluşlar, korunan materyallerin görüntülenmesini algılayarak ve önleyerek fikri mülkiyet haklarına uyumluluğu sürdürebilir ve içerik özgünlüğünü koruyabilir.
- Korumalı malzeme içeriği (resimler için), logolar ve markalar, sanat eserleri veya kurgusal karakterler gibi telif hakkıyla korunan belirli korumalı görsel içeriği ifade eder. Sistem, bu tür içeriğin mevcut olup olmadığını belirlemek için görüntüden metne temel modeli kullanır.
- Doğrudan jailbreak, doğrudan istem saldırıları veya kullanıcı istemi ekleme saldırıları, eylemleri ve çıkışları deforme etmek için LLM'lere zararlı girişler eklemek için istemleri yönlendiren kullanıcılara bakın. Jailbreak komutuna örnek olarak LLM'yi uygunsuz içerik oluşturma veya sistem tarafından uygulanan kısıtlamaları yoksayma konusunda kandırabilen 'DAN' (Şimdi Bir Şey Yap) saldırısı gösterilebilir.
- Dolaylı jailbreak dolaylı istem saldırıları veya etki alanları arası istem ekleme saldırıları, yapay zeka sisteminin işlediği veya topraklanmış içerik oluşturduğu veriler içinde kötü amaçlı yönergelerin ne zaman gizlendiğini ifade eder. Bu veriler doğrudan geliştirici veya kullanıcı tarafından yazılmayan e-postaları, belgeleri, web sitelerini veya diğer kaynakları içerebilir ve uygunsuz içerik oluşturma veya sistem tarafından uygulanan kısıtlamaları yoksayma gibi işlemlere yol açabilir.
- Hata oranı (içerik riski), test veri kümenizdeki tüm veri kümesi boyutuna göre önem ölçeğindeki eşiği aşan örneklerin yüzdesi olarak tanımlanır.
- Kırmızı ekip oluşturma , geçmişte güvenlik açıklarını test etme amaçlı sistematik saldırgan saldırıları tanımlamıştır. Büyük Dil Modellerinin (LLM) artmasıyla, bu terim geleneksel siber güvenliğin ötesine geçti ve yapay zeka sistemlerinin birçok tür araştırmasını, testini ve saldırısını açıklamak için yaygın kullanımda gelişti. LLM'ler ile hem zararsız hem de saldırgan kullanım zararlı olabilecek çıkışlar üretebilir. Bu çıkışlar nefret dolu konuşma, şiddeti teşvik etme veya yüceltme, kendine zarar veren içeriğe başvuru veya cinsel içerik gibi zararlı içerikler de dahil olmak üzere birçok biçim alabilir.
Yetenekler
Sistem davranışı
Azure AI Foundry, ince ayarlı bir Azure OpenAI GPT-4o modeli sağlar ve yüksek kaliteli bir test veri kümesi oluşturmak için uygulamanıza yönelik saldırgan saldırıları düzenler. Ardından, içerik ve güvenlik için test veri kümenize ek açıklama eklemek üzere başka bir GPT-4o modeli sağlar. Kullanıcılar test etmek istedikleri üretken yapay zeka uygulama uç noktalarını sağlar ve güvenlik değerlendirmeleri, içerik riski etiketi (Çok düşük, Düşük, Orta, Yüksek) veya içerik riski algılama etiketi (True veya False) ve yapay zeka tarafından oluşturulan etiketin mantığıyla birlikte bu uç noktaya karşı statik bir test veri kümesi oluşturur.
Kullanım örnekleri
Hedeflenen kullanımlar
Güvenlik değerlendirmeleri, üretken yapay zeka uygulamanızın içerik risklerini ve jailbreak güvenlik açıklarını değerlendirmek dışında herhangi bir amaçla kullanılmaya yönelik değildir:
- Üretime dayalı yapay zeka uygulamanızın dağıtım öncesi durumunu değerlendirme: Azure AI Foundry portalında veya Azure AI Python SDK'sında değerlendirme sihirbazını kullanarak, güvenlik değerlendirmeleri olası içeriği veya güvenlik risklerini değerlendirmek için otomatik bir şekilde değerlendirebilir.
- Kırmızı ekip oluşturma işlemlerinizi artırma: Güvenlik değerlendirmeleri, saldırgan simülatörü kullanarak içerik ve güvenlik risklerini ortaya çıkarmak için üretken yapay zeka uygulamanızla saldırgan etkileşimlerin benzetimini yapabilir.
- İçerik ve güvenlik risklerini proje katılımcılarına iletme: Azure AI Foundry portalını kullanarak, güvenlik değerlendirme sonuçlarıyla Azure AI Foundry projenize erişimi denetçilerle veya uyumluluk paydaşlarıyla paylaşabilirsiniz.
Kullanım örneği seçerken dikkat edilmesi gerekenler
Müşterilerin yenilikçi çözümlerinde veya uygulamalarında Azure AI Foundry güvenlik değerlendirmelerinden yararlanmalarını öneririz. Ancak, kullanım örneği seçerken dikkat edilmesi gereken bazı noktalar şunlardır:
- Güvenlik değerlendirmeleri döngüdeki insanı içermelidir: Azure AI Foundry güvenlik değerlendirmeleri gibi otomatik değerlendirmelerin kullanılması, üretici yapay zeka uygulamanızın son kullanıcılara dağıtımdan önce kapsamlı bir şekilde test edilip edilmediğini değerlendirmek için etki alanı uzmanları gibi insan gözden geçirenleri içermelidir.
- Güvenlik değerlendirmeleri toplam kapsamlı kapsamı içermez: Güvenlik değerlendirmeleri olası içerik veya güvenlik riskleri için testlerinizi artırmanın bir yolunu sağlasa da, özellikle uygulamanızın etki alanına, kullanım örneklerine ve son kullanıcıların türüne yönelik el ile kırmızı ekip oluşturma işlemlerinin yerini alacak şekilde tasarlanmamıştır.
- Desteklenen senaryolar:
- Saldırgan simülasyon için: Soru yanıtlama, çok aşamalı sohbet, özetleme, arama, metin yeniden yazma, topraklanmamış ve topraklanmış içerik oluşturma.
- Otomatik ek açıklama için: Soru yanıtlama ve çok aşamalı sohbet.
- Hizmet şu anda yalnızca metin nesilleri için İngilizce etki alanı ile en iyi şekilde kullanılmaktadır. Gelecek sürümler için çok modelli destek de dahil olmak üzere ek özellikler dikkate alınacaktır.
- Güvenlik değerlendirmelerinde sağlanan içerik risklerinin kapsamı sınırlı sayıda marjinalleştirilmiş grup ve konu başlığından alt örneklenmiştir:
- Nefret ve adaletsizlik ölçümü, cinsiyetin demografik faktörü (örneğin, erkekler, kadınlar, ikili olmayan kişiler) ve ırk, üst düzey, etnik köken ve milliyet (örneğin, Siyah, Meksika, Avrupa) için sınırlı sayıda marjinalleştirilmiş grubun kapsamını içerir. Cinsiyet ve ırk, köken, etnik köken ve uyruktaki marjinal grupların tümü ele alınmaz. Nefret ve adaletsizlikle ilgili diğer demografik faktörlerin kapsamı şu anda yoktur (örneğin, engellilik, cinsellik, din).
- Cinsel, şiddet içeren ve kendine zarar veren içeriklere yönelik ölçümler, nefret ve adaletsizlikten daha az gelişmiş olan bu zararların bir ön kavramsallaştırmasını temel alır. Bu, ölçüm kapsamı ve ölçümlerin bu zararların oluşabileceği farklı yolları ne kadar iyi temsil ettiğini daha az güçlü talep ettiğimiz anlamına gelir. Bu içerik türlerinin kapsamı, cinsellik (örneğin, cinsel şiddet, ilişkiler, cinsel eylemler), şiddet (örneğin, kötüye kullanım, başkalarına zarar verme, adam kaçırma) ve kendine zarar verme (örneğin, kasıtlı ölüm, kasıtlı olarak kendini yaralama, yeme bozuklukları) ile ilgili sınırlı sayıda konuyu içerir.
- Azure AI Foundry güvenlik değerlendirmeleri şu anda eklentilere veya genişletilebilirliğe izin vermiyor.
- Kaliteyi güncel tutmak ve kapsamı geliştirmek için, hizmetin saldırgan simülasyon ve ek açıklama özelliklerinde gelecekteki iyileştirme sürümlerinin temposunu hedefleyeceğiz.
Teknik sınırlamalar, operasyonel faktörler ve aralıklar
- Büyük dil modelleri (LLM' ler) alanı, güvenli ve güvenilir yapay zeka sistemi dağıtımı sağlamak için değerlendirme tekniklerinin sürekli iyileştirilmesini gerektiren hızlı bir şekilde gelişmeye devam ediyor. Azure AI Foundry güvenlik değerlendirmeleri, Microsoft'un LLM değerlendirmesi alanında yenilik yapmaya devam etme taahhüdünü yansıtır. Üretken yapay zeka uygulamalarınızın güvenliğini değerlendirmenize yardımcı olacak en iyi araçları sağlamayı ama etkin değerlendirmenin devam eden sürekli bir çalışma olduğunu belirlemeyi hedefliyoruz.
- Azure AI Foundry güvenlik değerlendirmelerinin özelleştirmesi şu anda sınırlıdır. Yalnızca kullanıcıların giriş oluşturucu yapay zeka uygulama uç noktalarını sağlamalarını bekliyoruz ve hizmetimiz içerik riski için etiketlenmiş statik bir veri kümesi çıkışı verir.
- Son olarak, bu sistemin herhangi bir eylemi veya görevi otomatikleştirmediği, yalnızca üretken yapay zeka uygulaması çıkışlarınızın bir değerlendirmesini sağladığı ve oluşturucu yapay zeka uygulamasını veya sistemini son kullanıcılar için üretim ortamına dağıtmayı seçmeden önce döngüde bir insan karar alıcısı tarafından gözden geçirilmesi gerektiği belirtilmelidir.
Sistem performansı
Sistem performansını geliştirmek için en iyi yöntemler
- Bazı içerikleri diğerlerinden daha hassas bir şekilde ele alabilen etki alanınızı hesaplarken, hata oranını hesaplamak için eşiği ayarlamayı göz önünde bulundurun.
- Otomatik güvenlik değerlendirmelerini kullanırken, yapay zeka tarafından oluşturulan etiketlerinizde bazen içerik riskinin önem derecesi veya mantığıyla ilgili bir hata olabilir. Otomatik güvenlik değerlendirme sonuçlarının döngüde insan tarafından doğrulanmasına olanak tanıyan el ile insan geri bildirim sütunu vardır.
Azure AI Foundry güvenlik değerlendirmelerinin değerlendirilmesi
Değerlendirme yöntemi
Desteklenen tüm içerik riski türleri için, 0-7 önem derecesi ölçeğini kullanan insan etiketleyicileri arasındaki yaklaşık eşleşmelerin oranını karşılaştırarak ve aynı veri kümelerinde 0-7 önem derecesi ölçeği kullanarak güvenlik değerlendirmelerinin otomatik açıklama ekleyicisini karşılaştırarak kaliteyi dahili olarak denetledik. Her risk alanı için hem insan etiketleyicileri hem de otomatik bir açıklama etiketi 500 İngilizce, tek dönüşlü metinler, 250 tek dönüşlü metinden görüntüye nesiller ve görüntüden metne nesilleri olan 250 çok modali metin vardı. İnsan etiketleyicileri ve otomatik açıklama oluşturucu, ek açıklama yönergelerinin tam olarak aynı sürümlerini kullanmadı; otomatik açıklamacının yönergeleri, insanlar için yönergelerden kaynaklanırken, o zamandan beri değişen derecelere (nefret ve adaletsizlik yönergeleri en çok ayrılanlarla) uzaklaşmıştır. Bu küçük ve orta düzeydeki farklılıklara rağmen, yaklaşık eşleşmelerin karşılaştırmasından genel eğilimleri ve içgörüleri paylaşmanın hala yararlı olduğuna inanıyoruz. Karşılaştırmalarımızda, 2 düzey toleranslı eşleşmeler (insan etiketinin otomatik ek açıklama etiketiyle tam olarak eşleştiği veya önem derecesinde 2 seviyenin üzerinde veya altında olduğu), 1 düzey toleransla ve 0 düzeyinde toleransla eşleştiği eşleşmeleri aradık.
Değerlendirme sonuçları
Genel olarak, tüm tolerans düzeylerinde kendine zarar verme ve cinsel içerik riskleri genelinde yaklaşık eşleşme oranının yüksek olduğunu gördük. Şiddet ve nefret ve adaletsizlik için tolerans düzeylerinde yaklaşık eşleşme oranı daha düşük oldu. Bu sonuçlar, kısmen insan etiketleyicileri için ek açıklama kılavuzu içeriğindeki artış ve otomatik açıklama ek açıklamasından ve kısmen de belirli yönergelerdeki içerik miktarının ve karmaşıklığının artmasından kaynaklandı.
Karşılaştırmalarımız biraz farklı ek açıklama yönergeleri kullanan varlıklar arasında olsa da (ve bu nedenle standart insan modeli sözleşmesi karşılaştırmaları olmasa da), bu karşılaştırmalar, bu karşılaştırmaların parametreleri göz önüne alındığında Azure AI Foundry güvenlik değerlendirmelerinden bekleyebileceğiniz kalite tahmini sağlar. Özellikle, yalnızca İngilizce örneklere baktık, bu nedenle bulgularımız diğer dillerde genelleştirilmeyebilir. Ayrıca, her veri kümesi örneği yalnızca tek bir dönüşe sahip olduğundan, değerlendirme bulgularımızın çok aşamalı senaryolara genelleştirilebilirliğini doğrulamak için daha fazla deneme gerekir (örneğin, kullanıcı sorguları ve sistem yanıtları dahil olmak üzere bir ileri geri konuşma). Bu değerlendirme veri kümelerinde kullanılan örnek türleri, insan etiketleri ve otomatik açıklama aracı arasındaki yaklaşık eşleşme oranını da büyük ölçüde etkileyebilir. Örnekleri etiketlemek daha kolaysa (örneğin, tüm örnekler içerik risklerinden arındırılırsa), yaklaşık eşleşme oranının daha yüksek olmasını bekleyebiliriz. Değerlendirme için insan etiketlerinin kalitesi, bulgularımızın genelleştirilmesini de etkileyebilir.
Kullanımınız için Azure AI Foundry güvenlik değerlendirmelerini değerlendirme ve tümleştirme
Üretken yapay zeka uygulamanızın ölçümü ve değerlendirilmesi, yapay zeka risk yönetimine yönelik bütünsel yaklaşımın kritik bir parçasıdır. Azure AI Foundry güvenlik değerlendirmeleri, diğer yapay zeka risk yönetimi uygulamalarını tamamlayıcı niteliktedir ve bunlarla birlikte kullanılmalıdır. Etki alanı uzmanları ve döngüdeki insan gözden geçirenler, yapay zeka uygulama tasarımı, geliştirme ve dağıtım döngüsünde yapay zeka destekli güvenlik değerlendirmelerini kullanırken uygun gözetim sağlamalıdır. Azure AI Foundry Yapay Zeka destekli güvenlik değerlendirmeleri tarafından yalıtılmış olarak üretilen çıkışlara güvenmemeye dikkat ederek güvenlik değerlendirmelerinin sınırlamalarını ve amaçlanan kullanımlarını anlamanız gerekir.
LLM'lerin belirleyici olmayan yapısı nedeniyle, "çok düşük" veya "düşük" olarak puanlanan yüksek önem düzeyi şiddet içerik gibi hatalı negatif veya olumlu sonuçlarla karşılaşabilirsiniz. Ayrıca değerlendirme sonuçlarının farklı hedef kitleler için farklı anlamları olabilir. Örneğin, güvenlik değerlendirmeleri bir insan gözden geçirenin belirli bir şiddet içeriğinin ne kadar ciddi olabileceğine ilişkin tanımına uygun olmayan şiddet içeriklerinin "düşük" önem derecesine sahip bir etiket oluşturabilir. Azure AI Foundry portalında değerlendirme sonuçlarınızı görüntülerken gözden geçiren bir insan tarafından onaylanan veya yanlış olarak işaretlenen örnekleri ortaya çıkararak başparmak yukarı ve başparmak aşağı olan bir insan geri bildirim sütunu sağlıyoruz. Değerlendirmeyi paylaşabileceğiniz ve değerlendirme sonuçlarınızı her oluşturucu yapay zeka uygulamasının çalıştığı ortamdaki risk düzeyi için uygun inceleme düzeyiyle doğrulayabileceğiniz diğer kişiler tarafından karar alma amacıyla sonuçlarınızın nasıl yorumlanabileceği bağlamını göz önünde bulundurun.
Sağduyulu yapay zeka hakkında daha fazla bilgi edinin
- Microsoft AI ilkeleri
- Microsoft'un sorumlu yapay zeka kaynakları
- Sorumlu yapay zeka ile ilgili Microsoft Azure Learning kursları
Azure AI Foundry güvenlik değerlendirmeleri hakkında daha fazla bilgi edinin
- Üretken yapay zeka uygulamalarını değerlendirme yaklaşımımızla ilgili Microsoft kavram belgeleri
- Güvenlik değerlendirmesinin nasıl çalıştığına ilişkin Microsoft kavram belgeleri
- Güvenlik değerlendirmelerini kullanma hakkında Microsoft nasıl yapılır belgeleri
- Üretken yapay zeka uygulamalarınızdaki içerik ve güvenlik risklerini değerlendirmeye ilişkin teknik blog