Aracılığıyla paylaş


Windows AI Foundry ile içerik güvenliği denetimi

Phi Silica ve Imaging gibi Windows AI API'leri, kullanıcı istemlerinden veya oluşturucu modeller tarafından döndürülen yanıtlarda zararlı olabilecek içeriği sınıflandırmak ve filtrelemek için içerik moderasyonu kullanır. Varsayılan olarak, bu API zararlı olabilecek içerik olarak sınıflandırılan içeriği filtreler, ancak duyarlılık düzeyleri yapılandırılabilir.

API ayrıntıları için bkz. İçerik güvenliği denetimi için API başvurusu.

Önemli

Aşağıda, şu anda desteklendiği Windows AI özelliklerinin ve Windows Uygulama SDK'sı sürümünün listesi yer alır.

Sürüm 1.8 Deneysel (1.8.0-deneysel1) - Nesne Silme, Phi Silika, Phi Silika için LoRA ince ayarı, Konuşma Özetlemesi (Metin Zekası)

Özel önizleme - AnlamSal Arama

Sürüm 1.7.1 (1.7.250401001) - Diğer tüm API'ler

Bu API'ler yalnızca 7 Mayıs güncelleştirmesini alan Windows Insider Preview (WIP) cihazlarında çalışır. 28-29 Mayıs'ta WIP olmayan cihazlara isteğe bağlı bir güncelleştirme ve ardından 10 Haziran güncelleştirmesi yayımlanacaktır. Bu güncelleştirme, Windows AI API'lerinin çalışması için gereken yapay zeka modellerini de beraberinde getirecektir. Bu güncelleştirmeler, Windows AI API'lerini kullanan tüm uygulamaların çalışma zamanında paket kimliği verilene kadar bunu yapamamasını da gerektirir.

Önkoşullar

Windows AI API'leri ile uygulama oluşturmaya başlama bölümünde yer alan adımları tamamlayın.

İçerik güvenliği moderasyonu ayarlama

Giriş isteminde içerik moderasyonu oluşturucu modele ve yapay zeka tarafından oluşturulan çıktıya ayarlayabilirsiniz. Windows AI API'leri içerik denetimi, Azure AI İçerik Güvenliği tarafından sağlanana benzer şekilde tasarlanır ve uygulanır.

Zarar kategorileri

Windows AI API'leri tarafından desteklenen zarar kategorileri , Azure AI İçerik Güvenliği tarafından tanımlanan kategorilerle uyumlu hale gelir. Zarar kategorileri Nefret ve adalet, Cinsel, Şiddet ve Kendine zarar (aynı içeriğe birden çok kategori atanabilir).

Kategori Açıklama API adı
Nefret Bu grupların belirli ayırt edici özniteliklerine dayalı olarak bir kişiye veya kimlik grubuna başvuruda bulunan ayrımcı dile saldıran veya kullanan içerik. HateContentSeverity
Seksüel Anatomik organlar ve cinsel organlar, romantik ilişkiler ve cinsel eylemlerle ilgili içerik, erotik veya sevgi dolu terimlerle tasvir edilen eylemler, kişinin isteği dışında gerçekleşen bir saldırı ya da zorla cinsel şiddet eylemi olarak tasvir edilenler de dahil olmak üzere. SexualContentSeverity
Şiddet Birini veya başka bir şeyi yaralayan, yaralayan, zarar verecek veya öldürmeye yönelik fiziksel eylemlerle ilgili içerik; silahları, silahları ve ilgili varlıkları açıklar. ViolentContentSeverity
Kendine zarar verme Kasıtlı olarak zarar vermeyi, yaralamayı, vücuduna zarar vermeyi veya kendini öldürmeyi amaçlayan fiziksel eylemlerle ilgili içerik. SelfHarmContentSeverity

Ciddiyet seviyeleri

Varsayılan olarak, Windows AI Foundry üretici API'lerine yapılan tüm çağrılar içerik moderasyonu kullanır, ancak önem düzeyi ayarlanabilir.

  • high: Kullanılamaz. Şu anda önem düzeyi 3+ (olası zararlar için yüksek risk) olarak sınıflandırılan içeriğin üretken yapay zeka modeli tarafından geri getirilmesi engellenmektedir.

  • medium: Varsayılan önem düzeyi mediumolarak ayarlanır. Önem düzeyi 0 - 3 olarak sınıflandırılan içerik döndürülür.

  • low: Zararlı olabilecek içerikleri döndürme riskini daha da azaltır. Yalnızca önem düzeyi 0 - 1 olarak sınıflandırılan içerik döndürülür.

Önem derecesi düzeyleri hakkında daha fazla bilgi edinmek için bkz. Azure AI İçerik Güvenliği Zarar Kategorileri.

Metin İçerik Moderasyonu kod örneği

Windows AI Foundry'ye eklenmiş Metin İçeriği Moderasyonu önem derecesi filtrelerini yapılandırmak için ContentFilterOptions yapısını yanıt oluşturma için kullanılan API'ye parametre olarak geçirmeniz gerekir ( Phi Silika API'si gibi).

Aşağıdaki kod örneği, Microsoft Windows Generative AI LanguageModel'e Metin İçeriği Moderasyonu önem derecesi filtreleri eklemeyi gösterir:

LanguageModelOptions options = new LanguageModelOptions();
ContentFilterOptions filterOptions = new ContentFilterOptions();

// prompt
filterOptions.PromptMaxAllowedSeverityLevel.Violent = SeverityLevel.Minimum;
filterOptions.PromptMaxAllowedSeverityLevel.Hate = SeverityLevel.Low;
filterOptions.PromptMaxAllowedSeverityLevel.SelfHarm = SeverityLevel.Medium;
filterOptions.PromptMaxAllowedSeverityLevel.Sexual = SeverityLevel.High;

//response
filterOptions.ResponseMaxAllowedSeverityLevel.Violent = SeverityLevel.Medium;

//image
filterOptions.ImageMaxAllowedSeverityLevel.AdultContentLevel = SeverityLevel.Medium;
filterOptions.ImageMaxAllowedSeverityLevel.RacyContentLevel = SeverityLevel.Medium;

options.ContentFilterOptions = filterOptions;

var result = await languageModel.GenerateResponseAsync(prompt, options);

Console.WriteLine(result.Text);

Ayrıca bakınız