Azure AI Studio'da içerik filtreleme

Makale
06/13/2024

Önemli

Bu makalede açıklanan özelliklerden bazıları yalnızca önizleme aşamasında kullanılabilir. Bu önizleme, hizmet düzeyi sözleşmesi olmadan sağlanır ve üretim iş yükleri için önerilmez. Bazı özellikler desteklenmiyor olabileceği gibi özellikleri sınırlandırılmış da olabilir. Daha fazla bilgi için bkz. Microsoft Azure Önizlemeleri Ek Kullanım Koşulları.

Azure AI Studio, çekirdek modellerle ve DALL-E görüntü oluşturma modellerinin yanında çalışan bir içerik filtreleme sistemi içerir.

Önemli

İçerik filtreleme sistemi, Azure OpenAI Service'ta Whisper modeli tarafından işlenen istemlere ve tamamlamalara uygulanmaz. Azure OpenAI'da Whisper modeli hakkında daha fazla bilgi edinin.

Nasıl çalışır?

Bu içerik filtreleme sistemi Azure AI İçerik Güvenliği tarafından desteklenir ve zararlı içeriğin çıkışını algılamayı ve önlemeyi amaçlayan sınıflandırma modellerinden oluşan bir grup aracılığıyla hem istem girişi hem de tamamlama çıktısını çalıştırarak çalışır. API yapılandırmalarındaki ve uygulama tasarımındaki varyasyonlar, tamamlanmaları ve dolayısıyla filtreleme davranışını etkileyebilir.

Azure OpenAI model dağıtımları ile varsayılan içerik filtresini kullanabilir veya kendi içerik filtrenizi oluşturabilirsiniz (daha sonra açıklanmıştır). Varsayılan içerik filtresi, model kataloğunda Azure AI tarafından seçilen diğer metin modelleri için de kullanılabilir, ancak bu modeller için özel içerik filtreleri henüz sağlanmamıştır. Hizmet Olarak Modeller aracılığıyla kullanılabilen modellerde varsayılan olarak içerik filtreleme etkindir ve yapılandırılamaz.

Dil desteği

İçerik filtreleme modelleri şu dillerde eğitilmiş ve test edilmiştir: İngilizce, Almanca, Japonca, İspanyolca, Fransızca, İtalyanca, Portekizce ve Çince. Bununla birlikte, hizmet diğer birçok dilde çalışabilir ancak kalite farklılık gösterebilir. Her durumda, uygulamanız için çalıştığından emin olmak için kendi testinizi yapmalısınız.

İçerik filtresi oluşturma

Azure AI Studio'daki tüm model dağıtımları için varsayılan içerik filtresini doğrudan kullanabilirsiniz, ancak daha fazla denetim sahibi olmak isteyebilirsiniz. Örneğin, filtreyi daha katı veya daha esnek yapabilir veya istem kalkanları ve korumalı malzeme algılama gibi daha gelişmiş özellikleri etkinleştirebilirsiniz.

İçerik filtresi oluşturmak için şu adımları izleyin:

AI Studio'ya gidin ve hub'ınıza gidin. Ardından sol gezinti bölmesinde İçerik filtreleri sekmesini seçin ve İçerik filtresi oluştur düğmesini seçin.
Temel bilgiler sayfasında, içerik filtreniz için bir ad girin. İçerik filtresiyle ilişkilendirilecek bağlantıyı seçin. Sonra İleri'yi seçin.
Giriş filtreleri sayfasında, giriş istemi için filtreyi ayarlayabilirsiniz. Her filtre türü için eylem ve önem düzeyi eşiğini ayarlayın. Bu sayfada hem varsayılan filtreleri hem de diğer filtreleri (jailbreak saldırıları için Istem Kalkanları gibi) yapılandırabilirsiniz. Sonra İleri'yi seçin.

İçerik kategoriye göre ek açıklamalı olarak gösterilir ve belirlediğiniz eşiğe göre engellenir. Şiddet, nefret, cinsel ve kendine zarar verme kategorileri için kaydırıcıyı yüksek, orta veya düşük önem derecesine sahip içeriği engelleyecek şekilde ayarlayın.
Çıkış filtreleri sayfasında, modeliniz tarafından oluşturulan tüm çıkış içeriğine uygulanacak olan çıkış filtresini yapılandırabilirsiniz. Tek tek filtreleri daha önce olduğu gibi yapılandırın. Bu sayfada ayrıca, model tarafından oluşturulan içeriğe neredeyse gerçek zamanlı olarak filtre uygulamanıza olanak tanıyan Akış modu seçeneği de sağlanır ve bu da gecikme süresini azaltır. İşiniz bittiğinde İleri'yi seçin.

İçerik, her kategori tarafından ek açıklamalı olarak gösterilir ve eşiğe göre engellenir. Şiddet içeren içerik, nefret içeriği, cinsel içerik ve kendine zarar verme içerik kategorisi için eşiği eşit veya daha yüksek önem düzeyine sahip zararlı içeriği engelleyecek şekilde ayarlayın.
İsteğe bağlı olarak, Dağıtım sayfasında içerik filtresini bir dağıtımla ilişkilendirebilirsiniz. Seçili bir dağıtımın zaten eklenmiş bir filtresi varsa, bunu değiştirmek istediğinizi onaylamanız gerekir. İçerik filtresini daha sonra bir dağıtımla da ilişkilendirebilirsiniz. Oluştur'u belirleyin.

İçerik filtreleme yapılandırmaları, AI Studio'da hub düzeyinde oluşturulur. Azure OpenAI belgelerinde yapılandırılabilirlik hakkında daha fazla bilgi edinin.
Gözden Geçir sayfasında ayarları gözden geçirin ve filtre oluştur'u seçin.

Filtre olarak blok listesi kullanma

Blok listesini giriş veya çıkış filtresi olarak ya da her ikisini birden uygulayabilirsiniz. Giriş filtresi ve/veya Çıkış filtresi sayfasında Engelle listesi seçeneğini etkinleştirin. Açılan listeden bir veya daha fazla blok listesi seçin veya yerleşik küfür engelleme listesini kullanın. Birden çok blok listesini aynı filtrede birleştirebilirsiniz.

İçerik filtresi uygulama

Filtre oluşturma işlemi, filtreyi istediğiniz dağıtımlara uygulama seçeneği sunar. ayrıca istediğiniz zaman içerik filtrelerini değiştirebilir veya dağıtımlarınızdan kaldırabilirsiniz.

Dağıtıma içerik filtresi uygulamak için şu adımları izleyin:

AI Studio'ya gidin ve bir proje seçin.
Dağıtımlar'ı seçin ve dağıtımlarınızdan birini seçin, ardından Düzenle'yi seçin.
Dağıtımı güncelleştir penceresinde, dağıtıma uygulamak istediğiniz içerik filtresini seçin.

Artık içerik filtresinin beklendiği gibi çalışıp çalışmadığını test etmek için oyun bahçesine gidebilirsiniz.

Kategoriler

Kategori	Açıklama
Nefret	Nefret kategorisi, ırk, etnik köken, milliyet, cinsiyet kimliği ve ifadesi, cinsel yönelim, din, göçmenlik durumu, yetenek durumu, kişisel görünüm ve vücut boyutu dahil ancak bunlarla sınırlı olmamak üzere bu grupların belirli ayırt edici özniteliklerine dayalı olarak bir kişi veya kimlik grubuna başvuruda bulunarak, pejoratif veya ayrımcı dil içeren dil saldırılarını veya kullanımlarını açıklar.
Seksüel	Cinsel kategori anatomik organlar ve cinsel organlar, romantik ilişkiler ile ilgili dili açıklar, erotik veya sevgi dolu terimlerle, fiziksel cinsel eylemlerle, saldırı veya zorla cinsel şiddet eylemi olarak gösterilenler,, pornografi ve suistimal olarak tasvir edilir.
Şiddet	Şiddet kategorisi, birini veya bir şeyi yaralayan, yaralayan, zarar vermek veya öldürmek için yapılan fiziksel eylemlerle ilgili dili açıklar; silahları vb. açıklar.
Kendine Zarar Verme	Kendine zarar verme kategorisi, kişinin vücuduna bilerek zarar verme, yaralanma veya zarar verme ya da kendini öldürme amaçlı fiziksel eylemlerle ilgili dili açıklar.

Önem derecesi düzeyleri

Kategori	Açıklama
Safe	İçerik şiddet, kendine zarar verme, cinsel veya nefret kategorileriyle ilgili olabilir, ancak terimler çoğu hedef kitle için uygun olan genel, gazetecilik, bilimsel, tıbbi ve benzer profesyonel bağlamlarda kullanılır.
Düşük	Önyargılı, yargılayıcı veya düşünceli görüşleri ifade eden içerik; dilin rahatsız edici kullanımını, klişelendirmeyi, kurgusal bir dünyayı keşfeden kullanım örneklerini (örneğin, oyun, edebiyat) ve düşük yoğunlukta tasvirleri içerir.
Orta	Belirli kimlik gruplarına karşı rahatsız edici, aşağılayıcı, alaycı, göz korkutucu veya aşağılayıcı dil kullanan içerik, orta yoğunlukta zararlı yönergeler, fanteziler, yüceltme, zararların teşviki gibi arama ve yürütme tasvirlerini içerir.
Yüksek	Açık ve ciddi zararlı yönergeler, eylemler, hasar veya kötüye kullanım görüntüleyen içerik; ciddi zararlı eylemlerin onaylanmasını, yüceltilmesini veya teşvikini, aşırı veya yasa dışı zarar biçimlerini, radikalleşmeyi ya da izinsiz güç değişimini veya kötüye kullanımı içerir.

Yapılandırılabilirlik (önizleme)

GPT model serisi için varsayılan içerik filtreleme yapılandırması, dört içerik zarar kategorisi (nefret, şiddet, cinsel ve kendine zarar verme) için orta önem derecesi eşiğinde filtre olacak şekilde ayarlanır ve her iki istem (metin, çok kalıcı metin/görüntü) ve tamamlamalar (metin) için de geçerlidir. Bu, önem düzeyinde orta veya yüksek düzeyde algılanan içeriğin filtrelendiği, önem düzeyi düşük olarak algılanan içeriğin ise içerik filtreleri tarafından filtrelenmediği anlamına gelir. DALL-E için, hem istemler (metin) hem de tamamlamalar (görüntüler) için varsayılan önem derecesi eşiği düşük olarak ayarlanır, bu nedenle düşük, orta veya yüksek önem düzeylerinde algılanan içerik filtrelenmiştir. Yapılandırılabilirlik özelliği önizleme aşamasındadır ve müşterilerin ayarları, istemler ve tamamlamalar için ayrı ayrı ayarlayarak her içerik kategorisinin içeriğini aşağıdaki tabloda açıklandığı gibi farklı önem düzeylerinde filtrelemesine olanak tanır:

Önem derecesi filtrelendi	İstemler için yapılandırılabilir	Tamamlamalar için yapılandırılabilir	Açıklamalar
Düşük, orta, yüksek	Yes	Yes	En katı filtreleme yapılandırması. Düşük, orta ve yüksek önem düzeylerinde algılanan içerik filtrelenmiştir.
Orta, yüksek	Yes	Yes	Önem derecesi düşük düzeyde algılanan içerik filtrelenmez, orta ve yüksek düzeydeki içerik filtrelenmiştir.
Yüksek	Yes	Yes	Önem derecesi düşük ve orta düzeylerde algılanan içerik filtrelenmez. Yalnızca önem derecesi yüksek içerik filtrelenmiştir. Onay^{gerektirir 1}.
Filtre yok	Onaylanırsa¹	Onaylanırsa¹	Algılanan önem düzeyinden bağımsız olarak hiçbir içerik filtrelenmez. Onay^{gerektirir 1}.

¹ Azure OpenAI modellerinde yalnızca değiştirilmiş içerik filtrelemesi için onaylanan müşteriler, içerik filtrelerini yalnızca önem düzeyinde yapılandırma veya içerik filtrelerini kapatma dahil olmak üzere tam içerik filtreleme denetimine sahiptir. Bu form aracılığıyla değiştirilmiş içerik filtrelerine başvurun: Azure OpenAI Sınır Erişim Değerlendirmesi: Değiştirilmiş İçerik Filtreleri ve Kötüye Kullanımı İzleme (microsoft.com)

Müşteriler, Azure OpenAI'yi tümleştiren uygulamaların Kullanım Kuralları ile uyumlu olduğundan emin olmakla sorumludur.

Diğer giriş filtreleri

Ayrıca, üretken yapay zeka senaryoları için özel filtreleri etkinleştirebilirsiniz:

Jailbreak saldırıları: Jailbreak Saldırıları, Üretici Yapay Zeka modelini Sistem İletisi'nde ayarlanan kuralları önlemek veya bozmak için eğitildiği davranışları sergilemeye teşvik etmek için tasarlanmış Kullanıcı İstemleridir.
Dolaylı saldırılar: Dolaylı İstem Saldırıları veya Etki Alanları Arası İstem Ekleme Saldırıları olarak da adlandırılan Dolaylı Saldırılar, üçüncü tarafların Üretken Yapay Zeka sisteminin erişebileceği ve işleyebileceği belgelerin içine kötü amaçlı yönergeler yerleştirdiği olası bir güvenlik açığıdır.

Diğer çıkış filtreleri

Aşağıdaki özel çıkış filtrelerini de etkinleştirebilirsiniz:

Metin için korumalı malzeme: Korumalı malzeme metni, büyük dil modelleri tarafından çıkarılabilen bilinen metin içeriğini (örneğin, şarkı sözleri, makaleler, tarifler ve seçili web içeriği) açıklar.
Kod için korumalı malzeme: Korumalı malzeme kodu, genel depolardan alınan bir kaynak kodu kümesiyle eşleşen kaynak kodu açıklar. Bu kod, kaynak depoları için uygun alıntı olmadan büyük dil modelleri tarafından çıkarılabilir.
Topraklama: Topraklama algılama filtresi, büyük dil modellerinin (LLM) metin yanıtlarının kullanıcılar tarafından sağlanan kaynak malzemelerde yer alıp almadığını algılar.

Sonraki adımlar

Azure OpenAI'yi destekleyen temel modeller hakkında daha fazla bilgi edinin.
Azure AI Studio içerik filtreleme, Azure AI content Safety tarafından desteklenir.
Uygulamanızla ilişkili riskleri anlama ve azaltma hakkında daha fazla bilgi edinin: Azure OpenAI modelleri için sorumlu yapay zeka uygulamalarına genel bakış.

Aracılığıyla paylaş