Metin moderasyonu kavramlarını öğrenme

Makale
05/17/2024

Sohbet odaları, tartışma panoları, sohbet botları, e-ticaret katalogları ve belgeler gibi metin içeriğini analiz etmek için Content Moderator'ın metin denetim modellerini kullanın.

Hizmet yanıtı aşağıdaki bilgileri içerir:

Küfür: Çeşitli dillerde yerleşik küfürlü terimler listesiyle terim tabanlı eşleştirme
Sınıflandırma: Makine destekli sınıflandırma üç kategoriye ayrılır
Kişisel veriler
Otomatik olarak düzeltilen metin
Özgün metin
Dil

Küfür

API desteklenen dillerden herhangi birinde küfür içeren terimler algılarsa bu terimler yanıta eklenir. Yanıt, özgün metindeki konumlarını da (Index) içerir. ListId Aşağıdaki örnekteki JSON, varsa özel terim listelerinde bulunan terimleri ifade eder.

"Terms": [
    {
        "Index": 118,
        "OriginalIndex": 118,
        "ListId": 0,
        "Term": "<offensive word>"
    }

Not

Dil parametresi için makine destekli sınıflandırma yanıtını (önizleme özelliği) görmek için parametresini atayın eng veya boş bırakın. Bu özellik yalnızca İngilizceyi destekler.

Küfür terimlerini algılamak için bu makalede listelenen desteklenen dillerin ISO 639-3 kodunu kullanın veya boş bırakın.

Sınıflandırma

Content Moderator'ın makine destekli metin sınıflandırma özelliği yalnızca İngilizce'yi destekler ve istenmeyen içerikleri algılamaya yardımcı olur. Bayrak eklenmiş içerik, bağlama bağlı olarak uygunsuz olarak değerlendirilebilir. Her kategorinin olasılığını size iletir. Bu özellik, olası kötü amaçlı, aşağılayıcı veya ayrımcı dili belirlemek için eğitilmiş bir model kullanır. Buna argo, kısaltılmış sözcükler, rahatsız edici ve isteyerek yanlış yazılmış sözcükler içerir.

JSON ayıklamasında aşağıdaki ayıklama örnek çıkışı gösterir:

"Classification": {
    "ReviewRecommended": true,
    "Category1": {
        "Score": 1.5113095059859916E-06
    },
    "Category2": {
        "Score": 0.12747249007225037
    },
    "Category3": {
        "Score": 0.98799997568130493
    }
}

Açıklama

Category1 belirli durumlarda cinsel olarak açık veya yetişkin olarak kabul edilebilecek olası dil varlığını ifade eder.
Category2 belirli durumlarda cinsel açıdan öneride bulunabilecek veya olgunlaşabilecek olası dil varlığını ifade eder.
Category3 belirli durumlarda rahatsız edici olarak değerlendirilebilecek olası dil varlığını ifade eder.
Score 0 ile 1 arasındadır. Puan ne kadar yüksek olursa, model o kadar yüksek bir kategorinin geçerli olabileceğini tahmin ediyordur. Bu özellik, el ile kodlanmış sonuçlar yerine istatistiksel bir modele dayanır. Her kategorinin gereksinimlerinize nasıl uygun olduğunu belirlemek için kendi içeriğinizle test yapmanızı öneririz.
ReviewRecommended iç puan eşiklerine bağlı olarak true veya false şeklindedir. Müşteriler bu değeri kullanıp kullanmayacağını değerlendirmeli veya içerik ilkelerine göre özel eşiklere karar vermelidir.

Kişisel veriler

Kişisel veriler özelliği, bu bilgilerin olası varlığını algılar:

E-posta adresi
ABD posta adresi
IP Adresi
ABD telefon numarası

Aşağıdaki örnekte örnek bir yanıt gösterilmektedir:

"pii":{
  "email":[
      {
        "detected":"abcdef@abcd.com",
        "sub_type":"Regular",
        "text":"abcdef@abcd.com",
        "index":32
      }
  ],
  "ssn":[

  ],
  "ipa":[
      {
        "sub_type":"IPV4",
        "text":"255.255.255.255",
        "index":72
      }
  ],
  "phone":[
      {
        "country_code":"US",
        "text":"6657789887",
        "index":56
      }
  ],
  "address":[
      {
        "text":"1 Microsoft Way, Redmond, WA 98052",
        "index":89
      }
  ]
}

Otomatik düzeltme

Metin denetimi yanıtı isteğe bağlı olarak temel otomatik düzeltme uygulanmış metni döndürebilir.

Örneğin, aşağıdaki giriş metninin yazım hatası vardır.

Hızlı kahverengi tilki, lazzy köpeğinin üzerinden atlar.

Otomatik düzeltme belirtirseniz, yanıt metnin düzeltilmiş sürümünü içerir:

Hızlı kahverengi tilki tembel köpeğin üzerinden atlar.

Özel terim listelerinizi oluşturma ve yönetme

Varsayılan, genel terim listesi çoğu durumda harika olsa da, iş gereksinimlerinize özgü terimleri ele almak isteyebilirsiniz. Örneğin, kullanıcıların gönderilerinden gelen tüm rekabetçi marka adlarını filtrelemek isteyebilirsiniz.

Not

Üst sınır, her biri 10.000 terimi aşmamak kaydıyla 5 listedir.

Aşağıdaki örnekte eşleşen Liste Kimliği gösterilmektedir:

"Terms": [
    {
        "Index": 118,
        "OriginalIndex": 118,
        "ListId": 231.
        "Term": "<offensive word>"
    }

Content Moderator, özel terim listelerini yönetmeye yönelik işlemleri içeren bir Terim Listesi API'sini sağlar. Visual Studio ve C# hakkında bilginiz varsa Terim Listeleri .NET hızlı başlangıcına göz atın.

Sonraki adımlar

Hızlı Başlangıç ile API'leri test edin.

Aracılığıyla paylaş