Udostępnij za pośrednictwem


Pojęcia dotyczące moderowania tekstu

Modele moderowania tekstu usługi Content Moderator umożliwiają analizowanie zawartości tekstowej, takiej jak pokoje rozmów, tablice dyskusyjne, czatboty, katalogi handlu elektronicznego i dokumenty.

Odpowiedź usługi zawiera następujące informacje:

  • Wulgaryzm: dopasowywanie terminów z wbudowaną listą wulgaryzmów w różnych językach
  • Klasyfikacja: klasyfikacja wspomagana przez maszynę w trzech kategoriach
  • Dane osobiste
  • Tekst poprawiony automatycznie
  • Original text
  • Język

Wulgaryzmy

Jeśli interfejs API wykryje jakiekolwiek wulgarne terminy w dowolnym z obsługiwanych języków, te terminy zostaną uwzględnione w odpowiedzi. Odpowiedź zawiera również ich lokalizację (Index) w oryginalnym tekście. Poniższy ListId przykładowy kod JSON odnosi się do terminów znalezionych na listach terminów niestandardowych, jeśli są dostępne.

"Terms": [
    {
        "Index": 118,
        "OriginalIndex": 118,
        "ListId": 0,
        "Term": "<offensive word>"
    }

Uwaga

W przypadku parametru języka przypisz eng lub pozostaw go pusty, aby wyświetlić odpowiedź klasyfikacji wspomaganej przez maszynę (funkcja w wersji zapoznawczej). Ta funkcja obsługuje tylko język angielski.

W przypadku wykrywania terminów wulgaryzmów użyj kodu ISO 639-3 obsługiwanych języków wymienionych w tym artykule lub pozostaw go pusty.

Klasyfikacja

Funkcja klasyfikacji tekstu wspomaganej maszynowo przez usługę Content Moderator obsługuje tylko język angielski i pomaga wykrywać potencjalnie niepożądane treści. Zawartość oflagowana może być oceniana jako nieodpowiednia w zależności od kontekstu. Pokazuje to prawdopodobieństwo wystąpienia każdej kategorii. Funkcja używa wytrenowanego modelu do identyfikowania możliwego obraźliwego, obraźliwego lub dyskryminującego języka. Obejmuje to m.in. slang, skrócone wyrazy, obraźliwe i celowo błędnie napisane słowa.

Poniższy wyodrębnienie w wyodrębnieniu JSON pokazuje przykładowe dane wyjściowe:

"Classification": {
    "ReviewRecommended": true,
    "Category1": {
        "Score": 1.5113095059859916E-06
    },
    "Category2": {
        "Score": 0.12747249007225037
    },
    "Category3": {
        "Score": 0.98799997568130493
    }
}

Wyjaśnienie

  • Category1 odnosi się do potencjalnej obecności języka, który może być uważany za seksualnie lub dorosły w niektórych sytuacjach.
  • Category2 odnosi się do potencjalnej obecności języka, który może być uważany za seksualnie sugestywne lub dojrzałe w niektórych sytuacjach.
  • Category3 odnosi się do potencjalnej obecności języka, który może być uważany za obraźliwy w niektórych sytuacjach.
  • Score wartość jest z zakresu od 0 do 1. Im wyższy wynik, tym wyższy model przewiduje, że kategoria może mieć zastosowanie. Ta funkcja opiera się na modelu statystycznym, a nie na ręcznie zakodowanych wynikach. Zalecamy testowanie z własną zawartością, aby określić, jak każda kategoria jest zgodna z wymaganiami.
  • ReviewRecommended ma wartość true lub false w zależności od wewnętrznych progów oceny. Klienci powinni ocenić, czy używać tej wartości, czy zdecydować o progach niestandardowych na podstawie ich zasad zawartości.

Dane osobiste

Funkcja danych osobowych wykrywa potencjalną obecność tych informacji:

  • Adres e-mail
  • Adres wysyłkowy USA
  • Adres IP
  • Numer telefonu USA

W poniższym przykładzie przedstawiono przykładową odpowiedź:

"pii":{
  "email":[
      {
        "detected":"abcdef@abcd.com",
        "sub_type":"Regular",
        "text":"abcdef@abcd.com",
        "index":32
      }
  ],
  "ssn":[

  ],
  "ipa":[
      {
        "sub_type":"IPV4",
        "text":"255.255.255.255",
        "index":72
      }
  ],
  "phone":[
      {
        "country_code":"US",
        "text":"6657789887",
        "index":56
      }
  ],
  "address":[
      {
        "text":"1 Microsoft Way, Redmond, WA 98052",
        "index":89
      }
  ]
}

Automatyczna korekta

Odpowiedź moderowania tekstu może opcjonalnie zwrócić tekst z zastosowaniem podstawowej autokorekty.

Na przykład następujący tekst wejściowy zawiera błędną pisownię.

Szybki brązowy lis skacze nad leniwym psem.

Jeśli określisz automatyczną korektę, odpowiedź zawiera poprawioną wersję tekstu:

Szybki brązowy lis skacze nad leniwym psem.

Tworzenie niestandardowych list terminów i zarządzanie nimi

Chociaż domyślna, globalna lista terminów działa doskonale w większości przypadków, możesz chcieć wyświetlić ekran pod kątem terminów specyficznych dla potrzeb biznesowych. Na przykład możesz odfiltrować wszystkie konkurencyjne nazwy marek od wpisów użytkowników.

Uwaga

Istnieje maksymalny limit wynoszący 5 list terminów, a poszczególne listy nie mogą przekraczać 10 000 terminów.

W poniższym przykładzie pokazano pasujący identyfikator listy:

"Terms": [
    {
        "Index": 118,
        "OriginalIndex": 118,
        "ListId": 231.
        "Term": "<offensive word>"
    }

Pakiet Content Moderator udostępnia interfejs API listy terminów z operacjami na potrzeby zarządzania niestandardowymi listami terminów. Zapoznaj się z przewodnikiem Szybki start Listy terminów platformy .NET, jeśli znasz program Visual Studio i język C#.

Następne kroki

Przetestuj interfejsy API za pomocą przewodnika Szybki start.