Pojęcia dotyczące moderowania tekstu
Modele moderowania tekstu usługi Content Moderator umożliwiają analizowanie zawartości tekstowej, takiej jak pokoje rozmów, tablice dyskusyjne, czatboty, katalogi handlu elektronicznego i dokumenty.
Odpowiedź usługi zawiera następujące informacje:
- Wulgaryzm: dopasowywanie terminów z wbudowaną listą wulgaryzmów w różnych językach
- Klasyfikacja: klasyfikacja wspomagana przez maszynę w trzech kategoriach
- Dane osobiste
- Tekst poprawiony automatycznie
- Original text
- Język
Wulgaryzmy
Jeśli interfejs API wykryje jakiekolwiek wulgarne terminy w dowolnym z obsługiwanych języków, te terminy zostaną uwzględnione w odpowiedzi. Odpowiedź zawiera również ich lokalizację (Index
) w oryginalnym tekście. Poniższy ListId
przykładowy kod JSON odnosi się do terminów znalezionych na listach terminów niestandardowych, jeśli są dostępne.
"Terms": [
{
"Index": 118,
"OriginalIndex": 118,
"ListId": 0,
"Term": "<offensive word>"
}
Uwaga
W przypadku parametru języka przypisz eng
lub pozostaw go pusty, aby wyświetlić odpowiedź klasyfikacji wspomaganej przez maszynę (funkcja w wersji zapoznawczej). Ta funkcja obsługuje tylko język angielski.
W przypadku wykrywania terminów wulgaryzmów użyj kodu ISO 639-3 obsługiwanych języków wymienionych w tym artykule lub pozostaw go pusty.
Klasyfikacja
Funkcja klasyfikacji tekstu wspomaganej maszynowo przez usługę Content Moderator obsługuje tylko język angielski i pomaga wykrywać potencjalnie niepożądane treści. Zawartość oflagowana może być oceniana jako nieodpowiednia w zależności od kontekstu. Pokazuje to prawdopodobieństwo wystąpienia każdej kategorii. Funkcja używa wytrenowanego modelu do identyfikowania możliwego obraźliwego, obraźliwego lub dyskryminującego języka. Obejmuje to m.in. slang, skrócone wyrazy, obraźliwe i celowo błędnie napisane słowa.
Poniższy wyodrębnienie w wyodrębnieniu JSON pokazuje przykładowe dane wyjściowe:
"Classification": {
"ReviewRecommended": true,
"Category1": {
"Score": 1.5113095059859916E-06
},
"Category2": {
"Score": 0.12747249007225037
},
"Category3": {
"Score": 0.98799997568130493
}
}
Wyjaśnienie
Category1
odnosi się do potencjalnej obecności języka, który może być uważany za seksualnie lub dorosły w niektórych sytuacjach.Category2
odnosi się do potencjalnej obecności języka, który może być uważany za seksualnie sugestywne lub dojrzałe w niektórych sytuacjach.Category3
odnosi się do potencjalnej obecności języka, który może być uważany za obraźliwy w niektórych sytuacjach.Score
wartość jest z zakresu od 0 do 1. Im wyższy wynik, tym wyższy model przewiduje, że kategoria może mieć zastosowanie. Ta funkcja opiera się na modelu statystycznym, a nie na ręcznie zakodowanych wynikach. Zalecamy testowanie z własną zawartością, aby określić, jak każda kategoria jest zgodna z wymaganiami.ReviewRecommended
ma wartość true lub false w zależności od wewnętrznych progów oceny. Klienci powinni ocenić, czy używać tej wartości, czy zdecydować o progach niestandardowych na podstawie ich zasad zawartości.
Dane osobiste
Funkcja danych osobowych wykrywa potencjalną obecność tych informacji:
- Adres e-mail
- Adres wysyłkowy USA
- Adres IP
- Numer telefonu USA
W poniższym przykładzie przedstawiono przykładową odpowiedź:
"pii":{
"email":[
{
"detected":"abcdef@abcd.com",
"sub_type":"Regular",
"text":"abcdef@abcd.com",
"index":32
}
],
"ssn":[
],
"ipa":[
{
"sub_type":"IPV4",
"text":"255.255.255.255",
"index":72
}
],
"phone":[
{
"country_code":"US",
"text":"6657789887",
"index":56
}
],
"address":[
{
"text":"1 Microsoft Way, Redmond, WA 98052",
"index":89
}
]
}
Automatyczna korekta
Odpowiedź moderowania tekstu może opcjonalnie zwrócić tekst z zastosowaniem podstawowej autokorekty.
Na przykład następujący tekst wejściowy zawiera błędną pisownię.
Szybki brązowy lis skacze nad leniwym psem.
Jeśli określisz automatyczną korektę, odpowiedź zawiera poprawioną wersję tekstu:
Szybki brązowy lis skacze nad leniwym psem.
Tworzenie niestandardowych list terminów i zarządzanie nimi
Chociaż domyślna, globalna lista terminów działa doskonale w większości przypadków, możesz chcieć wyświetlić ekran pod kątem terminów specyficznych dla potrzeb biznesowych. Na przykład możesz odfiltrować wszystkie konkurencyjne nazwy marek od wpisów użytkowników.
Uwaga
Istnieje maksymalny limit wynoszący 5 list terminów, a poszczególne listy nie mogą przekraczać 10 000 terminów.
W poniższym przykładzie pokazano pasujący identyfikator listy:
"Terms": [
{
"Index": 118,
"OriginalIndex": 118,
"ListId": 231.
"Term": "<offensive word>"
}
Pakiet Content Moderator udostępnia interfejs API listy terminów z operacjami na potrzeby zarządzania niestandardowymi listami terminów. Zapoznaj się z przewodnikiem Szybki start Listy terminów platformy .NET, jeśli znasz program Visual Studio i język C#.
Następne kroki
Przetestuj interfejsy API za pomocą przewodnika Szybki start.