Udostępnij za pośrednictwem


Kategorie szkód w usłudze Azure AI Content Sejf ty

W tym przewodniku opisano wszystkie kategorie szkód i klasyfikacje używane przez zawartość sztucznej inteligencji platformy Azure Sejf ty do flagowania zawartości. Zarówno tekst, jak i zawartość obrazu używają tego samego zestawu flag.

Kategorie szkód

Zawartość Sejf ty rozpoznaje cztery odrębne kategorie niepożądanej zawartości.

Kategoria opis
Nienawiść i sprawiedliwość Szkody związane z nienawiścią i sprawiedliwością odnoszą się do wszelkich treści, które atakują lub używają języka pejoratywnego lub dyskryminującego w odniesieniu do osoby lub grupy tożsamości w oparciu o pewne atrybuty wyróżniające tych grup, w tym rasę, pochodzenie etniczne, narodowość, tożsamość płci i wyrażenie, orientację seksualną, orientację seksualną, religię, status imigracyjny, status zdolności, wygląd osobisty i rozmiar ciała.

Sprawiedliwość dotyczy zapewnienia, że systemy sztucznej inteligencji traktują wszystkie grupy ludzi sprawiedliwie bez przyczyniania się do istniejących nierówności społecznych. Podobnie jak w przypadku mowy nienawiści, szkody związane z sprawiedliwością zależą od różnego traktowania grup tożsamości.
Seksualne Język opisów seksualnych związanych z anatomicznymi narządami i genitaliami, romantycznymi relacjami, aktami przedstawionymi w kategoriach erotycznych lub pieszczotliwych, ciąży, fizycznych aktów seksualnych, w tym tych przedstawianych jako napaść lub wymuszony akt przemocy seksualnej przeciwko woli, prostytucji, pornografii i nadużyć.
Przemocy Przemoc opisuje język związany z działaniami fizycznymi mającymi na celu zranienie, uszkodzenie, uszkodzenie lub zabicie kogoś lub coś; opisuje broń, broń i powiązane jednostki, takie jak produkcje, stowarzyszenia, ustawodawstwo itd.
Samookaleczenia Samookaleczenia opisuje język związany z działaniami fizycznymi, które mają celowo zaszkodzić, zranić, uszkodzić ciało lub zabić siebie.

Klasyfikacja może być oznaczona wieloma etykietami. Na przykład gdy przykładowy tekst przechodzi przez model moderowania tekstu, może zostać sklasyfikowany jako zawartość seksualna i przemoc.

Poziomy ważności

Każda kategoria szkody, która ma zastosowanie, ma również klasyfikację poziomu ważności. Poziom ważności ma wskazywać ważność konsekwencji pokazywania oflagowanych zawartości.

Tekst: bieżąca wersja modelu tekstu obsługuje pełną skalę ważności od 0 do 7. Klasyfikator wykrywa wszystkie ważności w tej skali. Jeśli użytkownik określi, może zwrócić ważność w przyciętej skali 0, 2, 4 i 6; każdy z dwóch sąsiednich poziomów jest mapowany na jeden poziom.

  • [0,1] -> 0
  • [2,3] -> 2
  • [4,5] -> 4
  • [6,7] -> 6

Obraz: Bieżąca wersja modelu obrazu obsługuje przyciętą wersję pełnej skali ważności od 0 do 7. Klasyfikator zwraca tylko ważności 0, 2, 4 i 6; każdy z dwóch sąsiednich poziomów jest mapowany na jeden poziom.

  • [0,1] -> 0
  • [2,3] -> 2
  • [4,5] -> 4
  • [6,7] -> 6

Zawartość tekstowa

Ostrzeżenie

Karta Definicje ważności w tym dokumencie zawiera przykłady szkodliwej zawartości, która może być niepokojąca dla niektórych czytelników.

Zawartość obrazu

Ostrzeżenie

Karta Definicje ważności w tym dokumencie zawiera przykłady szkodliwej zawartości, która może być niepokojąca dla niektórych czytelników.

Następne kroki

Postępuj zgodnie z przewodnikiem Szybki start, aby rozpocząć korzystanie z usługi Azure AI Content Sejf ty w aplikacji.