Udostępnij za pośrednictwem


Kategorie szkód w bezpieczeństwie zawartości usługi Azure AI

W tym przewodniku opisano wszystkie kategorie szkód i oceny używane przez bezpieczeństwo zawartości sztucznej inteligencji platformy Azure do flagowania zawartości. Zarówno tekst, jak i zawartość obrazu używają tego samego zestawu flag.

Kategorie szkód

Bezpieczeństwo zawartości rozpoznaje cztery odrębne kategorie niepożądanej zawartości.

Kategoria opis Termin interfejsu API
Nienawiść i sprawiedliwość Nienawiść i sprawiedliwość szkody odnoszą się do wszelkich treści, które atakują lub używają dyskryminującego języka w odniesieniu do osoby lub grupy tożsamości w oparciu o pewne atrybuty różnicowe tych grup.

Są to między innymi systemy:
  • Rasa, pochodzenie etniczne, narodowość
  • Grupy i wyrażenia tożsamości płci
  • Orientacja seksualna
  • Religia
  • Wygląd osobisty i rozmiar ciała
  • Stan niepełnosprawności
  • Nękanie i zastraszanie
Hate
Seksualny Seksualny opisuje język związany z anatomicznymi narządami i genitaliami, romantycznymi relacjami i aktami seksualnymi, aktami przedstawionymi w erotycznych lub pieszczotliwych warunkach, w tym tych przedstawianych jako napaść lub wymuszony akt przemocy seksualnej przeciwko woli. 

 Obejmuje ona między innymi następujące dokumenty:
  • Wulgarna zawartość
  • Prostytucja
  • Nagość i pornografia
  • Nadużycie
  • Wykorzystywanie dzieci, wykorzystywanie dzieci, pielęgnacja dzieci
Sexual
Przemoc Przemoc opisuje język związany z działaniami fizycznymi mającymi na celu zranienie, uszkodzenie, uszkodzenie lub zabicie kogoś lub coś; opisuje broń, broń i powiązane jednostki.

Obejmuje to, ale nie jest ograniczone do:
  • Broni
  • Zastraszanie i zastraszanie
  • Terroryzm i brutalny ekstremizm
  • Stalking
Violence
Samookaleczenia Samookaleczenia opisuje język związany z działaniami fizycznymi, które mają celowo zaszkodzić, zranić, uszkodzić ciało lub zabić siebie.

Obejmuje to, ale nie jest ograniczone do:
  • Zaburzenia odżywiania
  • Zastraszanie i zastraszanie
SelfHarm

Klasyfikacja może być oznaczona wieloma etykietami. Na przykład gdy przykładowy tekst przechodzi przez model moderowania tekstu, może zostać sklasyfikowany jako zawartość seksualna i przemoc.

Poziomy ważności

Każda kategoria szkody, która ma zastosowanie, ma również klasyfikację poziomu ważności. Poziom ważności ma wskazywać ważność konsekwencji pokazywania oflagowanych zawartości.

Tekst: bieżąca wersja modelu tekstu obsługuje pełną skalę ważności od 0 do 7. Klasyfikator wykrywa wszystkie ważności w tej skali. Jeśli użytkownik określi, może zwrócić ważność w przyciętej skali 0, 2, 4 i 6; każdy z dwóch sąsiednich poziomów jest mapowany na jeden poziom.

  • [0,1] ->0
  • [2,3] ->2
  • [4,5] ->4
  • [6,7] ->6

Obraz: Bieżąca wersja modelu obrazu obsługuje przyciętą wersję pełnej skali ważności od 0 do 7. Klasyfikator zwraca tylko ważności 0, 2, 4 i 6.

  • 0
  • 2
  • 4
  • 6

Obraz z tekstem: bieżąca wersja modelu wielomodalnego obsługuje pełną skalę ważności 0–7. Klasyfikator wykrywa wszystkie ważności w tej skali. Jeśli użytkownik określi, może zwrócić ważność w przyciętej skali 0, 2, 4 i 6; każdy z dwóch sąsiednich poziomów jest mapowany na jeden poziom.

  • [0,1] ->0
  • [2,3] ->2
  • [4,5] ->4
  • [6,7] ->6

Zawartość tekstowa

Ostrzeżenie

Karta Definicje ważności w tym dokumencie zawiera przykłady szkodliwej zawartości, która może być niepokojąca dla niektórych czytelników.

Zawartość obrazu

Ostrzeżenie

Karta Definicje ważności w tym dokumencie zawiera przykłady szkodliwej zawartości, która może być niepokojąca dla niektórych czytelników.

Zawartość wielomodalna (obraz z tekstem)

Ostrzeżenie

Karta Definicje ważności w tym dokumencie zawiera przykłady szkodliwej zawartości, która może być niepokojąca dla niektórych czytelników.

Następne kroki

Postępuj zgodnie z przewodnikiem Szybki start, aby rozpocząć korzystanie z bezpieczeństwa zawartości usługi Azure AI w aplikacji.