Compartilhar via


Conceitos de moderação de texto

Importante

O Content Moderator do Azure foi preterido a partir de fevereiro de 2024 e será desativado em 15 de março de 2027. Ele foi substituído pela Segurança de Conteúdo de IA do Azure, que oferece recursos avançados de IA e desempenho aprimorado.

A Segurança de Conteúdo de IA do Azure é uma solução abrangente projetada para detectar conteúdo gerado pelo usuário prejudicial e gerado por IA em aplicativos e serviços. A Segurança de Conteúdo de IA do Azure é adequada para muitos cenários, como marketplaces online, empresas de jogos, plataformas de mensagens sociais, empresas de mídia corporativa e provedores de soluções de educação K-12. Aqui está uma visão geral de seus recursos e funcionalidades:

  • APIs de detecção de texto e imagem: examina texto e imagens em busca de conteúdo sexual, violência, ódio e automutilação com vários níveis de gravidade.
  • Content Safety Studio: uma ferramenta online projetada para lidar com conteúdo potencialmente ofensivo, arriscado ou indesejável usando nossos mais recentes modelos de ML de moderação de conteúdo. Ele fornece modelos e fluxos de trabalho personalizados que permitem aos usuários criar seus próprios sistemas de moderação de conteúdo.
  • Suporte a idiomas: a Segurança de Conteúdo do IA do Azure dá suporte a mais de 100 idiomas e é especificamente treinado em inglês, alemão, japonês, espanhol, francês, italiano, português e chinês.

A Segurança de Conteúdo de IA do Azure fornece uma solução robusta e flexível para suas necessidades de moderação de conteúdo. Ao alternar do Content Moderator para a Segurança de Conteúdo de IA do Azure, você pode aproveitar as ferramentas e tecnologias mais recentes para garantir que seu conteúdo seja sempre moderado às suas especificações exatas.

Saiba mais sobre a Segurança de Conteúdo de IA do Azure e explore como ela pode elevar sua estratégia de moderação de conteúdo.

Você pode usar os modelos de moderação de texto do Azure Content Moderator para analisar o conteúdo de texto, como salas de chat, quadros de discussão, chatbots, catálogos de comércio eletrônico e documentos.

A resposta de serviço inclui as informações a seguir:

  • Conteúdo ofensivo: correspondência baseada em termos com lista interna de termos ofensivos em vários idiomas
  • Classificação: classificação assistida por computador em três categorias
  • Dados pessoais
  • Texto corrigido automaticamente
  • Texto original
  • Idioma

Conteúdo ofensivo

Se a API detectar termos ofensivos em qualquer um dos idiomas com suporte, esses termos serão incluídos na resposta. A resposta também contém a localização (Index) no texto original. O ListId no JSON de exemplo a seguir refere-se a termos encontrados em listas de termos personalizados, se disponíveis.

"Terms": [
    {
        "Index": 118,
        "OriginalIndex": 118,
        "ListId": 0,
        "Term": "<offensive word>"
    }

Observação

Para o parâmetro language, atribua eng ou deixe vazio para ver a resposta de classificação assistida por computador (versão prévia do recurso). Esse recurso dá suporte ao inglês apenas.

Para a detecção de termos obscenos, use o código ISO 639-3 dos idiomas com suporte listados neste artigo ou deixe vazio.

classificação

O recurso de classificação de texto assistido por computador do Content Moderator suporta somente inglês e ajuda a detectar conteúdo potencialmente indesejado. O conteúdo sinalizado pode ser avaliado como inadequado, dependendo do contexto. Ele transmite a probabilidade de cada categoria. O recurso usa um modelo treinado para identificar possível linguagem abusiva, depreciativa ou discriminatória. Isso inclui gírias, palavras abreviadas, palavras ofensivas e intencionalmente incorretas.

A extração a seguir na extração JSON mostra uma saída de exemplo:

"Classification": {
    "ReviewRecommended": true,
    "Category1": {
        "Score": 1.5113095059859916E-06
    },
    "Category2": {
        "Score": 0.12747249007225037
    },
    "Category3": {
        "Score": 0.98799997568130493
    }
}

Explicação

  • Category1 refere-se à presença potencial de linguagem que pode ser considerada sexualmente explícita ou para adultos em determinadas situações.
  • Category2 refere-se à presença potencial de linguagem que pode ser considerada sexualmente sugestiva ou para adulto em determinadas situações.
  • Category3 refere-se à potencial presença de linguagem que pode ser considerada ofensiva em determinadas situações.
  • Score fica entre 0 e 1. Quanto maior a pontuação, maior a probabilidade de que a categoria pode ser aplicável. Esse recurso se baseia em um modelo estatístico, em vez dos resultados codificados manualmente. É recomendável testar com seu próprio conteúdo para determinar como cada categoria se alinha com seus requisitos.
  • ReviewRecommended é verdadeiro ou falso, dependendo dos limites internos da pontuação. Os clientes devem avaliar se é para usar esse valor ou escolher limites personalizados com base nas políticas de conteúdo.

Dados pessoais

O recurso de dados pessoais detecta a possível presença dessas informações:

  • Endereço de email
  • Endereço postal dos EUA
  • Endereço IP
  • Número de telefone dos EUA

O exemplo a seguir mostra uma resposta de exemplo:

"pii":{
  "email":[
      {
        "detected":"abcdef@abcd.com",
        "sub_type":"Regular",
        "text":"abcdef@abcd.com",
        "index":32
      }
  ],
  "ssn":[

  ],
  "ipa":[
      {
        "sub_type":"IPV4",
        "text":"255.255.255.255",
        "index":72
      }
  ],
  "phone":[
      {
        "country_code":"US",
        "text":"6657789887",
        "index":56
      }
  ],
  "address":[
      {
        "text":"1 Microsoft Way, Redmond, WA 98052",
        "index":89
      }
  ]
}

Correção automática

Opcionalmente, a resposta da moderação de texto pode retornar o texto com correção automática básica aplicada.

Por exemplo, o texto de entrada a seguir tem um erro de ortografia.

A rápida raposa marrom pula sobre o cachorro preguiçoso.

Se você especificar a correção automática, a resposta conterá a versão corrigida do texto:

A raposa marrom rápida pula sobre o cão preguiçoso.

Criar e gerenciar listas de termos personalizadas

Embora a lista global de termos padrão funcione muito bem na maioria dos casos, convém filtrar os termos que são específicos para as necessidades da sua empresa. Por exemplo, é possível querer filtrar qualquer marca competitiva das postagens dos usuários.

Observação

Há um limite máximo de 5 listas de termos com cada lista para não exceder 10.000 termos.

O exemplo a seguir mostra a ID da lista correspondente:

"Terms": [
    {
        "Index": 118,
        "OriginalIndex": 118,
        "ListId": 231.
        "Term": "<offensive word>"
    }

O Content Moderator fornece uma API de Lista de Termos com operações para gerenciar listas de termos personalizadas. Confira o Início rápido do .NET das Listas de Termos se você estiver familiarizado com o Visual Studio e o C#.