Categorias personalizadas

Artigo
09/02/2024

O Azure AI Content Safety permite-lhe criar e gerir as suas próprias categorias de moderação de conteúdo para uma moderação e filtragem melhoradas que correspondam às suas políticas ou casos de utilização específicos.

Tipos de personalização

Há várias maneiras de definir e usar categorias personalizadas, que são detalhadas e comparadas nesta seção.

API	Caraterística
API de categorias personalizadas (padrão)	Use um modelo de aprendizado de máquina personalizável para criar, obter, consultar e excluir uma categoria personalizada. Ou liste todas as suas categorias personalizadas para outras tarefas de anotação.
API de categorias personalizadas (rápidas)	Use um modelo de linguagem grande (LLM) para aprender rapidamente padrões de conteúdo específicos em incidentes de conteúdo emergentes.

API de categorias personalizadas (padrão)

A API de categorias personalizadas (padrão) permite que os clientes definam categorias específicas para suas necessidades, forneçam dados de exemplo, treinem um modelo de aprendizado de máquina personalizado e o usem para classificar novos conteúdos de acordo com as categorias aprendidas.

Este é o fluxo de trabalho padrão para personalização com modelos de aprendizado de máquina. Dependendo da qualidade dos dados de treinamento, ele pode atingir níveis de desempenho muito bons, mas pode levar até várias horas para treinar o modelo.

Esta implementação funciona em conteúdo de texto, não em conteúdo de imagem.

API de categorias personalizadas (rápidas)

A API de categorias personalizadas (rápida) foi projetada para ser mais rápida e flexível do que o método padrão. Destina-se a ser usado para identificar, analisar, conter, erradicar e recuperar de incidentes cibernéticos que envolvam conteúdo impróprio ou prejudicial em plataformas online.

Um incidente pode envolver um conjunto de padrões de conteúdo emergentes (texto, imagem ou outras modalidades) que violam as diretrizes da comunidade Microsoft ou as próprias políticas e expectativas dos clientes. Esses incidentes precisam ser mitigados de forma rápida e precisa para evitar possíveis problemas no site ativo ou danos aos usuários e comunidades.

Esta implementação funciona em conteúdo de texto e conteúdo de imagem.

Gorjeta

Uma maneira de lidar com incidentes de conteúdo emergentes é usar listas de bloqueio, mas isso só permite a correspondência exata de texto e nenhuma correspondência de imagem. A API de categorias personalizadas (rápida) oferece os seguintes recursos avançados:

Correspondência semântica de texto usando a incorporação da pesquisa com um classificador leve
Correspondência de imagem com um modelo leve de rastreamento de objetos e pesquisa de incorporação.

Como funciona

API de categorias personalizadas (padrão)
API de categorias personalizadas (rápidas)

O recurso de categoria personalizada Segurança de Conteúdo do Azure AI usa um processo de várias etapas para criar, treinar e usar modelos de classificação de conteúdo personalizados. Aqui está uma olhada no fluxo de trabalho:

Passo 1: Definição e configuração

Ao definir uma categoria personalizada, você precisa ensinar à IA que tipo de conteúdo você deseja identificar. Isso envolve fornecer um nome de categoria claro e uma definição detalhada que encapsula as características do conteúdo.

Em seguida, você coleta um conjunto de dados equilibrado com exemplos positivos e (opcionalmente) negativos para ajudar a IA a aprender as nuances da sua categoria. Esses dados devem ser representativos da variedade de conteúdo que o modelo encontrará em um cenário do mundo real.

Passo 2: Modelo de formação

Depois de preparar seu conjunto de dados e definir categorias, o serviço Azure AI Content Safety treina um novo modelo de aprendizado de máquina. Este modelo usa suas definições e o conjunto de dados carregado para executar o aumento de dados usando um modelo de linguagem grande. Como resultado, o conjunto de dados de treinamento torna-se maior e de maior qualidade. Durante o treinamento, o modelo de IA analisa os dados e aprende a diferenciar entre o conteúdo que se alinha com a categoria especificada e o conteúdo que não se alinha.

Etapa 3: Inferência do modelo

Após o treinamento, você precisa avaliar o modelo para garantir que ele atenda aos seus requisitos de precisão. Teste o modelo com conteúdo novo que ele não recebeu antes. A fase de avaliação ajuda a identificar possíveis ajustes necessários para implantar o modelo em um ambiente de produção.

Etapa 4: Uso do modelo

Use a API analyzeCustomCategory para analisar o conteúdo de texto e determinar se ele corresponde à categoria personalizada que você definiu. O serviço retornará um booleano indicando se o conteúdo está alinhado com a categoria especificada

Limitações

Disponibilidade do idioma

As APIs de categorias personalizadas suportam todos os idiomas suportados pela moderação de texto de Segurança de Conteúdo. Veja Suporte de idioma.

Limitações de entrada

API de categorias personalizadas (padrão)
API de categorias personalizadas (rápidas)

Consulte a tabela a seguir para obter as limitações de entrada da API de categorias personalizadas (padrão):

Object	Limitação
Idiomas suportados	Apenas em inglês
Número de categorias por utilizador	3
Número de versões por categoria	3
Número de compilações simultâneas (processos) por categoria	1
Operações de inferência por segundo	5
Número de amostras numa versão de categoria	Amostras positivas (exigidas): mínimo 50, máximo 5K No total (amostras negativas e positivas): 10K Não são permitidas amostras duplicadas.
Tamanho do arquivo de exemplo	máximo 128000 bytes
Comprimento de uma amostra de texto	máximo de 125K caracteres
Comprimento de uma definição de categoria	máximo 1000 caracteres
Comprimento do nome de uma categoria	máximo 128 caracteres
Comprimento de um url de blob	máximo 500 caracteres

Consulte a tabela a seguir para obter as limitações de entrada da API de categorias personalizadas (rápida):

Object	Limitação
Comprimento máximo do nome de um incidente	100 caracteres
Número máximo de amostras de texto/imagem por incidente	1000
Dimensão máxima de cada amostra	Texto: 500 caracteres Imagem: 4 MB
Número máximo de incidentes de texto ou imagem por recurso	100
Formatos de imagem suportados	BMP, GIF, JPEG, PNG, TIF, WEBP

Disponibilidade da região

Para usar essas APIs, você deve criar seu recurso de Segurança de Conteúdo do Azure AI em uma das regiões com suporte. Consulte Disponibilidade da região.

Próximos passos

Siga um guia de instruções para usar as APIs de Segurança de Conteúdo do Azure AI para criar categorias personalizadas.

Partilhar via