Visão geral da filtragem de conteúdo

2025-07-02

O Azure OpenAI inclui um sistema de filtragem de conteúdo que funciona em conjunto com modelos principais, incluindo modelos de geração de imagens. Este sistema funciona executando tanto o prompt quanto a conclusão através de um conjunto de modelos de classificação projetados para detetar e prevenir a produção de conteúdo nocivo. O sistema de filtragem de conteúdo deteta e age em categorias específicas de conteúdo potencialmente nocivo em prompts de entrada e finalizações de saída. Variações nas configurações de API e no design do aplicativo podem afetar as finalizações e, portanto, o comportamento de filtragem.

Importante

O sistema de filtragem de conteúdo não é aplicado a prompts e conclusões processados pelos modelos de áudio, como Whisper no Azure OpenAI no Azure AI Foundry Models. Saiba mais sobre os modelos de áudio no Azure OpenAI.

Além do sistema de filtragem de conteúdo, o Azure OpenAI realiza monitoramento para detetar conteúdo e/ou comportamentos que sugerem o uso do serviço de uma maneira que pode violar os termos do produto aplicáveis. Para obter mais informações sobre como compreender e mitigar os riscos associados ao seu aplicativo, consulte a Nota de Transparência para o Azure OpenAI. Para obter mais informações sobre como os dados são processados para filtragem de conteúdo e monitoramento de abuso, consulte Dados, privacidade e segurança para o Azure OpenAI.

Os artigos desta seção fornecem informações sobre as categorias de filtragem de conteúdo, os níveis de severidade de filtragem e sua configurabilidade e cenários de API a serem considerados no design e implementação de aplicativos.

Observação

Nenhum prompt ou conclusão é armazenado para fins de filtragem de conteúdo. Nenhuma solicitação ou conclusão é utilizada para treinar, re-treinar ou melhorar o sistema de filtragem de conteúdo sem o seu consentimento. Para obter mais informações, consulte Dados, privacidade e segurança.

Tipos de filtro de conteúdo

O sistema de filtragem de conteúdo integrado no Azure OpenAI contém:

Modelos neurais de classificação multiclasse destinados a detetar e filtrar conteúdos nocivos; Os modelos abrangem quatro categorias (ódio, sexual, violência e automutilação) em quatro níveis de gravidade (seguro, baixo, médio e alto). O conteúdo detectado no nível de gravidade "seguro" é identificado em anotações, mas não está sujeito a filtragem e não é configurável.
Outros modelos de classificação opcionais destinados a detetar o risco de jailbreak e conteúdo conhecido para texto e código; Esses modelos são classificadores binários que sinalizam se o comportamento do usuário ou do modelo se qualifica como um ataque de jailbreak ou corresponde ao texto conhecido ou ao código-fonte. O uso desses modelos é opcional, mas o uso de modelo de código de material protegido pode ser necessário para a cobertura do Compromisso de Direitos Autorais do Cliente.

Categorias de filtros

A tabela a seguir resume as categorias de risco suportadas pelo sistema de filtragem de conteúdo do Azure OpenAI.

Categoria	Descrição
Ódio e justiça	Os danos relacionados ao ódio e à equidade referem-se a qualquer conteúdo que ataque ou use linguagem discriminatória com referência a uma pessoa ou grupo de identidade com base em certos atributos diferenciadores desses grupos. Isto inclui, mas não está limitado a: Raça, etnia, nacionalidade Grupos e expressão de identidade de género Orientação sexual Religião Aparência pessoal e tamanho do corpo Estatuto de deficiência Assédio e intimidação
Sexual	Sexual descreve linguagem relacionada a órgãos anatômicos e genitais, relacionamentos românticos e atos sexuais, atos retratados em termos eróticos ou afetuosos, incluindo aqueles retratados como uma agressão ou um ato sexual violento forçado contra a vontade.   Isto inclui, mas não está limitado a: Conteúdo vulgar Prostituição Nudez e pornografia Abuso Exploração infantil, abuso de crianças, aliciamento de crianças
Violência	A violência descreve a linguagem relacionada a ações físicas destinadas a ferir, ferir, danificar ou matar alguém ou algo; descreve armas, armas e entidades relacionadas. Isso inclui, mas não está limitado a: Armas Bullying e intimidação Extremismo terrorista e violento Perseguição
Automutilação	Automutilação descreve a linguagem relacionada com ações físicas destinadas a ferir, magoar ou danificar propositadamente o corpo, ou levar ao suicídio. Isso inclui, mas não está limitado a: Transtornos Alimentares Bullying e intimidação
Ataques de prompt do usuário	Os ataques de solicitação de utilizador são Solicitações de Utilizador projetadas para provocar a IA Generativa a exibir comportamentos que foi treinada para evitar ou para quebrar as regras definidas na Mensagem do Sistema. Estes ataques podem variar desde encenações complexas até à subversão do objetivo de segurança de forma subtil.
Ataques indiretos	Os Ataques Indiretos, também conhecidos como Ataques Imediatos Indiretos ou Ataques de Injeção Imediata entre Domínios, são uma vulnerabilidade potencial em que terceiros colocam instruções maliciosas dentro de documentos que o sistema de IA Generativa pode acessar e processar. Requer incorporação e formatação de documentos.
Estabilidade²	A deteção de fundamentação sinaliza se as respostas de texto dos modelos de linguagem de grande escala (LLMs) estão fundamentadas nos materiais de origem fornecidos pelos utilizadores. Material não fundamentado refere-se a casos em que os LLMs produzem informações que não são factuais ou imprecisas a partir do que estava presente nos materiais de origem. Requer incorporação e formatação de documentos.
Material protegido para texto¹	O texto de material protegido descreve o conteúdo de texto conhecido (por exemplo, letras de músicas, artigos, receitas e conteúdo da Web selecionado) que pode ser gerado por modelos de linguagem grandes.
Material protegido para código	O código de material protegido descreve o código-fonte que corresponde a um conjunto de código-fonte de repositórios públicos, que pode ser gerado por modelos de linguagem grandes sem a citação adequada de repositórios de código-fonte.
Informações de identificação pessoal (PII)	Informações de identificação pessoal (PII) referem-se a qualquer informação que possa ser usada para identificar um indivíduo em particular. A deteção de PII envolve a análise do conteúdo de texto em finalizações LLM e a filtragem de qualquer PII retornada.

1 Se você for proprietário de material de texto e quiser enviar conteúdo de texto para proteção, faça uma solicitação.

2 Não disponível em cenários sem streaming, disponível apenas para cenários de streaming. As seguintes regiões oferecem suporte à Deteção de Aterramento: Central dos EUA, Leste dos EUA, França Central e Leste do Canadá

Detalhes do cenário

Quando o sistema de filtragem de conteúdo deteta conteúdo nocivo, recebe um erro na chamada à API se o aviso for considerado inadequado ou o finish_reason da resposta será content_filter para indicar que parte da conclusão foi filtrada. Ao criar seu aplicativo ou sistema, convém levar em conta esses cenários em que o conteúdo retornado pela API de Conclusão é filtrado, o que pode resultar em conteúdo incompleto. A forma como você age com base nessas informações será específica do aplicativo. O comportamento pode ser resumido nos seguintes pontos:

Os pedidos de execução classificados numa categoria filtrada e nível de severidade irão devolver um erro HTTP 400.
Chamadas de conclusão que não utilizam streaming não retornarão nenhum conteúdo quando o conteúdo for filtrado. O finish_reason valor é definido como content_filter. Em casos raros com respostas mais longas, um resultado parcial pode ser retornado. Nestes casos, o finish_reason é atualizado.
Para chamadas de conclusão de streaming, os segmentos são devolvidos ao usuário à medida que são concluídos. O serviço continua a transmissão até atingir um token de parada, um limite de comprimento ou quando é detetado conteúdo classificado numa categoria filtrada e nível de gravidade.