Segurança de conteúdo no portal da Fábrica de IA do Azure

2025-05-31

A IA do Azure Content Safety é um serviço de IA que detecta conteúdo prejudicial gerado por usuários e por IA em aplicativos e serviços. A Segurança de Conteúdo de IA do Azure inclui APIs que permitem detectar e impedir a saída de conteúdo prejudicial. A página interativa segurança de conteúdo experimente-o no portal do Azure AI Foundry permite que você exiba, explore e experimente o código de exemplo para detectar conteúdo prejudicial em diferentes modalidades.

Características

Você pode usar a Segurança de Conteúdo de IA do Azure para os seguintes cenários:

Conteúdo de texto:

Moderar conteúdo de texto: este recurso examina e modera o conteúdo de texto, identificando-o e categorizando-o com base em diferentes níveis de gravidade para garantir as respostas apropriadas.
Detecção de fundamentação: este filtro determina se as respostas da IA são baseadas em fontes confiáveis fornecidas pelo usuário, garantindo que as respostas sejam "fundamentadas" no material pretendido. A detecção de fundamentação é útil para aumentar a confiabilidade e a precisão factual das respostas.
Detecção de material protegido para texto: este recurso identifica material de texto protegido, como letras de música conhecidas, artigos ou outro conteúdo, garantindo que a IA não gere esse conteúdo sem permissão.
Detecção de material protegido para código: detecta segmentos de código na saída do modelo que correspondem a código conhecido de repositórios públicos, ajudando a impedir a reprodução não creditada ou não autorizada de código-fonte.
Escudos de prompt: este recurso fornece uma API unificada para abordar "Jailbreak" e "Ataques indiretos":
- Ataques de jailbreak: tentativas dos usuários de manipular a IA para ignorar seus protocolos de segurança ou diretrizes éticas. Exemplos incluem prompts projetados para enganar a IA para dar respostas inadequadas ou executar tarefas que ela foi programada para evitar.
- Ataques indiretos: também conhecidos como ataques de injeção de prompt entre domínios, os ataques indiretos envolvem a inserção de prompts mal-intencionados em documentos que a IA pode processar. Por exemplo, se um documento contiver instruções ocultas, a IA poderá segui-las inadvertidamente, levando a saídas não intencionais ou não seguras.

Conteúdo de imagem:

Moderar conteúdo de imagem: semelhante à moderação de texto, este recurso filtra e avalia o conteúdo de imagem para detectar elementos visuais inadequados ou prejudiciais.
Moderar conteúdo multimodal: foi projetado para lidar com uma combinação de texto e imagens, avaliando o contexto geral e quaisquer riscos potenciais em vários tipos de conteúdo.

Personalizar suas categorias:

Categorias personalizadas: permite que os usuários definam categorias específicas para moderar e filtrar conteúdo, adaptando protocolos de segurança a necessidades exclusivas.
Mensagem do sistema de segurança: fornece um método para configurar uma "Mensagem do sistema" para instruir a IA sobre o comportamento e as limitações desejados, reforçando os limites de segurança e ajudando a evitar saídas indesejadas.

Entender as categorias de danos

Categorias de danos

Categoria	Descrição	Termo da API
Ódio e imparcialidade	Danos relacionados ao ódio e à imparcialidade referem-se a qualquer conteúdo que ataque ou use linguagem discriminatória com referência a uma pessoa ou grupo de identidade com base em certos atributos de diferenciação desses grupos. Isto inclui, mas não está limitado a: Raça, etnia, nacionalidade Grupos e expressão de identidade de gênero Orientação sexual Religião Aparência pessoal e tamanho do corpo Status de deficiência Assédio e bullying	`Hate`
Sexual	Sexual descreve linguagem relacionada a órgãos anatômicos e genitais, relacionamentos românticos e atos sexuais, atos retratados em termos eróticos ou afetuosos, incluindo aqueles retratados como uma agressão ou um ato violento sexual forçado contra a vontade. Isso inclui, embora não esteja limitado a: Conteúdo vulgar Prostituição Nudez e pornografia Abuso Exploração, abuso e aliciamento infantil	`Sexual`
Violência	Violência descreve a linguagem relacionada a ações físicas destinadas a ferir, machucar, lesar ou matar alguém ou algo; descreve armas e entidades relacionadas. Isto inclui, mas não está limitado a: Armas Bullying e intimidação Extremismo terrorista e violento Perseguição	`Violence`
Automutilação	Automutilação refere-se a ações físicas destinadas a ferir, machucar, danificar propositalmente o próprio corpo ou causar a própria morte. Isto inclui, mas não está limitado a: Distúrbios alimentares Bullying e intimidação	`SelfHarm`

Níveis de severidade

Nível	Descrição
Seguro	O conteúdo pode estar relacionado a categorias de violência, automutilação, sexo ou ódio. No entanto, os termos são usados em contextos profissionais gerais, jornalísticos, científicos, médicos e similares, que são apropriados para a maioria dos públicos.
Baixo	O conteúdo que expressa pontos de vista preconceituosos, críticos ou opinativos inclui uso ofensivo de linguagem, estereótipos, casos de uso que exploram um mundo fictício (por exemplo, jogos, literatura) e representações em baixa intensidade.
Médio	Conteúdo que usa linguagem ofensiva, insultante, zombadora, intimidante ou humilhante em relação a grupos de identidade específicos, inclui representações de busca e execução de instruções prejudiciais, fantasias, glorificação e promoção de danos em média intensidade.
Alto	Conteúdos que exibem instruções, ações, danos ou abusos perigosos explícitos e graves; incluem endosso, glorificação ou promoção de atos perigosos graves, formas extremas ou ilegais de danos, radicalização ou troca ou abuso de poder não consensual.

Limitações

Consulte a Visão geral da Segurança de Conteúdo para conhecer as regiões com suporte, os limites de taxa e os requisitos de entrada de todos os recursos. Consulte a página Suporte a idiomas para conhecer os idiomas com suporte.

Próxima etapa

Comece a usar a Segurança de Conteúdo de IA do Azure no portal da Fábrica de IA do Azure seguindo o Guia de instruções.