Compartilhar via


Segurança de conteúdo no portal da Fábrica de IA do Azure

A IA do Azure Content Safety é um serviço de IA que detecta conteúdo prejudicial gerado por usuários e por IA em aplicativos e serviços. A Segurança de Conteúdo de IA do Azure inclui APIs que permitem detectar e impedir a saída de conteúdo prejudicial. A página interativa segurança de conteúdo experimente-o no portal do Azure AI Foundry permite que você exiba, explore e experimente o código de exemplo para detectar conteúdo prejudicial em diferentes modalidades.

Características

Você pode usar a Segurança de Conteúdo de IA do Azure para os seguintes cenários:

Conteúdo de texto:

  • Moderar conteúdo de texto: este recurso examina e modera o conteúdo de texto, identificando-o e categorizando-o com base em diferentes níveis de gravidade para garantir as respostas apropriadas.
  • Detecção de fundamentação: este filtro determina se as respostas da IA são baseadas em fontes confiáveis fornecidas pelo usuário, garantindo que as respostas sejam "fundamentadas" no material pretendido. A detecção de fundamentação é útil para aumentar a confiabilidade e a precisão factual das respostas.
  • Detecção de material protegido para texto: este recurso identifica material de texto protegido, como letras de música conhecidas, artigos ou outro conteúdo, garantindo que a IA não gere esse conteúdo sem permissão.
  • Detecção de material protegido para código: detecta segmentos de código na saída do modelo que correspondem a código conhecido de repositórios públicos, ajudando a impedir a reprodução não creditada ou não autorizada de código-fonte.
  • Escudos de prompt: este recurso fornece uma API unificada para abordar "Jailbreak" e "Ataques indiretos":
    • Ataques de jailbreak: tentativas dos usuários de manipular a IA para ignorar seus protocolos de segurança ou diretrizes éticas. Exemplos incluem prompts projetados para enganar a IA para dar respostas inadequadas ou executar tarefas que ela foi programada para evitar.
    • Ataques indiretos: também conhecidos como ataques de injeção de prompt entre domínios, os ataques indiretos envolvem a inserção de prompts mal-intencionados em documentos que a IA pode processar. Por exemplo, se um documento contiver instruções ocultas, a IA poderá segui-las inadvertidamente, levando a saídas não intencionais ou não seguras.

Conteúdo de imagem:

  • Moderar conteúdo de imagem: semelhante à moderação de texto, este recurso filtra e avalia o conteúdo de imagem para detectar elementos visuais inadequados ou prejudiciais.
  • Moderar conteúdo multimodal: foi projetado para lidar com uma combinação de texto e imagens, avaliando o contexto geral e quaisquer riscos potenciais em vários tipos de conteúdo.

Personalizar suas categorias:

  • Categorias personalizadas: permite que os usuários definam categorias específicas para moderar e filtrar conteúdo, adaptando protocolos de segurança a necessidades exclusivas.
  • Mensagem do sistema de segurança: fornece um método para configurar uma "Mensagem do sistema" para instruir a IA sobre o comportamento e as limitações desejados, reforçando os limites de segurança e ajudando a evitar saídas indesejadas.

Entender as categorias de danos

Categorias de danos

Categoria Descrição Termo da API
Ódio e imparcialidade Danos relacionados ao ódio e à imparcialidade referem-se a qualquer conteúdo que ataque ou use linguagem discriminatória com referência a uma pessoa ou grupo de identidade com base em certos atributos de diferenciação desses grupos.

Isto inclui, mas não está limitado a:
  • Raça, etnia, nacionalidade
  • Grupos e expressão de identidade de gênero
  • Orientação sexual
  • Religião
  • Aparência pessoal e tamanho do corpo
  • Status de deficiência
  • Assédio e bullying
Hate
Sexual Sexual descreve linguagem relacionada a órgãos anatômicos e genitais, relacionamentos românticos e atos sexuais, atos retratados em termos eróticos ou afetuosos, incluindo aqueles retratados como uma agressão ou um ato violento sexual forçado contra a vontade.

Isso inclui, embora não esteja limitado a:
  • Conteúdo vulgar
  • Prostituição
  • Nudez e pornografia
  • Abuso
  • Exploração, abuso e aliciamento infantil
Sexual
Violência Violência descreve a linguagem relacionada a ações físicas destinadas a ferir, machucar, lesar ou matar alguém ou algo; descreve armas e entidades relacionadas.

Isto inclui, mas não está limitado a:
  • Armas
  • Bullying e intimidação
  • Extremismo terrorista e violento
  • Perseguição
Violence
Automutilação Automutilação refere-se a ações físicas destinadas a ferir, machucar, danificar propositalmente o próprio corpo ou causar a própria morte.

Isto inclui, mas não está limitado a:
  • Distúrbios alimentares
  • Bullying e intimidação
SelfHarm

Níveis de severidade

Nível Descrição
Seguro O conteúdo pode estar relacionado a categorias de violência, automutilação, sexo ou ódio. No entanto, os termos são usados em contextos profissionais gerais, jornalísticos, científicos, médicos e similares, que são apropriados para a maioria dos públicos.
Baixo O conteúdo que expressa pontos de vista preconceituosos, críticos ou opinativos inclui uso ofensivo de linguagem, estereótipos, casos de uso que exploram um mundo fictício (por exemplo, jogos, literatura) e representações em baixa intensidade.
Médio Conteúdo que usa linguagem ofensiva, insultante, zombadora, intimidante ou humilhante em relação a grupos de identidade específicos, inclui representações de busca e execução de instruções prejudiciais, fantasias, glorificação e promoção de danos em média intensidade.
Alto Conteúdos que exibem instruções, ações, danos ou abusos perigosos explícitos e graves; incluem endosso, glorificação ou promoção de atos perigosos graves, formas extremas ou ilegais de danos, radicalização ou troca ou abuso de poder não consensual.

Limitações

Consulte a Visão geral da Segurança de Conteúdo para conhecer as regiões com suporte, os limites de taxa e os requisitos de entrada de todos os recursos. Consulte a página Suporte a idiomas para conhecer os idiomas com suporte.

Próxima etapa

Comece a usar a Segurança de Conteúdo de IA do Azure no portal da Fábrica de IA do Azure seguindo o Guia de instruções.