Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
A IA do Azure Content Safety é um serviço de IA que detecta conteúdo prejudicial gerado por usuários e por IA em aplicativos e serviços. A Segurança de Conteúdo de IA do Azure inclui APIs que permitem detectar e impedir a saída de conteúdo prejudicial. A página interativa segurança de conteúdo experimente-o no portal do Azure AI Foundry permite que você exiba, explore e experimente o código de exemplo para detectar conteúdo prejudicial em diferentes modalidades.
Características
Você pode usar a Segurança de Conteúdo de IA do Azure para os seguintes cenários:
Conteúdo de texto:
- Moderar conteúdo de texto: este recurso examina e modera o conteúdo de texto, identificando-o e categorizando-o com base em diferentes níveis de gravidade para garantir as respostas apropriadas.
- Detecção de fundamentação: este filtro determina se as respostas da IA são baseadas em fontes confiáveis fornecidas pelo usuário, garantindo que as respostas sejam "fundamentadas" no material pretendido. A detecção de fundamentação é útil para aumentar a confiabilidade e a precisão factual das respostas.
- Detecção de material protegido para texto: este recurso identifica material de texto protegido, como letras de música conhecidas, artigos ou outro conteúdo, garantindo que a IA não gere esse conteúdo sem permissão.
- Detecção de material protegido para código: detecta segmentos de código na saída do modelo que correspondem a código conhecido de repositórios públicos, ajudando a impedir a reprodução não creditada ou não autorizada de código-fonte.
- Escudos de prompt: este recurso fornece uma API unificada para abordar "Jailbreak" e "Ataques indiretos":
- Ataques de jailbreak: tentativas dos usuários de manipular a IA para ignorar seus protocolos de segurança ou diretrizes éticas. Exemplos incluem prompts projetados para enganar a IA para dar respostas inadequadas ou executar tarefas que ela foi programada para evitar.
- Ataques indiretos: também conhecidos como ataques de injeção de prompt entre domínios, os ataques indiretos envolvem a inserção de prompts mal-intencionados em documentos que a IA pode processar. Por exemplo, se um documento contiver instruções ocultas, a IA poderá segui-las inadvertidamente, levando a saídas não intencionais ou não seguras.
Conteúdo de imagem:
- Moderar conteúdo de imagem: semelhante à moderação de texto, este recurso filtra e avalia o conteúdo de imagem para detectar elementos visuais inadequados ou prejudiciais.
- Moderar conteúdo multimodal: foi projetado para lidar com uma combinação de texto e imagens, avaliando o contexto geral e quaisquer riscos potenciais em vários tipos de conteúdo.
Personalizar suas categorias:
- Categorias personalizadas: permite que os usuários definam categorias específicas para moderar e filtrar conteúdo, adaptando protocolos de segurança a necessidades exclusivas.
- Mensagem do sistema de segurança: fornece um método para configurar uma "Mensagem do sistema" para instruir a IA sobre o comportamento e as limitações desejados, reforçando os limites de segurança e ajudando a evitar saídas indesejadas.
Entender as categorias de danos
Categorias de danos
Categoria | Descrição | Termo da API |
---|---|---|
Ódio e imparcialidade | Danos relacionados ao ódio e à imparcialidade referem-se a qualquer conteúdo que ataque ou use linguagem discriminatória com referência a uma pessoa ou grupo de identidade com base em certos atributos de diferenciação desses grupos. Isto inclui, mas não está limitado a:
|
Hate |
Sexual | Sexual descreve linguagem relacionada a órgãos anatômicos e genitais, relacionamentos românticos e atos sexuais, atos retratados em termos eróticos ou afetuosos, incluindo aqueles retratados como uma agressão ou um ato violento sexual forçado contra a vontade. Isso inclui, embora não esteja limitado a:
|
Sexual |
Violência | Violência descreve a linguagem relacionada a ações físicas destinadas a ferir, machucar, lesar ou matar alguém ou algo; descreve armas e entidades relacionadas. Isto inclui, mas não está limitado a:
|
Violence |
Automutilação | Automutilação refere-se a ações físicas destinadas a ferir, machucar, danificar propositalmente o próprio corpo ou causar a própria morte. Isto inclui, mas não está limitado a:
|
SelfHarm |
Níveis de severidade
Nível | Descrição |
---|---|
Seguro | O conteúdo pode estar relacionado a categorias de violência, automutilação, sexo ou ódio. No entanto, os termos são usados em contextos profissionais gerais, jornalísticos, científicos, médicos e similares, que são apropriados para a maioria dos públicos. |
Baixo | O conteúdo que expressa pontos de vista preconceituosos, críticos ou opinativos inclui uso ofensivo de linguagem, estereótipos, casos de uso que exploram um mundo fictício (por exemplo, jogos, literatura) e representações em baixa intensidade. |
Médio | Conteúdo que usa linguagem ofensiva, insultante, zombadora, intimidante ou humilhante em relação a grupos de identidade específicos, inclui representações de busca e execução de instruções prejudiciais, fantasias, glorificação e promoção de danos em média intensidade. |
Alto | Conteúdos que exibem instruções, ações, danos ou abusos perigosos explícitos e graves; incluem endosso, glorificação ou promoção de atos perigosos graves, formas extremas ou ilegais de danos, radicalização ou troca ou abuso de poder não consensual. |
Limitações
Consulte a Visão geral da Segurança de Conteúdo para conhecer as regiões com suporte, os limites de taxa e os requisitos de entrada de todos os recursos. Consulte a página Suporte a idiomas para conhecer os idiomas com suporte.
Próxima etapa
Comece a usar a Segurança de Conteúdo de IA do Azure no portal da Fábrica de IA do Azure seguindo o Guia de instruções.