Filtragem de conteúdo no Azure AI Studio

Artigo
09/01/2024

Importante

Alguns dos recursos descritos neste artigo podem estar disponíveis apenas na visualização. Essa visualização é fornecida sem um contrato de nível de serviço e não a recomendamos para cargas de trabalho de produção. Algumas funcionalidades poderão não ser suportadas ou poderão ter capacidades limitadas. Para obter mais informações, veja Termos Suplementares de Utilização para Pré-visualizações do Microsoft Azure.

O Azure AI Studio inclui um sistema de filtragem de conteúdo que funciona em conjunto com modelos principais e modelos de geração de imagens DALL-E.

Importante

O sistema de filtragem de conteúdo não é aplicado a prompts e conclusões processadas pelo modelo Whisper no Serviço Azure OpenAI. Saiba mais sobre o modelo Whisper no Azure OpenAI.

Como funciona

Este sistema de filtragem de conteúdo é alimentado pelo Azure AI Content Safety e funciona executando a entrada de prompt e a saída de conclusão por meio de um conjunto de modelos de classificação destinados a detetar e prevenir a saída de conteúdo nocivo. As variações nas configurações da API e na conceção da aplicação podem afetar as conclusões e, consequentemente, o comportamento de filtragem.

Com implantações de modelo OpenAI do Azure, você pode usar o filtro de conteúdo padrão ou criar seu próprio filtro de conteúdo (descrito mais adiante). O filtro de conteúdo padrão também está disponível para outros modelos de texto selecionados pela IA do Azure no catálogo de modelos, mas os filtros de conteúdo personalizados ainda não estão disponíveis para esses modelos. Os modelos disponíveis por meio do Models as a Service têm a filtragem de conteúdo habilitada por padrão e não podem ser configurados.

Suporte de idiomas

Os modelos de filtragem de conteúdos foram treinados e testados nas seguintes línguas: Inglês, alemão, japonês, espanhol, francês, italiano, português e chinês. No entanto, o serviço pode funcionar em muitas outras línguas, mas a qualidade pode variar. Em todos os casos, deve efetuar os seus próprios testes para garantir que funciona para a sua aplicação.

Criar um filtro de conteúdo

Para qualquer implantação de modelo no Azure AI Studio, você pode usar diretamente o filtro de conteúdo padrão, mas talvez queira ter mais controle. Por exemplo, você pode tornar um filtro mais rigoroso ou mais brando, ou habilitar recursos mais avançados, como escudos rápidos e deteção de material protegido.

Siga estas etapas para criar um filtro de conteúdo:

Vá para o AI Studio e navegue até o hub. Em seguida, selecione a guia Filtros de conteúdo no painel de navegação esquerdo e selecione o botão Criar filtro de conteúdo.
Na página Informações básicas, insira um nome para o filtro de conteúdo. Selecione uma conexão para associar ao filtro de conteúdo. Em seguida, selecione Seguinte.
Na página Filtros de entrada, você pode definir o filtro para o prompt de entrada. Defina o limite de ação e nível de severidade para cada tipo de filtro. Você configura os filtros padrão e outros filtros (como Prompt Shields para ataques de jailbreak) nesta página. Em seguida, selecione Seguinte.

O conteúdo será anotado por categoria e bloqueado de acordo com o limite definido. Para as categorias violência, ódio, sexual e automutilação, ajuste o controle deslizante para bloquear conteúdo de alta, média ou baixa gravidade.
Na página Filtros de saída, você pode configurar o filtro de saída, que será aplicado a todo o conteúdo de saída gerado pelo seu modelo. Configure os filtros individuais como antes. Esta página também fornece a opção Modo de streaming, que permite filtrar o conteúdo quase em tempo real à medida que é gerado pelo modelo, reduzindo a latência. Quando terminar, selecione Avançar.

O conteúdo será anotado por cada categoria e bloqueado de acordo com o limite. Para conteúdo violento, conteúdo de ódio, conteúdo sexual e categoria de conteúdo de automutilação, ajuste o limite para bloquear conteúdo prejudicial com níveis de gravidade iguais ou superiores.
Opcionalmente, na página Implantação , você pode associar o filtro de conteúdo a uma implantação. Se uma implantação selecionada já tiver um filtro anexado, você deverá confirmar que deseja substituí-la. Você também pode associar o filtro de conteúdo a uma implantação mais tarde. Selecione Criar.

As configurações de filtragem de conteúdo são criadas no nível do hub no AI Studio. Saiba mais sobre a configurabilidade nos documentos do Azure OpenAI.
Na página Revisão, revise as configurações e selecione Criar filtro.

Usar uma lista de bloqueio como filtro

Você pode aplicar uma lista de bloqueio como um filtro de entrada ou saída, ou ambos. Habilite a opção Lista de bloqueio na página Filtro de entrada e/ou Filtro de saída. Selecione uma ou mais listas de bloqueio na lista suspensa ou use a lista de bloqueio de palavrões interna. Você pode combinar várias listas de bloqueio no mesmo filtro.

Aplicar um filtro de conteúdo

O processo de criação do filtro oferece a opção de aplicar o filtro às implantações desejadas. Você também pode alterar ou remover filtros de conteúdo de suas implantações a qualquer momento.

Siga estas etapas para aplicar um filtro de conteúdo a uma implantação:

Vá para AI Studio e selecione um projeto.
Selecione Implantações e escolha uma de suas implantações e, em seguida, selecione Editar.
Na janela Atualizar implantação, selecione o filtro de conteúdo que você deseja aplicar à implantação.

Agora, você pode ir ao playground para testar se o filtro de conteúdo funciona conforme o esperado.

Categorias

Categoria	Description
Ódio	A categoria de ódio descreve ataques ou usos linguísticos que incluem linguagem pejorativa ou discriminatória com referência a uma pessoa ou grupo de identidade com base em certos atributos diferenciadores desses grupos, incluindo, entre outros, raça, etnia, nacionalidade, identidade e expressão de gênero, orientação sexual, religião, status de imigração, status de habilidade, aparência pessoal e tamanho do corpo.
Sexual	A categoria sexual descreve linguagem relacionada a órgãos anatômicos e genitais, relacionamentos românticos, atos retratados em termos eróticos ou afetivos, atos sexuais físicos, incluindo aqueles retratados como uma agressão ou um ato sexual violento forçado contra a vontade, prostituição, pornografia e abuso.
Violência	A categoria violência descreve a linguagem relacionada a ações físicas destinadas a ferir, ferir, danificar ou matar alguém ou algo; descreve armas, etc.
Automutilação	A categoria de automutilação descreve a linguagem relacionada a ações físicas destinadas a ferir, ferir ou danificar propositalmente o corpo, ou matar-se.

Níveis de severidade

Categoria	Description
Safe	O conteúdo pode estar relacionado a categorias de violência, automutilação, sexual ou ódio, mas os termos são usados em contextos profissionais gerais, jornalísticos, científicos, médicos e similares, que são apropriados para a maioria dos públicos.
Baixo	Conteúdo que expressa opiniões preconceituosas, preconceituosas ou opinativas, inclui uso ofensivo de linguagem, estereótipos, casos de uso explorando um mundo fictício (por exemplo, jogos, literatura) e representações em baixa intensidade.
Médio	O conteúdo que usa linguagem ofensiva, insultuosa, zombeteira, intimidadora ou humilhante em relação a grupos de identidade específicos, inclui representações de busca e execução de instruções prejudiciais, fantasias, glorificação, promoção de danos em intensidade média.
Alto	Conteúdo que exiba instruções, ações, danos ou abuso prejudiciais explícitos e graves; inclui endosso, glorificação ou promoção de atos prejudiciais graves, formas extremas ou ilegais de dano, radicalização ou troca ou abuso de poder não consensual.

Configurabilidade (pré-visualização)

A configuração de filtragem de conteúdo padrão para a série de modelos GPT é definida para filtrar no limite de gravidade média para todas as quatro categorias de dano de conteúdo (ódio, violência, sexual e automutilação) e se aplica a prompts (texto, texto/imagem multimodal) e conclusão (texto). Isso significa que o conteúdo detetado no nível de gravidade médio ou alto é filtrado, enquanto o conteúdo detetado no nível de gravidade baixo não é filtrado pelos filtros de conteúdo. Para DALL-E, o limite de gravidade padrão é definido como baixo para prompts (texto) e finalizações (imagens), portanto, o conteúdo detetado em níveis de gravidade baixo, médio ou alto é filtrado.

O recurso de configurabilidade permite que os clientes ajustem as configurações, separadamente para prompts e conclusão, para filtrar o conteúdo de cada categoria de conteúdo em diferentes níveis de gravidade, conforme descrito na tabela abaixo:

Severidade filtrada	Configurável para prompts	Configurável para finalizações	Descrições
Baixa, média, alta	Sim	Sim	Configuração de filtragem mais rigorosa. O conteúdo detetado nos níveis de gravidade baixo, médio e alto é filtrado.
Médio, alto	Sim	Sim	O conteúdo detetado no nível de gravidade baixo não é filtrado, o conteúdo em médio e alto é filtrado.
Alto	Sim	Sim	O conteúdo detetado nos níveis de gravidade baixo e médio não é filtrado. Apenas o conteúdo com nível de severidade alto é filtrado. Requer aprovação¹.
Sem filtros	Se aprovado¹	Se aprovado¹	Nenhum conteúdo é filtrado, independentemente do nível de gravidade detetado. Requer aprovação¹.

1 Para modelos do Azure OpenAI, apenas os clientes que foram aprovados para filtragem de conteúdo modificado têm controle total de filtragem de conteúdo, incluindo a configuração de filtros de conteúdo em nível de gravidade alto ou a desativação de filtros de conteúdo. Candidatar-se a filtros de conteúdo modificados através deste formulário: Revisão de Acesso Limitado do Azure OpenAI: Filtros de Conteúdo Modificado e Monitorização de Abuso (microsoft.com)

Os clientes são responsáveis por garantir que os aplicativos que integram o Azure OpenAI estejam em conformidade com o Código de Conduta.

Outros filtros de entrada

Você também pode habilitar filtros especiais para cenários de IA generativa:

Ataques de Jailbreak: Os Ataques de Jailbreak são Prompts do Usuário projetados para provocar o modelo de IA Generativa a exibir comportamentos que foi treinado para evitar ou quebrar as regras definidas na Mensagem do Sistema.
Ataques Indiretos: Os Ataques Indiretos, também conhecidos como Ataques Imediatos Indiretos ou Ataques de Injeção Imediata entre Domínios, são uma vulnerabilidade potencial em que terceiros colocam instruções maliciosas dentro de documentos que o sistema de IA Generativa pode acessar e processar.

Outros filtros de saída

Você também pode ativar os seguintes filtros de saída especiais:

Material protegido para texto: o texto de material protegido descreve o conteúdo de texto conhecido (por exemplo, letras de músicas, artigos, receitas e conteúdo da Web selecionado) que pode ser gerado por modelos de linguagem grandes.
Material protegido para código: O código de material protegido descreve o código-fonte que corresponde a um conjunto de código-fonte de repositórios públicos, que pode ser gerado por modelos de linguagem grandes sem a citação adequada de repositórios de origem.
Aterramento: O filtro de deteção de aterramento deteta se as respostas de texto de modelos de linguagem grande (LLMs) estão fundamentadas nos materiais de origem fornecidos pelos usuários.

Próximos passos

Saiba mais sobre os modelos subjacentes que alimentam o Azure OpenAI.
A filtragem de conteúdo do Azure AI Studio é alimentada pela Segurança de Conteúdo do Azure AI.
Saiba mais sobre como compreender e mitigar os riscos associados ao seu aplicativo: Visão geral das práticas de IA responsável para modelos OpenAI do Azure.

Partilhar via