Como configurar os filtros de conteúdo com o Serviço OpenAI do Azure

Artigo
04/16/2024

Observação

Todos os clientes têm a capacidade de modificar os filtros de conteúdo e configurar os limites de gravidade (baixo, médio, alto). A aprovação é necessária para desativar parcial ou totalmente os filtros de conteúdo. Os clientes gerenciados só podem solicitar o controle total da filtragem de conteúdo por meio deste formulário: Revisão de acesso limitado do OpenAI do Azure: Filtros de Conteúdo Modificados. No momento, não é possível se tornar um cliente gerenciado.

O sistema de filtragem de conteúdo integrado ao Serviço OpenAI do Azure é executado junto com os modelos principais, incluindo os modelos de geração de imagem DALL-E. Ele usa um conjunto de modelos de classificação de várias classes para detectar quatro categorias de conteúdo nocivo (violência, ódio, sexual e automutilação) em quatro níveis de gravidade, respectivamente (seguro, baixo, médio e alto), e classificadores binários opcionais para detectar o risco de violação de cadeias, texto existente e código nos repositórios públicos. A configuração de filtragem de conteúdo padrão é definida para filtrar no limite de gravidade médio para todas as quatro categorias de danos de conteúdo para prompts e conclusões. Isso significa que o conteúdo detectado no nível de gravidade médio ou alto é filtrado, enquanto o conteúdo detectado no nível de gravidade baixo ou seguro não é filtrado pelos filtros de conteúdo. Saiba mais sobre as categorias de conteúdo, os níveis de gravidade e o comportamento do sistema de filtragem de conteúdo aqui. A detecção de risco de jailbreak e os modelos de texto e código protegidos são opcionais e desativados por padrão. Para modelos de código e texto de material protegido e jailbreak, o recurso de configurabilidade permite que todos os clientes ativem e desativem os modelos. Os modelos estão desativados por padrão e podem ser ativados de acordo com seu cenário. Alguns modelos devem estar ativados para determinados cenários manterem a cobertura no Compromisso de Direitos Autorais do Cliente.

Os filtros de conteúdo podem ser configurados no nível do recurso. Uma vez que uma nova configuração é criada, ela pode ser associada a uma ou mais implantações. Para obter mais informações sobre a implantação do modelo, consulte o Guia de implantação de recursos.

O recurso de configuração está disponível em versão preliminar e permite que os clientes ajustem as configurações, separadamente para prompts e conclusões, para filtrar o conteúdo de cada categoria de conteúdo em diferentes níveis de gravidade, conforme descrito na tabela abaixo. O conteúdo detectado no nível de gravidade "seguro" é rotulado em anotações, mas não está sujeito a filtragem e não é configurável.

Gravidade filtrada	Configurável para prompts	Configurável para conclusões	Descrições
Baixo, médio ou alto	Sim	Sim	Configuração de filtragem mais rigorosa. O conteúdo detectado nos níveis de gravidade baixo, médio e alto é filtrado.
Médio, alto	Sim	Sim	Configuração padrão. O conteúdo detectado no nível de severidade baixo não é filtrado, enquanto o conteúdo nos níveis médio e alto é filtrado.
Alto	Sim	Yes	O conteúdo detectado nos níveis de gravidade baixo e médio não será filtrado. Somente o conteúdos com nível de gravidade alto serão filtrados.
Nenhum filtro	Se aprovado^*	Se aprovado^*	nenhum conteúdo será filtrado, independentemente do nível de gravidade detectado. Requer aprovação^*.

^* Somente os clientes aprovados têm controle de filtragem de conteúdo completo e podem desativar parcial ou totalmente os filtros de conteúdo. Os clientes gerenciados só podem solicitar o controle total da filtragem de conteúdo por este formulário: Revisão de acesso limitado do OpenAI do Azure: Filtros de Conteúdo Modificados No momento, não é possível se tornar um cliente gerenciado.

Os clientes são responsáveis por garantir que os aplicativos que integram o OpenAI do Azure estejam em conformidade com o Código de conduta.

Categoria de filtro	Configuração padrão	Aplicado ao prompt ou à conclusão?	Descrição
Detecção de risco de jailbreak	Desativado	Prompt	Pode ser ativado para filtrar ou anotar prompts de usuário que podem apresentar um Risco de Jailbreak. Para obter mais informações sobre como consumir anotações, acesse Filtragem de conteúdo do Serviço OpenAI do Azure
Material protegido – código	Desligar	Completion	Pode ser ativado para obter as informações de citação e licença de exemplo em anotações para snippets de código que correspondem a qualquer fonte de código pública. Para obter mais informações sobre como consumir anotações, confira oguia de conceitos de filtragem de conteúdo
Material protegido – texto	Desligar	Completion	Pode ser ativado para identificar e impedir que o conteúdo de texto conhecido seja exibido na saída do modelo (por exemplo, letras de música, receitas e conteúdo da Web selecionado).

Configuração de filtros de conteúdo por meio do Estúdio de OpenAI do Azure (versão prévia)

As seguintes etapas mostram como definir uma configuração de filtragem de conteúdo personalizada para seu recurso.

Acesse o Estúdio de OpenAI do Azure e navegue até a guia Filtros de Conteúdo (na navegação inferior esquerda, conforme indicado pela caixa vermelha abaixo).
Criar uma nova configuração personalizada de filtragem de conteúdo.

Isso leva à seguinte exibição de configuração, na qual você pode escolher um nome para a configuração da filtragem de conteúdo personalizada.
Esta é a exibição da configuração de filtragem de conteúdo padrão, na qual o conteúdo é filtrado em níveis de gravidade médio e alto para todas as categorias. Você pode modificar o nível de gravidade da filtragem de conteúdo para prompts de usuário e conclusões de modelo separadamente (a configuração para prompts está na coluna da esquerda e a configuração para conclusões está na coluna da direita, conforme designado nas caixas azuis abaixo) para cada uma das quatro categorias de conteúdo (as categorias de conteúdo estão listadas à esquerda da tela, conforme designado na caixa verde abaixo). Há três níveis de gravidade para cada categoria que são configuráveis: baixo, médio e alto. Você pode usar o controle deslizante para definir o limite de gravidade.
Se você determinar que seu aplicativo ou cenário de uso exige uma filtragem mais restritiva para algumas ou todas as categorias de conteúdo, poderá configurar as definições, separadamente para prompts e conclusões, para filtrar em mais níveis de gravidade do que a definição padrão. Um exemplo é mostrado na imagem abaixo, em que o nível de filtragem dos prompts do usuário é definido como a configuração mais rigorosa para ódio e sexualidade, com conteúdo de baixa gravidade filtrado junto com conteúdos classificados como de média e alta gravidade (descritos na caixa vermelha abaixo). No exemplo, os níveis de filtragem para conclusões de modelos são definidos na configuração mais restritiva para todas as categorias de conteúdo (caixa azul abaixo). Com essa configuração de filtragem modificada em vigor, o conteúdo de gravidade baixa, média e alta será filtrado para as categorias de ódio e sexual nos prompts do usuário; o conteúdo de gravidade média e alta será filtrado para as categorias de automutilação e violência nos prompts do usuário; e o conteúdo de gravidade baixa, média e alta será filtrado para todas as categorias de conteúdo nas conclusões do modelo.
Se seu caso de uso foi aprovado para filtros de conteúdo modificados conforme descrito acima, você receberá controle total sobre as configurações de filtragem de conteúdo e você pode escolher desativar a filtragem parcial ou completamente. Na imagem abaixo, a filtragem é desativada para violência (caixa verde abaixo), enquanto as configurações padrão são mantidas para outras categorias. Embora isso tenha desabilitado a funcionalidade de filtro para violência, o conteúdo ainda será anotado. Para desativar todos os filtros e anotações, desative Filtros e anotações (caixa vermelha abaixo).

Você pode criar várias configurações de filtragem de conteúdo de acordo com suas necessidades.
Para ativar os modelos opcionais, você pode selecionar qualquer uma das caixas de seleção no lado esquerdo. Quando cada um dos modelos opcionais é ativado, você pode indicar se o modelo deve Anotar ou Filtrar.
Selecionar Anotar executará o respectivo modelo e retornará anotações por meio da resposta à API, mas não filtrará o conteúdo. Além das anotações, você também pode optar por filtrar o conteúdo ativando a alternância de Filtro.
Você pode criar várias configurações de filtragem de conteúdo de acordo com suas necessidades.
Em seguida, para tornar operacional uma configuração de filtragem de conteúdo personalizada, atribua uma configuração a uma ou mais implantações no seu recurso. Para fazer isso, vá para a guia Implantações e selecione Editar implantação (delineado perto da parte superior da tela em uma caixa vermelha abaixo).
Vá para as opções avançadas (descritas na caixa azul abaixo) e selecione a configuração de filtro de conteúdo adequada para essa implantação na lista suspensa Filtro de Conteúdo (descrito próximo à parte inferior da caixa de diálogo na caixa vermelha abaixo).
Selecione Salvar e fechar para aplicar a configuração selecionada à implantação.
Você também pode editar e excluir uma configuração de filtro de conteúdo, se necessário. Para fazer isso, navegue até a guia filtros de conteúdo e selecione a ação desejada (opções descritas próximas à parte superior da tela na caixa vermelha abaixo). Você pode editar/excluir apenas uma configuração de filtragem de cada vez.

Observação

Antes de excluir uma configuração de filtragem de conteúdo, será necessário desatribuí-la de qualquer implantação na guia Implantações.

Práticas recomendadas

Recomendamos que você informe suas decisões de configuração de filtragem de conteúdo por meio de um processo iterativo de identificação (por exemplo, teste de agrupamento vermelho, teste de estresse e análise) e medição para abordar os possíveis danos que são relevantes para um modelo, aplicativo e cenário de implantação específicos. Após a implementação de mitigações, como a filtragem de conteúdo, repita a medição para testar a eficácia. Recomendações e práticas recomendadas para IA Responsável para o OpenAI do Azure, com base no IA Responsável da Microsoft Standard, podem ser encontradas na Visão Geral de IA Responsável para o OpenAI do Azure.

Próximas etapas

Saiba mais sobre as práticas de IA Responsável para o OpenAI do Azure: Visão geral das práticas de IA Responsável para os modelos do OpenAI do Azure.
Leia mais sobre as categorias de filtragem de conteúdo e níveis de gravidade com o Serviço OpenAI do Azure.
Saiba mais sobre a formação de agrupamentos vermelhos em nosso artigo: Introdução aos modelos de linguagem grande (LLMs) do agrupamento vermelho.

Compartilhar via

Como configurar os filtros de conteúdo com o Serviço OpenAI do Azure

Configuração de filtros de conteúdo por meio do Estúdio de OpenAI do Azure (versão prévia)

Práticas recomendadas

Próximas etapas

Comentários

Comentários

Recursos adicionais