Como configurar os filtros de conteúdo com o Serviço OpenAI do Azure

Observação

Todos os clientes têm a capacidade de modificar os filtros de conteúdo e configurar os limites de gravidade (baixo, médio, alto). A aprovação é necessária para desativar parcial ou totalmente os filtros de conteúdo. Os clientes gerenciados só podem solicitar o controle total da filtragem de conteúdo por meio deste formulário: Revisão de acesso limitado do OpenAI do Azure: Filtros de Conteúdo Modificados.

O sistema de filtragem de conteúdo integrado ao Serviço OpenAI do Azure é executado juntamente com os modelos principais e usa um conjunto de modelos de classificação de várias classes para detectar quatro categorias de conteúdo prejudicial (violência, ódio, sexual e automutilação) em quatro níveis de gravidade, respectivamente (seguro, baixo, médio e alto) e classificadores binários opcionais para detectar risco de jailbreak, texto existente e código em repositórios públicos. A configuração de filtragem de conteúdo padrão é definida para filtrar no limite de gravidade médio para todas as quatro categorias de danos de conteúdo para prompts e conclusões. Isso significa que o conteúdo detectado no nível de gravidade médio ou alto é filtrado, enquanto o conteúdo detectado no nível de gravidade baixo ou seguro não é filtrado pelos filtros de conteúdo. Saiba mais sobre as categorias de conteúdo, os níveis de gravidade e o comportamento do sistema de filtragem de conteúdo aqui. A detecção de risco de jailbreak e os modelos de texto e código protegidos são opcionais e desativados por padrão. Para modelos de código e texto de material protegido e jailbreak, o recurso de configurabilidade permite que todos os clientes ativem e desativem os modelos. Os modelos estão desativados por padrão e podem ser ativados de acordo com seu cenário. Alguns modelos devem estar ativados para determinados cenários manterem a cobertura no Compromisso de Direitos Autorais do Cliente.

Os filtros de conteúdo podem ser configurados no nível do recurso. Uma vez que uma nova configuração é criada, ela pode ser associada a uma ou mais implantações. Para obter mais informações sobre a implantação do modelo, consulte o Guia de implantação de recursos.

O recurso de configuração está disponível em versão preliminar e permite que os clientes ajustem as configurações, separadamente para prompts e conclusões, para filtrar o conteúdo de cada categoria de conteúdo em diferentes níveis de gravidade, conforme descrito na tabela abaixo. O conteúdo detectado no nível de gravidade "seguro" é rotulado em anotações, mas não está sujeito a filtragem e não é configurável.

Gravidade filtrada Configurável para prompts Configurável para conclusões Descrições
Baixo, médio ou alto Sim Sim Configuração de filtragem mais rigorosa. O conteúdo detectado nos níveis de gravidade baixo, médio e alto é filtrado.
Médio, alto Sim Sim Configuração padrão. O conteúdo detectado no nível de severidade baixo não é filtrado, enquanto o conteúdo nos níveis médio e alto é filtrado.
Alto Sim Yes O conteúdo detectado nos níveis de gravidade baixo e médio não será filtrado. Somente o conteúdos com nível de gravidade alto serão filtrados.
Nenhum filtro Se aprovado* Se aprovado* nenhum conteúdo será filtrado, independentemente do nível de gravidade detectado. Requer aprovação*.

* Somente os clientes aprovados têm controle de filtragem de conteúdo completo e podem desativar parcial ou totalmente os filtros de conteúdo. Os clientes gerenciados só podem solicitar o controle total da filtragem de conteúdo por meio deste formulário: Revisão de acesso limitado do OpenAI do Azure: Filtros de Conteúdo Modificados

Os clientes são responsáveis por garantir que os aplicativos que integram o OpenAI do Azure estejam em conformidade com o Código de conduta.

Categoria de filtro Configuração padrão Aplicado ao prompt ou à conclusão? Descrição
Detecção de risco de jailbreak Desativado Prompt Pode ser ativado para filtrar ou anotar prompts de usuário que podem apresentar um Risco de Jailbreak. Para obter mais informações sobre como consumir anotações, acesse Filtragem de conteúdo do Serviço OpenAI do Azure
Material protegido – código Desligar Completion Pode ser ativado para obter as informações de citação e licença de exemplo em anotações para snippets de código que correspondem a qualquer fonte de código pública. Para obter mais informações sobre como consumir anotações, confira oguia de conceitos de filtragem de conteúdo
Material protegido – texto Desligar Completion Pode ser ativado para identificar e impedir que o conteúdo de texto conhecido seja exibido na saída do modelo (por exemplo, letras de música, receitas e conteúdo da Web selecionado).

Configuração de filtros de conteúdo por meio do Estúdio de OpenAI do Azure (versão prévia)

As seguintes etapas mostram como definir uma configuração de filtragem de conteúdo personalizada para seu recurso.

  1. Acesse o Estúdio de OpenAI do Azure e navegue até a guia Filtros de Conteúdo (na navegação inferior esquerda, conforme indicado pela caixa vermelha abaixo).

    Captura de tela da interface do usuário do Estúdio de IA com os filtros de conteúdo destacados

  2. Criar uma nova configuração personalizada de filtragem de conteúdo.

    Captura de tela da interface de usuário de configuração da filtragem de conteúdo com a opção Criar selecionada

    Isso leva à seguinte exibição de configuração, na qual você pode escolher um nome para a configuração da filtragem de conteúdo personalizada.

    Captura de tela da interface do usuário de configuração da filtragem de conteúdo

  3. Esta é a exibição da configuração de filtragem de conteúdo padrão, na qual o conteúdo é filtrado em níveis de gravidade médio e alto para todas as categorias. Você pode modificar o nível de gravidade da filtragem de conteúdo para prompts de usuário e conclusões de modelo separadamente (a configuração para prompts está na coluna da esquerda e a configuração para conclusões está na coluna da direita, conforme designado nas caixas azuis abaixo) para cada uma das quatro categorias de conteúdo (as categorias de conteúdo estão listadas à esquerda da tela, conforme designado na caixa verde abaixo). Há três níveis de gravidade para cada categoria que são configuráveis: baixo, médio e alto. Você pode usar o controle deslizante para definir o limite de gravidade.

    Captura de tela da interface do usuário de configuração de filtragem de conteúdo com prompts de usuário e conclusões de modelo destacadas

  4. Se você determinar que seu aplicativo ou cenário de uso exige uma filtragem mais restritiva para algumas ou todas as categorias de conteúdo, poderá configurar as definições, separadamente para prompts e conclusões, para filtrar em mais níveis de gravidade do que a definição padrão. Um exemplo é mostrado na imagem abaixo, em que o nível de filtragem dos prompts do usuário é definido como a configuração mais rigorosa para ódio e sexualidade, com conteúdo de baixa gravidade filtrado junto com conteúdos classificados como de média e alta gravidade (descritos na caixa vermelha abaixo). No exemplo, os níveis de filtragem para conclusões de modelos são definidos na configuração mais restritiva para todas as categorias de conteúdo (caixa azul abaixo). Com essa configuração de filtragem modificada em vigor, o conteúdo de gravidade baixa, média e alta será filtrado para as categorias de ódio e sexual nos prompts do usuário; o conteúdo de gravidade média e alta será filtrado para as categorias de automutilação e violência nos prompts do usuário; e o conteúdo de gravidade baixa, média e alta será filtrado para todas as categorias de conteúdo nas conclusões do modelo.

    Captura de tela da configuração de filtragem de conteúdo com baixo, médio, alto, destacado.

  5. Se seu caso de uso foi aprovado para filtros de conteúdo modificados conforme descrito acima, você receberá controle total sobre as configurações de filtragem de conteúdo e você pode escolher desativar a filtragem parcial ou completamente. Na imagem abaixo, a filtragem é desativada para violência (caixa verde abaixo), enquanto as configurações padrão são mantidas para outras categorias. Embora isso tenha desabilitado a funcionalidade de filtro para violência, o conteúdo ainda será anotado. Para desativar todos os filtros e anotações, desative Filtros e anotações (caixa vermelha abaixo).

    Captura de tela da configuração de filtragem de conteúdo com automutilação e violência definida como desativada.

    Você pode criar várias configurações de filtragem de conteúdo de acordo com suas necessidades.

  6. Para ativar os modelos opcionais, você pode selecionar qualquer uma das caixas de seleção no lado esquerdo. Quando cada um dos modelos opcionais é ativado, você pode indicar se o modelo deve Anotar ou Filtrar.

  7. Selecionar Anotar executará o respectivo modelo e retornará anotações por meio da resposta à API, mas não filtrará o conteúdo. Além das anotações, você também pode optar por filtrar o conteúdo ativando a alternância de Filtro.

  8. Você pode criar várias configurações de filtragem de conteúdo de acordo com suas necessidades.

    Captura de tela de várias configurações de conteúdo no portal do Azure.

  9. Em seguida, para tornar operacional uma configuração de filtragem de conteúdo personalizada, atribua uma configuração a uma ou mais implantações no seu recurso. Para fazer isso, vá para a guia Implantações e selecione Editar implantação (delineado perto da parte superior da tela em uma caixa vermelha abaixo).

    Captura de tela da configuração de filtragem do conteúdo com a implantação da edição destacada.

  10. Vá para as opções avançadas (descritas na caixa azul abaixo) e selecione a configuração de filtro de conteúdo adequada para essa implantação na lista suspensa Filtro de Conteúdo (descrito próximo à parte inferior da caixa de diálogo na caixa vermelha abaixo).

    Captura de tela da configuração de implantação da edição com as opções avançadas selecionadas.

  11. Selecione Salvar e fechar para aplicar a configuração selecionada à implantação.

    Captura de tela da configuração da implantação da edição com filtro de conteúdo selecionado.

  12. Você também pode editar e excluir uma configuração de filtro de conteúdo, se necessário. Para fazer isso, navegue até a guia filtros de conteúdo e selecione a ação desejada (opções descritas próximas à parte superior da tela na caixa vermelha abaixo). Você pode editar/excluir apenas uma configuração de filtragem de cada vez.

    Captura de tela da configuração do filtro de conteúdo com edição e exclusão destacadas.

    Observação

    Antes de excluir uma configuração de filtragem de conteúdo, será necessário desatribuí-la de qualquer implantação na guia Implantações.

Práticas recomendadas

Recomendamos que você informe suas decisões de configuração de filtragem de conteúdo por meio de um processo iterativo de identificação (por exemplo, teste de agrupamento vermelho, teste de estresse e análise) e medição para abordar os possíveis danos que são relevantes para um modelo, aplicativo e cenário de implantação específicos. Após a implementação de mitigações, como a filtragem de conteúdo, repita a medição para testar a eficácia. Recomendações e práticas recomendadas para IA Responsável para o OpenAI do Azure, com base no IA Responsável da Microsoft Standard, podem ser encontradas na Visão Geral de IA Responsável para o OpenAI do Azure.

Próximas etapas