Partilhar via


Moderação de segurança de conteúdos com as APIs de IA do Windows

As APIs de IA do Windows, como Phi Silica e Imaging, usam moderação de conteúdo para classificar e filtrar conteúdo potencialmente prejudicial de solicitações do usuário ou em respostas retornadas pelos modelos generativos. Por padrão, essas APIs filtram o conteúdo classificado como potencialmente prejudicial, mas os níveis de sensibilidade podem ser configurados.

Para obter detalhes da API, consulte API ref para moderação de segurança de conteúdo.

Pré-requisitos

Conclua as etapas em Introdução à criação de um aplicativo com APIs de IA do Windows.

Ajustar a moderação de segurança de conteúdo

Você pode ajustar a moderação de conteúdo no prompt de entrada para o modelo generativo e a saída gerada por IA. A moderação de conteúdos da API de IA do Windows é concebida e implementada de forma semelhante à fornecida pelo Azure AI Content Safety.

Categorias de danos

As categorias de danos suportadas pelas APIs de IA do Windows alinham-se com as definidas pela Segurança de Conteúdo de IA do Azure. As categorias de dano incluem Ódio e justiça, Sexual, Violência e Automutilação (várias categorias podem ser atribuídas ao mesmo conteúdo).

Categoria Descrição Nome da API
Ódio Conteúdo que ataque ou use linguagem discriminatória com referência a uma pessoa ou grupo de identidade com base em certos atributos diferenciadores desses grupos. HateContentSeverity
Sexual Conteúdo relacionado com órgãos anatómicos e genitais, relações amorosas e atos sexuais, atos retratados em termos eróticos ou afetivos, incluindo os retratados como uma agressão ou um ato sexual violento forçado contra a vontade. SexualContentSeverity
Violência Conteúdo relacionado com ações físicas destinadas a ferir, ferir, danificar ou matar alguém ou algo; descreve armas, armas e entidades relacionadas. ViolentContentSeverity
Automutilação Conteúdo relacionado com atos físicos destinados a ferir, magoar, danificar o corpo ou acabar com a própria vida intencionalmente. SelfHarmContentSeverity

Níveis de severidade

Por defeito, todas as chamadas a APIs generativas de IA do Windows utilizam moderação de conteúdo, mas os níveis de gravidade podem ser ajustados.

  • high: Não disponível. O conteúdo classificado como nível de gravidade 3+ (alto risco de dano potencial) está atualmente impedido de ser retornado pelo modelo de IA generativa.

  • medium: O nível de gravidade padrão é definido como medium. O conteúdo classificado como nível de gravidade 0 - 3 será retornado.

  • low: reduz ainda mais o risco de devolução de conteúdos potencialmente nocivos. Somente o conteúdo classificado como nível de gravidade 0 - 1 será retornado.

Para saber mais sobre os níveis de gravidade, consulte Categorias de danos de segurança de conteúdo do Azure AI.

Exemplo de código de moderação de conteúdo de texto

Para configurar os filtros de severidade da Moderação de Conteúdo de Texto, deve passar a estrutura ContentFilterOptions como parâmetro para a API usada para geração de respostas (como a API Phi Silica).

O exemplo de código a seguir demonstra a adição de filtros de gravidade de moderação de conteúdo de texto ao Microsoft Windows Generative AI LanguageModel:

LanguageModelOptions options = new LanguageModelOptions();
ContentFilterOptions filterOptions = new ContentFilterOptions();

// prompt
filterOptions.PromptMaxAllowedSeverityLevel.Violent = SeverityLevel.Minimum;
filterOptions.PromptMaxAllowedSeverityLevel.Hate = SeverityLevel.Low;
filterOptions.PromptMaxAllowedSeverityLevel.SelfHarm = SeverityLevel.Medium;
filterOptions.PromptMaxAllowedSeverityLevel.Sexual = SeverityLevel.High;

//response
filterOptions.ResponseMaxAllowedSeverityLevel.Violent = SeverityLevel.Medium;

//image
filterOptions.ImageMaxAllowedSeverityLevel.AdultContentLevel = SeverityLevel.Medium;
filterOptions.ImageMaxAllowedSeverityLevel.RacyContentLevel = SeverityLevel.Medium;

options.ContentFilterOptions = filterOptions;

var result = await languageModel.GenerateResponseAsync(prompt, options);

Console.WriteLine(result.Text);

Ver também