Compartir a través de


Moderación de seguridad de contenido con Windows AI Foundry

Las API de Windows AI, como PhiLice y Imaging, usan la moderación de contenido para clasificar y filtrar el contenido potencialmente dañino de las solicitudes del usuario o en las respuestas devueltas por los modelos generativos. De forma predeterminada, estas API filtran el contenido clasificado como potencialmente perjudicial, pero se pueden configurar niveles de confidencialidad.

Para obtener más información sobre la API, consulte API ref for content safety moderation (Referencia de API para moderación de seguridad de contenido).

Importante

A continuación se muestra una lista de las características de windows AI y la versión de Windows App SDK en la que se admiten actualmente.

Versión 1.8 Experimental (1.8.0-experimental1) - Borrado de objeto, Phi Silica, ajuste fino de LoRA para Phi Silica, Resumen de conversación (Inteligencia de Texto)

Versión preliminar privada : búsqueda semántica

Versión 1.7.1 (1.7.250401001): todas las demás API

Estas API solo serán funcionales en dispositivos windows Insider Preview (WIP) que han recibido la actualización del 7 de mayo. El 28 y 29 de mayo, se publicará una actualización opcional en dispositivos que no sean WIP, seguida por la actualización del 10 de junio. Esta actualización le proporcionará los modelos de IA necesarios para que funcionen las API de IA de Windows. Estas actualizaciones también requerirán que cualquier aplicación que use las API de Ia de Windows no podrá hacerlo hasta que la aplicación se haya concedido la identidad del paquete en tiempo de ejecución.

Requisitos previos

Complete los pasos descritos en Introducción a la creación de una aplicación con las API de IA de Windows.

Ajustar la moderación de seguridad de contenido

Puede ajustar la moderación de contenido tanto en el mensaje de entrada para el modelo generativo como en la salida generada por IA. La moderación de contenido de las API de IA de Windows está diseñada e implementada de forma similar a la proporcionada por la seguridad del contenido de Azure AI.

Categorías de daños

Las categorías de daños admitidas por las API de Windows AI se alinean con las definidas por la seguridad del contenido de Azure AI. Las categorías de daño incluyen Odio y equidad, Sexual, Violencia y Auto-daño (se pueden asignar varias categorías al mismo contenido).

Categoría Descripción Nombre de la API
Odio Contenido que ataca o usa lenguaje discriminatorio con referencia a una persona o grupo de identidades en función de ciertos atributos diferenciadores de estos grupos. HateContentSeverity
Sexual Contenido relacionado con órganos anatómicos y genitales, relaciones románticas y actos sexuales, actos representados en términos eróticos o cariñosos, incluidos aquellos representados como un ataque o un acto sexual forzado violento contra la voluntad de uno. SexualContentSeverity
Violencia Contenido relacionado con acciones físicas destinadas a herir, lesionar, dañar o matar a alguien o algo; describe armas, armamento y entidades relacionadas. ViolentContentSeverity
Autolesión Contenido relacionado con acciones físicas diseñadas para hacer daño, lesiones, dañar el cuerpo de uno mismo o matarse a sí mismo. SelfHarmContentSeverity

Niveles de gravedad

De forma predeterminada, todas las llamadas a las API generativas de Windows AI Foundry usan moderación de contenido, pero el nivel de gravedad se puede ajustar.

  • high: no disponible. El contenido clasificado con un nivel de gravedad 3+ (alto riesgo de potencial daño) está actualmente bloqueado para ser retornado por el modelo de IA generativa.

  • medium: el nivel de gravedad predeterminado se establece en medium. Se devolverá el contenido clasificado como nivel de gravedad 0 - 3.

  • low: reduce aún más el riesgo de devolver contenido potencialmente dañino. Solo se devolverá el contenido clasificado como nivel de gravedad 0 - 1.

Para más información sobre los niveles de gravedad, consulte Categorías de daños de Seguridad del contenido de Azure AI.

Ejemplo de código de moderación de contenido de texto

Para configurar los filtros de severidad para la moderación de contenido de texto insertados en Windows AI Foundry, debe pasar la estructura ContentFilterOptions como parámetro a la API que se usa para la generación de respuestas (como la Phi Silica API).

En el ejemplo de código siguiente se muestra cómo agregar filtros de gravedad de moderación de contenido de texto al LanguageModel de Generative AI de Microsoft Windows:

LanguageModelOptions options = new LanguageModelOptions();
ContentFilterOptions filterOptions = new ContentFilterOptions();

// prompt
filterOptions.PromptMaxAllowedSeverityLevel.Violent = SeverityLevel.Minimum;
filterOptions.PromptMaxAllowedSeverityLevel.Hate = SeverityLevel.Low;
filterOptions.PromptMaxAllowedSeverityLevel.SelfHarm = SeverityLevel.Medium;
filterOptions.PromptMaxAllowedSeverityLevel.Sexual = SeverityLevel.High;

//response
filterOptions.ResponseMaxAllowedSeverityLevel.Violent = SeverityLevel.Medium;

//image
filterOptions.ImageMaxAllowedSeverityLevel.AdultContentLevel = SeverityLevel.Medium;
filterOptions.ImageMaxAllowedSeverityLevel.RacyContentLevel = SeverityLevel.Medium;

options.ContentFilterOptions = filterOptions;

var result = await languageModel.GenerateResponseAsync(prompt, options);

Console.WriteLine(result.Text);

Consulte también