Condividi tramite


Moderazione della sicurezza dei contenuti con le API windows per intelligenza artificiale

Le API windows per intelligenza artificiale, ad esempio Phi Silica e Imaging, usano la moderazione del contenuto per classificare e filtrare contenuti potenzialmente dannosi dalle richieste degli utenti o nelle risposte restituite dai modelli generativi. Per impostazione predefinita, questi filtri API filtrano il contenuto classificato come potenzialmente dannoso, ma è possibile configurare i livelli di riservatezza.

Per informazioni dettagliate sull'API, vedere Riferimento API per la moderazione della sicurezza del contenuto.

Prerequisiti

Completare i passaggi descritti in Introduzione alla creazione di un'app con le API di intelligenza artificiale di Windows.

Regolare la moderazione della sicurezza del contenuto

È possibile modificare la moderazione del contenuto al prompt di input per il modello generativo e l'output generato dall'intelligenza artificiale. La moderazione del contenuto dell'API windows per intelligenza artificiale è progettata e implementata in modo analogo a quello fornito da Azure AI Content Safety.

Categorie di danni

Le categorie di danni supportate dalle API di intelligenza artificiale Windows sono allineate a quelle definite da Azure AI Content Safety. Le categorie di danno includono odio e equità, sesso, violenza e autolesionismo (più categorie possono essere assegnate allo stesso contenuto).

Categoria Descrizione Nome API
Odio Contenuto che attacca o usa una lingua discriminatoria con riferimento a una persona o a un gruppo di identità in base a determinati attributi di differenziazione di questi gruppi. HateContentSeverity
Sessuale Contenuto correlato a organi anatomici e genitali, relazioni romantiche e atti sessuali, atti rappresentati in termini erotici o affettuosi, compresi quelli rappresentati come un assalto o un atto violento sessuale forzato contro la volontà di uno. SexualContentSeverity
Violenza Contenuto correlato ad azioni fisiche destinate a ferire, ferire, danneggiare o uccidere qualcuno o qualcosa del genere; descrive armi, armi e entità correlate. ViolentContentSeverity
Autolesionismo Contenuti correlati ad azioni fisiche destinate a ferire intenzionalmente, ferire, danneggiare il corpo o uccidere se stessi. SelfHarmContentSeverity

Livelli di gravità

Per impostazione predefinita, tutte le chiamate alle API di intelligenza artificiale Windows generative usano la moderazione del contenuto, ma i livelli di gravità possono essere modificati.

  • high: non disponibile. Il contenuto classificato come livello di gravità 3+ (rischio elevato per potenziali danni) è attualmente bloccato dalla restituzione del modello di intelligenza artificiale generativa.

  • medium: il livello di gravità predefinito è impostato su medium. Verrà restituito il contenuto classificato come livello di gravità 0 - 3.

  • low: riduce ulteriormente il rischio di restituire contenuto potenzialmente dannoso. Verrà restituito solo il contenuto classificato come livello di gravità 0 - 1.

Per altre informazioni sui livelli di gravità, vedere categorie di danni alla sicurezza dei contenuti di Intelligenza artificiale di Azure.

Esempio di codice Moderazione del contenuto testuale

Per configurare i filtri di gravità della moderazione del contenuto di testo, è necessario passare la struct ContentFilterOptions come parametro all'interno dell'API utilizzata per la generazione di risposte, come ad esempio l'API Phi Silica.

L'esempio di codice seguente illustra l'aggiunta di filtri di gravità per la moderazione del contenuto di testo a Microsoft Windows Generative AI LanguageModel:

LanguageModelOptions options = new LanguageModelOptions();
ContentFilterOptions filterOptions = new ContentFilterOptions();

// prompt
filterOptions.PromptMaxAllowedSeverityLevel.Violent = SeverityLevel.Minimum;
filterOptions.PromptMaxAllowedSeverityLevel.Hate = SeverityLevel.Low;
filterOptions.PromptMaxAllowedSeverityLevel.SelfHarm = SeverityLevel.Medium;
filterOptions.PromptMaxAllowedSeverityLevel.Sexual = SeverityLevel.High;

//response
filterOptions.ResponseMaxAllowedSeverityLevel.Violent = SeverityLevel.Medium;

//image
filterOptions.ImageMaxAllowedSeverityLevel.AdultContentLevel = SeverityLevel.Medium;
filterOptions.ImageMaxAllowedSeverityLevel.RacyContentLevel = SeverityLevel.Medium;

options.ContentFilterOptions = filterOptions;

var result = await languageModel.GenerateResponseAsync(prompt, options);

Console.WriteLine(result.Text);

Vedere anche