Innehållssäkerhet i Azure AI Foundry-portalen

2025-05-31

Azure AI Content Safety är en AI-tjänst som identifierar skadligt användargenererat och AI-genererat innehåll i program och tjänster. Azure AI Content Safety innehåller API:er som gör att du kan identifiera och förhindra utdata från skadligt innehåll. Den interaktiva innehållssäkerhetssidan i Azure AI Foundry-portalen gör att du kan visa, utforska och prova exempelkod för att identifiera skadligt innehåll mellan olika metoder.

Egenskaper

Du kan använda Azure AI Content Safety för följande scenarier:

Textinnehåll:

Måttligt textinnehåll: Den här funktionen söker igenom och modererar textinnehåll, identifierar och kategoriserar det baserat på olika allvarlighetsnivåer för att säkerställa lämpliga svar.
Grundidentifiering: Det här filtret avgör om AI:ns svar baseras på betrodda källor som tillhandahålls av användaren, vilket säkerställer att svaren är "jordade" i det avsedda materialet. Grundidentifiering är till hjälp för att förbättra tillförlitligheten och den faktiska noggrannheten i svaren.
Skyddad materialidentifiering för text: Den här funktionen identifierar skyddat textmaterial, till exempel kända sångtexter, artiklar eller annat innehåll, vilket säkerställer att AI:n inte matar ut det här innehållet utan behörighet.
Skyddad materialidentifiering för kod: Identifierar kodsegment i modellens utdata som matchar känd kod från offentliga lagringsplatser, vilket hjälper till att förhindra oredigerad eller obehörig kopiering av källkod.
Fråga om sköldar: Den här funktionen innehåller ett enhetligt API för att hantera "Jailbreak" och "Indirect Attacks":
- Jailbreak-attacker: Användare försöker manipulera AI:n till att kringgå säkerhetsprotokoll eller etiska riktlinjer. Exempel är uppmaningar som utformats för att lura AI:n att ge olämpliga svar eller utföra uppgifter som den programmerades att undvika.
- Indirekta attacker: Indirekta attacker kallas även för direktinmatningsattacker mellan domäner och innebär att skadliga uppmaningar bäddas in i dokument som AI:n kan bearbeta. Om ett dokument till exempel innehåller dolda instruktioner kan AI:n oavsiktligt följa dem, vilket leder till oavsiktliga eller osäkra utdata.

Bildinnehåll:

Måttligt bildinnehåll: Liknar textmoderering, den här funktionen filtrerar och utvärderar bildinnehåll för att identifiera olämpliga eller skadliga visuella objekt.
Måttligt multimodalt innehåll: Detta är utformat för att hantera en kombination av text och bilder, utvärdera den övergripande kontexten och eventuella risker för flera typer av innehåll.

Anpassa dina egna kategorier:

Anpassade kategorier: Tillåter användare att definiera specifika kategorier för att moderera och filtrera innehåll, skräddarsy säkerhetsprotokoll efter unika behov.
Meddelande om säkerhetssystem: Tillhandahåller en metod för att konfigurera ett "systemmeddelande" för att instruera AI:n om önskat beteende och begränsningar, förstärka säkerhetsgränserna och hjälpa till att förhindra oönskade utdata.

Förstå skadekategorier

Skadekategorier

Kategori	Beskrivning	API-term
Hat och rättvisa	Hat- och rättviseskador avser allt innehåll som attackerar eller använder diskriminerande språk med hänvisning till en person eller identitetsgrupp baserat på vissa differentieringsattribut för dessa grupper. Detta omfattar, men är inte begränsat till: Ras, etnicitet, nationalitet Könsidentitetsgrupper och uttryck Sexuell läggning Religion Personligt utseende och kroppsstorlek Invaliditetsstatus Trakasserier och mobbning	`Hate`
Sexuell	Sexual beskriver språk relaterade till anatomiska organ och könsorgan, romantiska relationer och sexuella handlingar, handlingar som framställs i erotiska eller tillgivna termer, inklusive de som framställs som ett övergrepp eller en tvingad sexuell våldsam handling mot ens vilja. Detta inkluderar men är inte begränsat till: Vulgärt innehåll Prostitution Nakenhet och pornografi Missbruk Utnyttjande av barn, barnmisshandel, barnskötsel	`Sexual`
Våld	Våld beskriver språk som rör fysiska handlingar som är avsedda att skada, sårar, förstör eller dödar någon eller något; beskriver vapen, eldvapen och relaterade entiteter. Detta inkluderar, men är inte begränsat till: Vapen Mobbning och hot Terrorist- och våldsbejakande extremism Förföljelse	`Violence`
Självskadebeteende	Självskadebeteende avser beteenden relaterade till fysiska handlingar som är avsedda att avsiktligt skada, skada kroppen eller begå självmord. Detta inkluderar, men är inte begränsat till: Ätstörningar Mobbning och hot	`SelfHarm`

Allvarlighetsgrad

Nivå	Beskrivning
Säker	Innehåll kan vara relaterat till våld, självskadebeteende, sexuella kategorier eller hatkategorier. Termerna används dock i allmänna, journalistiska, vetenskapliga, medicinska och liknande professionella sammanhang, som är lämpliga för de flesta målgrupper.
Låg	Innehåll som uttrycker fördomsfulla, dömande eller åsiktsfulla åsikter omfattar stötande användning av språk, stereotyper, användningsfall som utforskar en fiktiv värld (till exempel spel, litteratur) och skildringar med låg intensitet.
Medel	Innehåll som använder stötande, förolämpande, hånfullt, skrämmande eller förnedrande språk mot specifika identitetsgrupper, innehåller skildringar av att söka och utföra skadliga instruktioner, fantasier, förhärligande, främjande av skada med medelhög intensitet.
Högt	Innehåll som visar explicita och allvarliga skadliga instruktioner, handlingar, skador eller missbruk; omfattar godkännande, förhärligande eller främjande av allvarliga skadliga handlingar, extrema eller olagliga former av skada, radikalisering eller icke-konsensuellt maktutbyte eller missbruk.

Begränsningar

Se översikten över innehållssäkerhet för regioner som stöds, hastighetsbegränsningar och indatakrav för alla funktioner. Se sidan Språkstöd för språk som stöds.

Nästa steg

Kom igång med Hjälp av Azure AI Content Safety i Azure AI Foundry-portalen genom att följa instruktionsguiden.