AI/ML-relaterade justeringar av SDL-indelningen av buggar

Av Andrew Marshall, Jugal Parikh, Emre Kiciman och Ram Shankar Siva Kumar

November 2019

Det här dokumentet är en produkt från Microsofts arbetsgrupp AETHER Engineering Practices for AI och ska ses som ett komplement till den befintliga SDL-indelningen som används till att prioritera traditionella säkerhetsrisker. Det är avsett att användas som referens vid prioritering av AI/ML-relaterade säkerhetsproblem. Mer detaljerad information om hotanalys och lösningar finns i Hotmodellering i AI/ML-system och beroenden.

Den här vägledningen bygger på och refererar till en taxonomi kring ML-angreppshot som tagits fram av Ram Shankar Siva Kumar, David O’Brien, Kendra Albert, Salome Viljoen och Jeffrey Snover och har titeln Fellägen inom maskininlärning”. Även om forskningen som innehållet är baserat på täcker både avsiktliga/illvilliga och oavsiktliga beteenden gällande ML-lägen så gäller den här nivåindelningen enbart avsiktliga/illvilliga beteenden som kan orsaka säkerhetsincidenter och att distribuera en korrigering.

Hot Severity Beskrivning/affärsrisker/exempel
Kontaminerade data Viktig till kritisk

Kontaminering av träningsdata – angriparens mål är att kontaminera datormodellen som genereras under träningsfasen så att förutsägelser om nya data modifieras under testningsfasen.

Vid riktade kontamineringsangrepp vill angriparen felklassificera vissa indata så att specifika åtgärder antingen utförs eller ignoreras.

Att skicka AV-programvara som skadlig kod för att framtvinga dess felklassificering som skadlig kod och stoppa användningen av riktad AV-programvara på klientsystem.

Ett företag hämtar data om optionsmarknaden från en välkänd och betrodd webbplats för att träna sina modeller. Dataleverantörens webbplats angrips sedan via en SQL-inmatningsattack. Angriparen kan godtyckligt kontaminera datamängden utan att modellen som tränas har någon aning om att webbplatsens data är komprometterade.

Modellstöld Viktig till kritisk

Återskapande av den underliggande modellen med hjälp av legitima frågor. Den nya modellen har samma funktioner som den underliggande modellen. När modellen har återskapats kan den inverteras för att hämta funktionsinformation eller dra slutsatser om träningsdata.

Ekvationslösning – för en modell som returnerar klassannolikheter via API-utdata kan en angripare konstruera frågor för att få fram de okända variablerna i en modell.

Sökvägsidentifiering – ett angrepp som utnyttjar API-egenskaper till att extrahera de ”beslut” som fattas av ett träd när indata klassificeras.

Överföringsangrepp – en angripare kan träna en lokal modell, till exempel genom att skicka förutsägelsefrågor till målmodellen, och använda den till att konstruera manipulerade indata som sedan överförs till målmodellen. Om din modell extraheras och visar sig vara sårbar för en viss typ av indatamanipulering så kan nya angrepp mot modellen i produktion utvecklas offline av angriparen som extraherade kopian av modellen.

I scenarier där en maskininlärningsmodell används till att identifiera skadligt beteende, som att identifiera skräppost, klassificera skadlig kod och identifiera avvikelser i nätverket så kan modellextrahering göra det lättare att komma runt skyddsmekanismer

Modellinversion Viktig till kritisk

De privata funktionerna som används i maskininlärningsmodeller kan återskapas. Det kan gälla att rekonstruera privata träningsdata som angriparen inte har åtkomst till. Det görs genom att angriparen hittar indata som maximerar den returnerade konfidensnivån givet klassificeringen som matchar målet.

Exempel: Att återskapa ansiktsigenkänningsdata från gissade eller kända namn och API-åtkomst för att köra frågor mot modellen.

Skadliga exempel i den fysiska domänen Kritisk Den här manipuleringen av indata kan ta sig i uttryck i den fysiska världen. Till exempel kan en självkörande bil luras att köra in i ett trafikljus när det har en viss färg (manipulerade indata), och får på så sätt bildigenkänningssystemet att inte längre uppfatta trafikljuset som ett trafikljus.
Angrepp mot ML-leveranskedjan Kritisk

Eftersom det krävs mycket resurser (data och beräkningar) för att träna algoritmer är det i dag normalt att återanvända och anpassa modeller som har tränats av stora företag (till exempel så är ResNet en populär bildigenkänningsmodell från Microsoft).

De här modellerna väljs ut till ett Model Zoo (Caffe är värd för populära bildigenkänningsmodeller).

Vid den här typen av angrepp attackeras modellerna i Caffe, vilket innebär att de även blir skadliga för andra.

Algoritm med bakdörr från illvillig ML-leverantör Kritisk

Manipulering av den underliggande algoritmen

En illvillig leverantör presenterar en algoritm med en bakdörr som gör att privata träningsdata kan återskapas.  Det här gör att angriparen kan rekonstruera känsliga data som ansikten och texter endast med hjälp av modellen.

Omprogrammering av neurala nätverk Viktig till kritisk

Med hjälp av specialkonstruerade frågor från en angripare kan maskininlärningssystem programmeras om för en uppgift som är en annan än utvecklaren tänkt sig

Svaga åtkomstkontroller i ett API för ansiktsigenkänning som gör att tredje part kan använda det i appar som är utformade för att skada användarna, till exempel en ”deep fakes”-generator.

Det här är ett scenario för missbruk/nedtagning av konto

Avsiktliga störningar Viktig till kritisk

Vid störningsattacker modifierar angriparen obemärkt frågan för att få önskat svar från en modell i produktionsmiljö. Det här är ett intrång i modellens integritet som leder till ett slags förvirringsangrepp där slutresultatet inte nödvändigtvis är en åtkomstöverträdelse eller EOP utan snarare att modellens klassificeringsförmåga påverkas negativt.

Ett exempel kan vara nättroll som använder särskilda målord på ett sätt som gör att AI:t förbjuder dem, vilket i praktiken kan utesluta legitima användare med ett namn som matchar ett ”förbjudet” ord från tjänsten.

Att få legitima e-postmeddelanden klassificerade som skräppost eller att få skadliga meddelanden att inte klassificeras. Den här typen av angrepp involverar manipulerade indata eller imitation.

Angriparen kan skapa indata som minskar förtroendenivån för en korrekt klassificering, särskilt i scenarier som kan få betydande konsekvenser. Det här kan också ske i form av ett stort antal falska positiva identifieringar som är avsedda att överbelasta administratörer eller övervakningssystem med bedrägliga aviseringar som är svåra att skilja från legitima aviseringar.

Medlemskapsinferens Måttlig till kritisk

Inferens av enskilt medlemskap i en grupp som används till att träna en modell

Exempel: förutsägelse av kirurgiska procedurer baserat på ålder/kön/sjukhus