Framtidens säkra artificiella intelligens och maskininlärning med Microsoft

Av Andrew Marshall, Raul Rojas, Jay Stokes och Donald Brinkman

Särskilt tack till Mark Cartwright och Graham Calladine

Sammanfattning

Artificiell intelligens (AI) och Maskininlärning (ML) har redan stor inverkan på hur människor arbetar, umgås och lever sina liv. I takt med att användningen av AI- och ML-baserade produkter och tjänster ökar krävs särskilda åtgärder för att skydda kunderna och deras data, men även för att skydda dina AI-system och algoritmer mot missbruk, nättroll och extrahering. I det här dokumentet delar vi med oss av några av Microsofts lärdomar från utvecklingen av produkter och driften av onlinetjänster som bygger på AI. Även om det är svårt att förutsäga hur det här området utvecklas har vi dragit slutsatsen att det finns åtgärdsbara problem att ta itu med nu. Dessutom konstaterade vi att det finns strategiska problem som teknikbranschen måste bemöta för att skydda kunder och data på lång sikt.

Det här dokumentet handlar inte om AI-baserade attacker eller ens AI som används av mänskliga angripare. I stället fokuserar vi på problem som Microsoft och branschpartner behöver ta itu med för att skydda AI-baserade produkter och tjänster från mycket sofistikerade, kreativa och skadliga attacker, oavsett om de utförs av enskilda troll eller hela vargpaket.

Det här dokumentet fokuserar helt på säkerhetstekniska frågor som är unika för AI/ML-utrymmet, men på grund av infosec-domänens omfattande karaktär är det underförstått att problem och resultat som beskrivs här överlappar i viss mån sekretess- och etikdomänerna. I det här dokumentet diskuterar vi utmaningar med strategisk betydelse för teknikbranschen och riktar oss därför främst till branschens beslutsfattare inom säkerhetsteknik.

Vår forskning visar att:

  • AI/ML-specifika justeringar av befintlig säkerhetspraxis krävs för att minimera de typer av säkerhetsproblem som beskrivs i det här dokumentet.

  • Maskininlärningsmodeller har i hög grad svårt att skilja mellan skadliga indata och oskadliga avvikande data. En betydande källa till träningsdata härleds från oskyddade, oförändrade, offentliga datamängder, som är öppna för bidrag från tredje part. Angripare behöver inte kompromettera datauppsättningar när de är fria att bidra till dem. Med tiden blir skadliga data med låg konfidens betrodda data, om datastrukturen/formateringen förblir korrekt.

  • Med tanke på det stora antalet lager av dolda klassificerare/neuroner som kan användas i en djupinlärningsmodell läggs för mycket förtroende på utdata från AI/ML-beslutsprocesser och algoritmer utan någon kritisk förståelse för hur dessa beslut fattades. Denna brist på transparens gör det svårt att ”demonstrera ditt arbete” och att styrka AI/ML-fynd om de ifrågasätts.

  • AI/ML används i allt större utsträckning som stöd i kritiska beslutsprocesser inom medicin och andra branscher där fel beslut kan leda till allvarlig skada eller dödsfall. Bristen på datautredningsmöjligheter med AI/ML gör det svårt att försvara dessa viktiga slutsatser i såväl domstol som i den allmänna opinionen.

Målet med det här dokumentet är att (1) belysa säkerhetstekniska problem, som är unika för AI/ML-utrymmet, (2) visa några inledande tankar och observationer om nya hot och (3) dela tidiga tankar om potentiella åtgärder. Några av utmaningarna i det här dokumentet är problem som branschen behöver komma till rätta med under de kommande två åren, andra är problem som kräver en snabbare lösning. Utan djupare undersökning av de områden som beskrivs i det här dokumentet riskerar vi att framtida AI blir en svart ruta genom vår oförmåga att lita på eller förstå (och ändra vid behov) AI-beslutsprocesser på matematisk nivå [7]. Ur ett säkerhetsperspektiv innebär detta i praktiken förlust av kontroll och ett avsteg från Microsofts vägledande principer för artificiell intelligens [3, 7].

Nya säkerhetstekniska utmaningar

Traditionella programattackvektorer är fortfarande viktiga att åtgärda, men de ger inte tillräcklig täckning i AI/ML-hotlandskapet. Teknikbranschen måste undvika att bekämpa nästa generations problem med den förra generationens lösningar genom att utveckla nya ramverk och implementera nya strategier som åtgärdar brister i designen och driften av AI/ML-baserade tjänster:

  1. Som vi diskuterar nedan är motståndskraft och diskretion fundamentala koncept i en säker utvecklings- och driftstruktur för att skydda AI och de data som står under dess kontroll. AI-specifika justeringar krävs inom områden som autentisering, uppgiftsfördelning, indatavalidering och förebyggande av Denial of Service-angrepp. Utan investeringar inom dessa områden fortsätter AI/ML-tjänster att kämpa i uppförsbacke mot angripare på alla kompetensnivåer.

  2. AI måste kunna identifiera bias hos andra, utan att vinkla de egna interaktionerna med människor. Detta kräver en gemensam och större förståelse av bias, stereotyper, jargong och andra kulturella konstruktioner. En sådan förståelse hjälper till att skydda AI från manipuleringsattacker för sociala tekniker och datamängder. Ett korrekt implementerat system blir faktiskt starkare från sådana attacker och kan dela sin utökade förståelse med andra AIs.

  3. Maskininlärningsalgoritmer måste kunna urskilja skadligt introducerade data från godartade "Black Swan"-händelser [1] genom att avvisa träningsdata med negativ inverkan på resultaten. Annars är inlärningsmodeller alltid mottagliga för spel av angripare och troll.

  4. AI måste ha inbyggda datautredningsfunktioner. Detta gör det möjligt för företag att ge kunderna transparens och ansvarsskyldighet för sin AI, vilket säkerställer att dess åtgärder inte bara är verifierbart korrekta utan också juridiskt försvarbara. Dessa funktioner fungerar också som en tidig form av ”AI-intrångsidentifiering”, så att tekniker kan avgöra exakt när ett beslut fattades av en klassificerare, vilka data som påverkar det och huruvida dessa data var tillförlitliga eller inte. Datavisualiseringsfunktionerna i det här området utvecklas snabbt och visar löfte om att hjälpa tekniker att identifiera och lösa rotorsaker till dessa komplexa problem [10].

  5. AI måste kunna känna igen och skydda känslig information, även om människor inte uppfattar den som känslig. Eftersom avancerade användarupplevelser i AI kräver träning med stora mängder rådata måste aspekter som ”överdelning” av kunder beaktas.

Vart och ett av dessa områden, inklusive hot och möjliga förebyggande åtgärder, diskuteras i detalj nedan.

AI kräver att traditionella modeller för säker design och drift kompletteras med hög motståndskraft och diskretion

AI-designers måste säkerställa konfidentialitet, integritet och tillgänglighet för känsliga data, att AI-systemet är fritt från kända sårbarheter och tillhandahålla kontroller för skydd, identifiering och svar på skadligt beteende mot systemet eller användarens data.

De traditionella sätten att försvara sig mot skadliga attacker ger inte samma täckning i det här nya paradigmet, där röst-/video-/bildbaserade attacker kan kringgå aktuella filter och försvar. Nya hotmodelleringsaspekter måste utforskas för att förhindra att AI utnyttjas på fel sätt. Det handlar om mycket mer än att identifiera den traditionella attackytan genom ”fuzzing” eller indatamanipulering (som kräver sina egna AI-specifika överväganden). Scenarier som är unika för AI/ML-domänen måste inkluderas. Särskilt viktiga bland dessa är AI-användarupplevelser såsom röst, video och gester. Hoten i samband med dessa upplevelser har inte traditionellt modellerats. Till exempel anpassas videoinnehåll nu för att ge fysiska effekter. Dessutom visar forskning att ljudbaserade attackkommandon kan utformas [9].

Cyberbrottslingarnas, beslutsamma angripares och nättrollens oförutsägbarhet, kreativitet och illvilja kräver att våra AI-produkter är både motståndskraftiga och diskreta:

Motståndskraft: Systemet bör kunna identifiera onormala beteenden och förhindra manipulering eller tvång utanför normala gränser för acceptabelt beteende i förhållande till AI-systemet och den specifika uppgiften. Det här är nya typer av angrepp som är specifika för AI/ML-området. System måste vara utformade att neka indata som strider mot lokala lagar, etik eller värderingar som råder i samhället och som dess upphovsmän står bakom. Det handlar om att AI-systemet måste kunna avgöra när en interaktion ”går för långt”. Detta skulle kunna uppnås med följande metoder:

  1. Hitta enskilda användare som avviker från normer som anges av olika stora kluster av liknande användare, till exempel användare som verkar skriva för snabbt, svara för snabbt, inte sova eller utlösa delar av systemet som andra användare inte gör.

  2. Identifiera kända beteendemönster som väcker misstanke om avsökningsangrepp eller ett förestående nätverksintrång.

  3. Identifiera när som helst när flera användare agerar på ett samordnat sätt; Till exempel flera användare som alla utfärdar samma oförklarliga men avsiktligt utformade fråga, plötsliga toppar i antalet användare eller plötsliga toppar i aktiveringen av specifika delar av ett AI-system.

Attacker av den här typen bör betraktas i nivå med Denial of Service-attacker eftersom AI:n kan kräva felkorrigeringar och omträning för att inte falla för samma trick igen. Av avgörande betydelse är möjligheten att identifiera skadlig avsikt i närvaro av motåtgärder, till exempel de som används för att besegra API:er för attitydanalys [4].

Diskretion: AI bör vara en ansvarsfull och pålitlig förvaltare av all information som den har åtkomst till. Som människor tilldelar vi utan tvekan en viss nivå av förtroende för våra AI-relationer. Förr eller senare kommer dessa agenter att tala med andra agenter eller människor i vårt ställe. Vi måste kunna lita på att ett AI-system är tillräckligt diskret och att det endast delar information om oss som andra agenter behöver för att kunna utföra en uppgift för dess räkning. Dessutom bör flera agenter som interagerar med personuppgifter för vår räkning inte behöva global åtkomst till dem. I dataåtkomstscenarier som involverar flera AI-system eller robotagenter bör åtkomsten begränsas till kortast möjliga tidsperiod. Användare bör också kunna neka data och avvisa autentisering av agenter från specifika företag eller nationella inställningar precis som webbläsare tillåter webbplatsblockering idag. Det här problemet kräver att vi tänker i nya banor kring autentiseringen mellan agenter och åtkomstbehörigheter, som investeringarna i molnbaserad användarautentisering under de första åren av molnbaserad databehandling.

AI måste kunna upptäcka bias hos andra utan att själv vinkla information

AI bör vara rättvist och inkluderande och inte diskriminera särskilda grupper med individer eller legitima utfall, vilket förutsätter en inneboende förståelse för bias. Utan att tränas för att känna igen fördomar, trolling eller sarkasm kan AI luras av dem som söker billiga skratt i bästa fall eller orsakar skada för kunderna i värsta fall.

Den här nivån av insikter förutsätter att ”välvilliga personer lär AI illasinnade saker” eftersom det krävs djup och kontinuerlig förståelse för kulturell bias. AI bör kunna känna igen en användare som den tidigare hade negativa interaktioner med och iaktta lämplig försiktighet, ungefär som hur föräldrar lär sina barn att vara försiktiga med främlingar. Det bästa sättet att hantera detta är att exponera AI för nättroll på ett kontrollerat, modererat och begränsat sätt. På så sätt kan AI lära sig skillnaden mellan en välvillig användare ”som bara kollar in systemet” och nättroll eller angripare som är ute efter att orsaka skada. Nättroll kan ge värdefulla träningsdata för AI, och öka motståndskraften mot framtida attacker.

AI bör också kunna identifiera bias i datauppsättningar som det tränas med. Detta kan vara kulturellt eller regionalt och kan till exempel innehålla jargong som används av en viss grupp med människor eller ämnen/synvinklar av särskilt intresse för en grupp. Precis som med skadligt introducerade träningsdata måste AI vara motståndskraftigt mot effekterna av dessa data på sina egna slutsatser och avdrag. I grunden handlar det om ett problem med sofistikerad indatavalidering som har likheter med bindningskontroller. I stället för att hantera buffertlängder och förskjutningar, är buffert- och bindningskontrollerna rödflaggade ord från en rad olika källor. Konversationshistoriken och kontexten där ord används är också viktiga. På samma sätt som strikt skyddspraxis används för att skydda lager på en traditionell webbtjänst-API-klient bör flera skyddslager används för att känna igen bias och försök att kringgå säkerhetsmekanismer.

Maskininlärningsalgoritmer måste kunna urskilja skadligt introducerade data från godartade "Black Swan"-händelser

Många whitepapers publiceras om den teoretiska potentialen för ML-modell/klassificerare manipulering och extrahering/stöld från tjänster där angripare har tillgång till både träningsdatauppsättningen och en informerad förståelse för den modell som används [2, 3, 6, 7]. Det övergripande problemet här är att alla ML-klassificerare kan luras av en angripare som har kontroll över träningsuppsättningsdata. Angripare behöver inte ens ha möjlighet att ändra den befintliga uppsättningen med träningsdata. De behöver bara kunna introducera data i den och få dessa att med tiden betraktas som ”tillförlitliga”, vilket är fullt möjligt om ML-klassificeraren inte kan skilja mellan skadliga data och legitima men avvikande data.

Det här problemet med inmatningen av träningsdata för oss vidare in på konceptet ”beslutsintegritet”. Beslutsintegritet handlar om att identifiera och avvisa skadliga inmatade träningsdata eller användarindata innan de kan påverka klassificerarens beteende. Logiken här är att tillförlitliga träningsdata har en högre sannolikhet att generera tillförlitliga resultat/beslut. Även om det fortfarande är viktigt att träna på och vara motståndskraftiga mot ej betrodda data, bör den skadliga karaktären hos dessa data analyseras innan de blir en del av en högkonfidenstext med träningsdata. Annars kan AI fås att överreagera på nättroll och neka legitima användare åtkomst till tjänster.

Detta är särskilt viktigt då obevakade inlärningsalgoritmer tränas med icke-kurerade eller icke-betrodda datauppsättningar. Det betyder att angripare kan mata in vilka data de vill så länge formatet är giltigt och algoritmen har tränats med dem, så att den datapunkten ses som lika tillförlitlig som resten av träningsuppsättningen. Med tillräckligt många konstruerade indata från angriparen kan algoritmen inte längre skilja brus och avvikelser från data med hög tillförlitlighet.

Föreställ dig till exempel en databas med stoppskyltar runtom i världen, på alla språk. Det skulle vara extremt svårt att kurera den på grund av den stora mängden bilder och språk. En skadlig inmatning i datauppsättningen skulle sannolikt gå obemärkt förbi tills självkörande bilar inte längre känner igen stoppskyltar. Åtgärder för dataresiliens och beslutsintegritet måste fungera hand i hand här för att identifiera och eliminera träningsskador som orsakas av skadliga data för att förhindra att de blir en viktig del av inlärningsmodellen.

Transparens och ansvarstagande förutsätter att AI har inbyggd datautredning- och säkerhetsloggning

På sikt kommer AI att kunna fungera som en kompetent agent å våra vägnar, och underlätta beslut som kan få stora konsekvenser. Ett exempel på detta kan vara en AI som hjälper till att bearbeta finansiella transaktioner. Om AI:n utnyttjas och transaktioner manipuleras på något sätt kan konsekvenserna sträcka sig från individen till systemiska. I högvärdesscenarier behöver AI lämplig kriminalteknisk loggning och säkerhetsloggning för att tillhandahålla integritet, transparens, ansvarsskyldighet och i vissa fall bevis där civilt eller straffrättsligt ansvar kan uppstå.

Viktiga AI-tjänster behöver gransknings-/händelsespårningsanläggningar på algoritmnivå där utvecklare kan undersöka det registrerade tillståndet för specifika klassificerare, vilket kan ha lett till ett felaktigt beslut. Hela branschen har behov av den här funktionen för att kunna bevisa riktigheten och transparensen i AI-genererade beslut om dessa ifrågasätts.

Händelsespårningen kan börja med korrelationen av grundläggande beslutsinformation, t.ex.:

  1. Tidsramen då den senaste träningshändelsen inträffade

  2. Tidsstämpeln för den senaste tränade datauppsättningsposten

  3. Viktning och konfidensnivåer för viktiga klassificerare som används för att komma fram till beslut med stor effekt

  4. Klassificerarna eller komponenterna som beslutet bygger på

  5. Det slutliga beslutet med stort värde som genereras av algoritmen

Sådan spårning är overkill för de flesta algoritmassisterade beslutsfattande. Att kunna identifiera datapunkter och algoritmmetadata som leder till specifika resultat är dock till stor nytta vid beslutsfattande med högt värde. Sådana funktioner visar inte bara tillförlitlighet och integritet genom algoritmens förmåga att "visa sitt arbete", utan dessa data kan också användas för finjustering.

En annan datautredningsfunktion som behövs inom AI/ML är manipulationsidentifiering. På samma sätt som AI måste kunna känna igen och stå emot bias behöver vi datautredningsfunktioner som hjälper utvecklare att identifiera och bemöta sådana angrepp. Sådana tekniska funktioner har ett enormt värde när de kombineras med datavisualiseringstekniker [10] som gör det möjligt att granska, felsöka och justera algoritmer för effektivare resultat.

AI måste skydda känslig information, även om människor inte gör det

Omfattande upplevelser kräver omfattande data. Människor lämnar redan frivilligt ut stora mängder data som ML kan tränas mot. Det rör sig om allt från vanligt innehåll i videoströmningsköer till trender i kreditkortsköp/transaktionshistorik som används för att upptäcka bedrägerier. AI bör ha en inrotad känsla av diskretion när det gäller hantering av användardata, som alltid agerar för att skydda dem även när de är frivilliga fritt av en överdelnings allmänhet.

Eftersom ett AI-system kan ha en autentiserad grupp med ”peer-datorer” som det kommunicerar med för att utföra komplexa uppgifter är det viktigt att systemet vet när datadelningen med dessa peer-datorer behöver begränsas.

Tidiga observationer angående hanteringen av AI-säkerhetsproblem

Trots projektets begynnande tillstånd anser vi att de bevis som hittills har sammanställts visar att en djupare undersökning av vart och ett av nedanstående områden är nyckeln till att flytta vår bransch mot mer tillförlitliga och säkra AI/ML-produkter/tjänster. Följande är våra tidiga observationer och reflektioner kring vad vi skulle vilja se inom detta område.

  1. En AI/ML-fokuserad penetrationstestnings- och säkerhetsgranskningsgrupp skulle kunna upprättas för att se till att framtidens AI delar våra värderingar och följer AI-principerna från Asilomar.

    1. Den här gruppen skulle också kunna ta fram verktyg och ramverk som kan användas i hela branschen för att skydda AI/ML-baserade tjänster.
    2. Med tiden kommer den här kompetensen att växa organiskt inom teknikgrupper, på samma sätt som traditionell säkerhetskompetens har gjort de senaste tio åren.
  2. Man skulle kunna ta fram utbildning som hjälper företag att leverera enligt mål och vision, för att till exempel demokratisera AI men samtidigt undvika de problem som diskuteras i det här dokumentet.

    1. AI-specifik säkerhetsutbildning lär tekniker att vara medvetna om riskerna som deras AI-system är exponerade för och om de resurser som finns till hands. Det här materialet måste levereras med aktuell utbildning om att skydda kunddata.
    2. Detta kan uppnås utan att dataexperter behöver bli säkerhetsexperter – i stället ligger fokus på att lära utvecklare om motståndskraft och diskretion med utgångspunkt i deras specifika AI-användningsfall.
    3. Utvecklare måste förstå de säkra "byggstenarna" för AI-tjänster som återanvänds i hela företaget. Det måste finnas en betoning på feltolerant design med undersystem, som enkelt kan stängas av (till exempel bildprocessorer, textparsers).
  3. ML-klassificerare och deras underliggande algoritmer kan härdas och kan identifiera skadliga träningsdata utan att de kontaminerar legitima träningsdata som används och utan att förvränga resultaten.

    1. Tekniker som Reject on Negative Input [5] behöver forskarcykler för att undersöka.

    2. I detta arbete ingår bland annat matematisk verifiering, konceptbevis i kod och testning av både skadliga och oskadliga avvikande data.

    3. Mänskliga punktkontroller/moderering kan vara värdefullt, särskilt vid förekomsten av statistiska avvikelser.

    4. ”Övergripande klassificerare” med en mer universell förståelse om hoten i många AI-system skulle kunna utvecklas. Detta förbättrar avsevärt säkerheten i systemet eftersom angriparen inte längre kan exfiltrera en viss specifik modell.

    5. AI-system skulle kunna kopplas ihop för att identifiera hot i varandras system

  4. Man skulle kunna upprätta ett centralt bibliotek för ML-granskning och ML-datautredning som sätter en standard för transparens och tillförlitlighet i AI-system.

    1. Man skulle också kunna utveckla frågefunktioner som granskar och rekonstruerar AI-baserade beslut med stor effekt.
  5. Jargong och vardagsspråk som används av angripare i olika kulturella grupper och på sociala medier skulle kunna inventeras och analyseras löpande av AI för att identifiera och bemöta nättroll, sarkasm osv.

    1. AI-system måste ha stor flexibilitet och kunna hantera vardagsspråk och all slags jargong, såväl teknisk som regions- eller forumspecifik.

    2. Den här kunskapsmängden kan också användas vid innehållsfiltrering/etikettering/blockering av automatisering för att hantera moderatorns skalbarhetsproblem.

    3. Den här globala databasen med termer skulle kunna placeras i utvecklingsbibliotek eller till och med exponeras via molntjänst-API:er för återanvändning av olika AI-system, så att nya AI-system kan dra nytta av de samlade lärdomarna från äldre system.

  6. Man skulle kunna skapa ett ”Machine Learning Fuzzing Framework” som ger utvecklare möjlighet att mata in olika typer av angrepp i testträningsuppsättningar som kan utvärderas av AI.

    1. Detta kan fokusera på inte bara text vernacular, men bild, röst och gestdata och permutationer av dessa datatyper.

Slutsats

AI-principerna från Asilomar tydliggör komplexiteten med att leverera AI-tjänster på ett sätt som är till nytta för mänskligheten. Framtida API:er måste interagera med andra API:er för att leverera omfattande, övertygande användarupplevelser. Det innebär att det helt enkelt inte är tillräckligt bra för Microsoft att "få AI rätt" ur ett säkerhetsperspektiv – världen måste göra det. Vi behöver branschanpassning och samarbete med större synlighet för frågorna i detta dokument på ett sätt som liknar vår världsomspännande strävan efter en digital Genèvekonvention [8]. Genom att fokusera på de problem som beskrivs här kan vi börja vägleda våra kunder och branschpartner längs en väg där AI verkligen är demokratiserat och bidrar med intelligens till hela mänskligheten.

Referenslista

[1] Taleb, Nassim Nicholas (2007), The Black Swan: The Impact of the Highly Improbable, Random House, ISBN 978-1400063512

[2] Florian Tramèr, Fan Zhang, Ari Juels, Michael K. Reiter, Thomas Ristenpart, Stealing Machine Learning Models via Prediction API:er

[3] Satya Nadella:Partnerskap av framtiden

[4] Claburn, Thomas:Googles trollförstörande AI klarar inte av stavfel

[5] Marco Barreno, Blaine Nelson, Anthony D. Joseph, J.D. Tygar:Säkerheten för maskininlärning

[6] Wolchover, Natalie:This Artificial Intelligence Pioneer har några bekymmer

[7] Conn, Ariel:How Do We Align Artificial Intelligence with Human Values?

[8] Smith, Brad:Behovet av brådskande kollektiva åtgärder för att hålla människor säkra online: Lektioner från förra veckans cyberattack

[9] Nicholas Carlini, Pratyush Mishra, Tavish Vaidya, Yuankai Zhang, Micah Sherr, Clay Shields, David Wagner, Wenchao Zhou:Hidden Voice Commands

[10] Fernanda Viégas, Martin Wattenberg, Daniel Smilkov, James Wexler, Jimbo Wilson, Nikhil Thorat, Charles Nicholson, Google Research:Big Picture