Mesterségesintelligencia-/gépi tanulási rendszerek és függőségek fenyegetésmodellezése

Szerzők: Andrew Marshall, Jugal Parikh, Emre Kiciman és Ram Shankar Siva Kumar

Külön köszönet Raul Rojasnak és az AETHER Security Engineering Workstreamnek.

2019. november

Ez a dokumentum az AETHER Engineering Practices for AI (AETHER MI-tervezési eljárások) munkacsoportjának terméke, és kiegészíti a meglévő SDL-fenyegetésmodellezési eljárásokat azáltal, hogy új útmutatást nyújt a veszélyek számbavételére és elhárítására az MI és gépi tanulási területre vonatkozóan. Ez a dokumentum azért készült, hogy referenciaként szolgáljon az alábbi biztonsági terváttekintések során:

  1. Mesterséges intelligencián/gépi tanuláson alapuló szolgáltatásokat használó vagy azoktól függő termékek/szolgáltatások

  2. Mesterséges intelligencián/gépi tanuláson alapuló termékek/szolgáltatások

A hagyományos biztonsági fenyegetések elhárítása fontosabb, mint valaha. A Biztonságfejlesztési életciklusban meghatározott követelmények elengedhetetlenek egy olyan termék biztonsági alapjainak megalapozásához, amelyre ez az útmutató épít. A hagyományos biztonsági fenyegetések elhárításának elmulasztása lehetővé teszi a jelen dokumentumban tárgyalt mesterséges intelligenciával/gépi tanulással kapcsolatos támadásokat a szoftveres és a fizikai tartományokban egyaránt, valamint a szoftverkészlet alsóbb rétegei biztonságának veszélyeztetését. A terület új biztonsági fenyegetéseinek bemutatásához lásd a mesterséges intelligencia és a gépi tanulás jövőjének biztonságossá tételét a Microsoftnál.

A biztonsági mérnökök és az adatszakértők készségei általában nincsenek átfedésben egymással. Ez az útmutató lehetővé teszi, hogy a két szakterület megbeszéléseket folytathasson az új fenyegetésekről és azok elhárításáról anélkül, hogy a biztonsági mérnököknek adatszakértőkké kellene válniuk, vagy fordítva.

A dokumentum két szakaszra osztható:

  1. „A fenyegetésmodellezés legfontosabb új szempontjai” szakasz a mesterséges intelligencia/gépi tanulás fenyegetésmodellezésének új szemléleteit és kérdéseit tárgyalja. Az adatszakértőknek és a biztonsági mérnököknek egyaránt érdemes áttekinteniük, mivel ezt használják majd útmutatóként a fenyegetésmodellezéssel kapcsolatos megbeszélésekhez és az elhárítási lépések priorizálásához.
  2. „A mesterséges intelligenciát/gépi tanulást érintő fenyegetések és az elhárításuk módja” című szakasz részletesen ismerteti az egyes támadásokat, valamint a jelenleg a Microsoft-termékeket és -szolgáltatásokat érintő fenyegetések elleni védelemhez használatos elhárítási lépéseket. Ez a szakasz elsősorban azoknak az adatszakértőknek szól, akiknek a fenyegetések modellezése/biztonsági felülvizsgálati folyamata során bizonyos veszélyforrások elhárítását kell megvalósítaniuk.

Ez az útmutató a Ram Shankar Siva Kumar, David O'Brien, Kendra Albert, Salome Viljoen és Jeffrey Snover által létrehozott Adversarial Machine Tanulás Threat Taxonomy köré szerveződik,"Failure Modes in Machine Tanulás" címmel. A jelen dokumentumban részletezett biztonsági fenyegetések osztályozásával kapcsolatos incidenskezelési útmutatásért tekintse meg az AI/ML-fenyegetések SDL-hibasávját. Ezek mind élő dokumentumok, amelyek idővel fejlődni fognak a fenyegetési környezettel.

A fenyegetésmodellezés legfontosabb új szempontjai: A megbízhatósági határok megtekintésének módosítása

Tegyük fel, hogy veszélyeztetik/beszennyezik az adatokat, amelyekből Ön, valamint az adatszolgáltató a betanítást végzi. Ismerje meg, hogyan észlelheti a rendellenes és rosszindulatú adatbejegyzéseket, valamint hogyan tudja megkülönböztetni azokat egymástól, és elvégezni helyreállítást.

Összesítés

A betanítási adattárak és az azokat üzemeltető rendszerek a fenyegetésmodellezési hatókör részét képezik. A gépi tanulásban rejlő legnagyobb biztonsági fenyegetés napjainkban az adatszennyezés, mert a nem megbízható/ellenőrizetlen nyilvános adathalmazok tanulási adatként való használata mellett ezen a területen nincsenek szabványos eljárások ennek észlelésére és elhárítására. Az adatok eredetének ismerete és nyomon követése elengedhetetlen a megbízhatóságuk garantálásához és a „válogatatlan bemenet válogatatlan kimenetet eredményez” betanítási ciklus elkerüléséhez.

Megválaszolandó kérdések a biztonsági felülvizsgálat során

  • Hogyan ismerné fel, hogy adatait beszennyezték vagy illetéktelenül módosították?

    – Milyen telemetriával rendelkezik a betanítási adatai minőségi hibáinak észlelésére?

  • Felhasználói bemenetekről végzi a betanítást?

    – Milyen típusú ellenőrzést/tisztítást végez a bemeneti tartalmon?

    – A dokumentált adatok hasonlítanak az adathalmazok adatlapjaira?

  • Ha online adattárakkal végez betanítást, milyen lépéseket tesz a modell és az adatok közötti kapcsolat biztonsága érdekében?

    – Van mód arra, hogy jelentsék a végfelhasználók forrásait ért illetéktelen hozzáférést?

    – Egyáltalán képesek erre?

  • Mennyire bizalmas adatokkal végzi a betanítást?

    – Katalogizálja vagy szabályozza az adatbejegyzések hozzáadását/frissítését/törlését?

  • Tartalmazhat a modell kimenete bizalmas adatokat?

    – Az adatokat a forrás engedélyével szerezte be?

  • A modell csak a cél eléréséhez szükséges kimenetet eredményezi?

  • A modell visszaad nyers megbízhatósági pontszámokat vagy bármilyen más közvetlen kimenetet, amely rögzíthető és duplikálható?

  • Milyen hatása van, ha a betanítási adatait a modell támadásával/megfordításával kinyerik?

  • Ha a modell kimenetének megbízhatósági szintjei hirtelen csökkennének, meg tudná állapítani, hogy ez hogyan/miért történt, és hogy mely adatok okozták?

  • Jól formázott bemenetet határozott meg a modellhez? Mit tesz annak érdekében, hogy a bemenetek megfeleljenek ennek a formátumnak, és mit tesz, ha nem felelnek meg?

  • Honnan értesül arról, ha a kimenetek helytelenek, de nem okoznak jelentésekben szereplő hibákat?

  • Tudja-e, hogy a betanítási algoritmusok matematikai szinten ellenállnak-e a kártékony bemeneteknek?

  • Hogyan állítja helyre a betanítási adatok kártékony beszennyezését?

    – El tudja különíteni/karanténba tudja helyezni a kártékony tartalmat, és újra tudja tanítani az érintett modelleket?

    – Vissza tud állítani egy korábbi modellverziót az ismételt betanításhoz?

  • Ellenőrizetlen nyilvános tartalmon használ megerősítő tanulást?

  • Az adatok követésekor, ha problémát talál, nyomon tudja követni egészen az adathalmazba való bevezetéséig? Ha nem, akkor problémát jelent mindez?

  • Az anomáliák felismeréséhez ismernie kell a betanítási adatok eredetét, és azonosítania kell a statisztikai normákat

    – A betanítási adatok mely elemei vannak kitéve a külső befolyásolásnak?

    – Ki járulhat hozzá a betanításhoz használt adathalmazokhoz?

    Ön hogyan támadná meg a saját betanítási adatforrásait, ha károkat szeretne okozni a versenytársaknak?

  • Megzavarás kártékony céllal (az összes változat)

  • Adatszennyezés (az összes változat)

Példatámadások

  • A jóindulatú e-mailek levélszemétként való besorolásának kikényszerítése, vagy kártékony példa átjuttatása anélkül, hogy a rendszer észlelné

  • A támadó létrehozhat mesterséges bemeneteket a helyes besorolás megbízhatósági szintjének csökkentése céljából, különösen a jelentős következményekkel járó forgatókönyvekben

  • A támadó véletlenszerű zajt injektál a besorolás alatt álló forrásadatokba a helyes besorolás valószínűségének jövőbeni csökkentése érdekében lebutítva a modellt

  • A betanítási adatpontok szennyezése, ami a kiválasztott adatpontok hibás besorolását okozza, és bizonyos műveletek elvégzését/kihagyását eredményezi

A modell(ek) vagy termék/szolgáltatás által elvégezhető azon műveletek azonosítása, amelyek az ügyfélnek kárt okozhatnak az online vagy a fizikai tartományban

Összesítés

A mesterséges intelligencián/gépi tanuláson alapuló rendszerek elleni elhárítatlan támadások hatással lehetnek a fizikai világra is. Minden olyan esemény, amely pszichológiailag vagy fizikailag ártalmas lehet a felhasználókra, végzetes kockázatot jelent a termékére vagy szolgáltatására nézve. Ez kiterjed minden olyan, az ügyfelekkel kapcsolatos bizalmas adatra, amelyet betanításra használnak és a bizalmas adatok esetleges kiszivárgását okozó tervezési döntésekre.

Megválaszolandó kérdések a biztonsági felülvizsgálat során

  • Kártékony célú példákkal végzi a betanítást? Milyen hatással vannak a modell kimenetére a fizikai tartományban?

  • Milyen hatással van a trollkodás a termékre/szolgáltatásra nézve? Hogyan tudja észlelni és elhárítani?

  • Mi kell ahhoz, hogy a modell olyan eredményt adjon vissza, amely félrevezeti a rendszert, és elutasítja a jogosult felhasználók hozzáférését?

  • Mit eredményez a modell lemásolása/ellopása?

  • Felhasználható a modell arra, hogy egy adott csoporthoz tartozó vagy a betanítási adatokban szereplő személy tagságára lehessen következtetni?

  • Okozhatják a támadók a termék hírnevének vagy a megbízhatóságának károsodását, ha arra kényszerítik, hogy bizonyos műveleteket hajtson végre?

  • Hogyan kezeli a megfelelő formátumú, de elfogult, például trolloktól származó adatokat?

  • A modell ki van téve a használatkor és az abból való lekérdezés során. Felfedheti ez a betanítási adatokat vagy a modell működését?

  • Tagsági következtetés

  • Modellinverzió

  • Modell-lopás

Példatámadások

  • A betanítási adatok rekonstrukciója és kinyerése a modell ismételt lekérdezésével a maximális megbízhatóságú eredmények érdekében

  • A modell duplikálása teljes körű lekérdezés–válasz párosítással

  • A modell lekérdezése oly módon, hogy felfedje a betanítási adathalmazban lévő személyes adatok egy részét

  • Önvezető autó félrevezetése, hogy figyelmen kívül hagyja a stoptáblákat/közlekedési lámpákat

  • Beszélgetőrobotok manipulálása, hogy azok jóindulatú felhasználókkal trollkodjanak

A mesterséges intelligencia/gépi tanulás függőségforrásainak, valamint az adatok/modell ellátási láncában található előtér-megjelenítési rétegek beazonosítása

Összesítés

A mesterséges intelligenciát és a gépi tanulást érő számos támadás az olyan API-khoz való jogosult hozzáféréssel kezdődik, amelyek a modell lekérdezési hozzáférésének biztosítása érdekében érhetők el. Az itt szereplő gazdag adatforrások és gazdag felhasználói élmény miatt a harmadik felek hitelesített, de „nem megfelelő” (szürke zónás) hozzáférése a modellekhez kockázatos, mert a Microsoft által biztosított szolgáltatáson felüli megjelenítési rétegként is funkcionálhat.

Megválaszolandó kérdések a biztonsági felülvizsgálat során

  • Mely ügyfelek/partnerek rendelkeznek hitelesítéssel a modell vagy szolgáltatás API-jainak eléréséhez?

    – Működhetnek a szolgáltatáson felüli megjelenítési rétegként?

    – Azonnal vissza tudja vonni a hozzáférésüket a biztonság veszélyeztetése esetén?

    – Mi a helyreállítási stratégia a szolgáltatás vagy a függőségek rosszindulatú használata esetén?

  • Építhet harmadik fél előtérrendszert a modell köré olyan módon, hogy más célokra használja, és kárt okozzon a Microsoftnak vagy ügyfeleinek?

  • Az ügyfelek közvetlenül Önnek adják át a betanítási adatokat?

    – Hogyan gondoskodik az adatok biztonságáról?

    – Mi történik, ha az kártékony, és a szolgáltatását célozza?

  • Hogy néz ki egy vakriasztás? Mit eredményez egy vakriasztás?

  • Nyomon tudja követni és mérhetővé tudja tenni a valódi és vakriasztások aránya közötti eltéréseket több modell között?

  • Milyen típusú telemetriára van szükség, hogy a modell a felhasználóknak szánt kimenetének megbízhatóságát igazolja?

  • Azonosítsa a külső felekhez kapcsolódó függőségeket a gépi tanulási/betanítási adatok ellátási láncában – ne csak a nyílt forráskódú szoftvereket, hanem az adatszolgáltatókat is.

    – Miért használja őket, és hogyan ellenőrzi a megbízhatóságukat?

  • Külső féltől származó, előre elkészített modelleket használ, vagy elküldi a betanítási adatokat külső MLaaS-szolgáltatónak?

  • Gyűjtse össze a hasonló termékekre/szolgáltatásokra irányuló támadásokról szóló híreket. Annak ismeretében, hogy a mesterséges intelligenciát/gépi tanulást fenyegető számos veszély több modelltípust is érinthet, milyen hatással lennének ezek a támadások a saját termékeire?

  • Neurális háló újraprogramozása

  • Kártékony célú példák a fizikai tartományban

  • Rosszindulatú gépitanulás-szolgáltatók betanítási adatokat szereznek meg

  • A gépi tanulás ellátási láncának megtámadása

  • A kiskapus modell

  • Sérült biztonságú, gépitanulás-specifikus függőségek

Példatámadások

  • Egy rosszindulatú MLaaS-szolgáltató egy adott megkerülést alkalmazó trójai programmal fertőzi meg a modellt

  • Egy ellenséges ügyfél biztonsági rést talál az Ön által használt általános OSS-függőségben, és mesterségesen összeállított betanítási adatokat tölt fel a szolgáltatás hatékonyságának rontása céljából

  • Egy gátlástalan partner arcfelismerési API-kat használ, és egy megjelenítési réteget hoz létre a szolgáltatás felett élethű hamisítványok (deep fake-ek) létrehozásához.

A mesterséges intelligenciát/gépi tanulást érintő fenyegetések és az elhárításuk módja

#1: Adversarial Perturbation

Leírás

A megzavarásra épülő támadásokban a támadó titokban módosítja a lekérdezést, hogy a kívánt választ kapja az éles környezetben üzembe helyezett modelltől[1]. Ez a modellbemenet integritásának megsértése, ami fuzz tesztelés jellegű támadásokhoz vezet, amelyek következtében a végeredmény nem feltétlenül egy hozzáférés-megsértés vagy EOP, hanem inkább a modell besorolási teljesítményének befolyásolása. Mindez abban is megnyilvánulhat, hogy a trollok úgy használnak bizonyos célszavakat, hogy a mesterséges intelligencia letiltsa azokat, amivel lényegében megtagadják a szolgáltatást a „letiltott” szóval egyező nevű, jogszerű felhasználók tekintetében.

Diagram that shows increasing attack difficulty when complexity is increasing and capability is decreasing.[24]

Variant #1a: Célzott helytelen besorolás

Ebben az esetben a támadók olyan mintát hoznak létre, amely nem található meg a célosztályozó bemeneti osztályában, de a modell az adott bemeneti osztályként sorolja be. A kártékony célú minta véletlenszerű zajként jelenhet meg az emberi szem számára, a támadók azonban ismeretekkel rendelkeznek a célszámítógép tanulási rendszeréről, így olyan fehér zajt hozhatnak létre, amely nem véletlenszerű, hanem a megcélzott modell bizonyos aspektusait használja ki. A támadó olyan bemeneti mintát biztosít, amely nem szabályos minta, de a célrendszer szabályos osztályként sorolja be.

Példák

A diagram showing that a photo of targeted noise is incorrectly classified by an image classifier resulting in a photo of a bus.[6]

Mitigations

  • Az Adversarial Robustness megerősítése az Adversarial Training által kiváltott modell megbízhatóságával [19]: A szerzők a megbízhatósági információkat és a legközelebbi szomszédkeresést kombináló keretrendszert javasolják a megbízhatósági információk és a legközelebbi szomszédkeresés kombinálására, hogy megerősítsék az alapmodellek megbízhatóságát. A keretrendszer segítséget nyújt a helyes és helytelen modell-előrejelzések megkülönböztetésében az alapul szolgáló betanítási eloszlásból mintaként vett pont szomszédságában.

  • Attribútumalapú ok-okozati elemzés [20]: A szerzők az adversarial perturbációkkal szembeni rugalmasság és a gépi tanulási modellek által generált egyedi döntések attribútumalapú magyarázata közötti kapcsolatot tanulmányozzák. A beszámolójuk szerint a kártékony célú bemenetek nem hatékonyak az attribúciós térben, vagyis néhány, magas attribúciójú jellemző maszkolása a gépi tanulási modell változással kapcsolatos döntésképtelenségéhez vezet a kártékony célú mintákkal összefüggésben. Ezzel szemben a természetes bemenetek hatékonyak az attribúciós térben.

    An illustration showing two approaches to determining how input values 9,9 becomes misclassified as 9,4.[20]

Ezek a megközelítések rugalmasabbá tehetik a gépi tanulási modelleket a kártékony célú támadásokkal szemben, mert a kétrétegű észlelési rendszer megtévesztéséhez nem csak az eredeti modellt kell támadni, hanem arról is gondoskodni kell, hogy a kártékony célú minta számára létrehozott attribúció hasonlítson az eredeti példákra. A sikeres kártékony célú támadáshoz mindkét rendszert egyszerre kell feltörni.

Hagyományos párhuzamok

Jogosultságok szintjének távoli emelése, mivel a támadó már ellenőrzéssel rendelkezik a modell felett

Severity

Critical

Variant #1b: Forrás/Cél helytelen besorolása

Ez a támadás úgy jellemezhető, mint a támadó kísérlete arra, hogy a modell a kívánt címkét adja vissza egy adott bemenethez kapcsolódóan. Ez általában arra kényszeríti a modellt, hogy téves pozitív vagy téves negatív eredményt adjon vissza. A végeredmény a modell besorolási pontossága feletti ellenőrzés észrevétlen átvétele, így a támadó tetszése szerint előidézhet adott megkerüléseket.

Bár ez a támadás jelentősen hátrányos hatással van a besorolás pontosságára, a végrehajtása több idővel járhat, mivel a támadónak nem csak a forrásadatokat kell manipulálnia úgy, hogy már ne legyenek helyesen megcímkézve, hanem kifejezetten a kívánt megtévesztő címkével kell ellátnia őket. Ezek a támadások gyakran több lépéssel/kísérlettel járnak a téves besorolás kikényszerítéséhez [3]. Ha a modell hajlamos továbbítani azokat a tanulási támadásokat, amelyek kikényszerítik a célzott téves besorolást, akkor lehet, hogy a támadó forgalmi lábnyoma nem lesz észlelhető, mivel a mintavételezési támadások offline is végrehajthatók.

Példák

A jóindulatú e-mailek levélszemétként való besorolásának kikényszerítése, vagy kártékony példa átjuttatása anélkül, hogy a rendszer észlelné. Ezek a támadások modellkikerüléses vagy utánzásos támadásként is ismertek.

Mitigations

Reaktív/védelmi célú észlelési intézkedések

  • Implementáljon egy minimális időküszöbértéket a besorolási eredményeket biztosító API meghívásai között. Ez a sikeres megzavarás megtalálásához szükséges idő teljes mennyiségének növelésével lelassítja a többlépéses támadás tesztelését.

Proaktív/védelmi intézkedések

  • Funkció-denoising for Improving Adversarial Robustness [22]: A szerzők egy új hálózati architektúrát fejlesztenek ki, amely a funkciók denoizálásával növeli a támadók robusztusságát. A hálózatok olyan blokkokat tartalmaznak, amelyek nem helyi eszközökkel vagy más szűrőkkel végzik a jellemzők zajszűrését. A hálózatok teljes körűen be vannak tanítva. A támadások elleni betanítással ötvözve a jellemzők zajszűrését végző hálózatok jelentősen javítják a támadással szembeni hatékonyságot a célzott és tapogatózó jellegű támadások esetén egyaránt.

  • Adversarial Training and Regularization:Train with known adversarial samples to build rugalmasság és robusztusság a rosszindulatú bemenetek ellen. Ez a szabályozás egy formájának is tekinthető, amely a bemeneti gradiensek normáját bünteti, és gördülékenyebbé teszi az osztályozó előrejelzési funkcióját (a bemeneti ráhagyást növelve). Ez magában foglalja az alacsonyabb megbízhatósági aránnyal rendelkező helyes besorolásokat is.

A graph showing the change in the slope of the prediction function with adversarial training.

Szánjon időt és energiát a több válogatott monoton jellemzővel rendelkező monoton besorolás fejlesztésébe. Ezzel biztosíthatja, hogy a támadó ne tudja elkerülni az osztályozót a negatív osztályból származó jellemzők egyszerű elfedésével [13].

  • A DNN-modellek megerősítésére jellemzőtömörítés [18] használható, amellyel észlelhetők a kártékony célú példák. Ez csökkenti a támadó számára elérhető keresési teret az eredeti térben található számos különböző jellemzővektornak megfelelő minták egyetlen mintában történő egyesítésével. A DNN-modellnek az eredeti bemenetre vonatkozó előrejelzését a tömörített bemenetre vonatkozó előrejelzésével összehasonlítva a jellemzőtömörítés segíthet a kártékony példák észlelésében. Ha az eredeti és a tömörített példák jelentősen különböző kimeneteket adnak vissza a modellből, a bemenet valószínűleg kártékony. Az előrejelzések közötti eltérések mérésével és egy küszöbérték kiválasztásával a rendszer megfelelő előrejelzést adhat a szabályos példákra vonatkozóan, és elutasíthatja a kártékony bemeneteket.

    An illustration showing the result of feature squeezing.

    A diagram showing the flow of input through a feature-squeezing framework.[18]

  • Certified Defenses against Adversarial Examples [22]: A szerzők egy félig határozott relaxáción alapuló módszert javasolnak, amely egy tanúsítványt ad ki, amely egy adott hálózati és tesztelési bemenet esetén nem kényszerítheti a hibát egy bizonyos érték túllépésére. Másodszor, mivel ez a tanúsítvány differenciálható, a szerzők közösen optimalizálják a hálózati paraméterekkel, egy olyan adaptív szabályozót biztosítva, amely minden támadással szemben fokozza a hatékonyságot.

Válaszintézkedések

  • Riasztás kiadása az osztályozók között nagy eltérést mutató besorolási eredményekre, különösen, ha egyetlen felhasználótól vagy felhasználók kis csoportjától származnak.

Hagyományos párhuzamok

Jogosultságok szintjének távoli emelése

Severity

Critical

Variant #1c: Véletlenszerű helytelen besorolás

Ez egy különleges változat, amelyben a támadó célbesorolása a szabályos forrásbesoroláson kívül bármi lehet. A támadás általában zaj a besorolás alatt álló forrásadatokba való véletlenszerű bejuttatásával jár a helyes besorolás valószínűségének jövőbeni csökkentése érdekében [3].

Példák

Two photos of a cat. One photo is classified as a tabby cat. After adversarial perturbation, the other photo is classified as guacamole.

Mitigations

Ugyanaz, mint az 1a változat.

Hagyományos párhuzamok

Ideiglenes szolgáltatásmegtagadás

Severity

Fontos

Variant #1d: Megbízhatóság csökkentése

A támadó létrehozhat mesterséges bemeneteket a helyes besorolás megbízhatósági szintjének csökkentése céljából, különösen a jelentős következményekkel járó forgatókönyvekben. Ez nagy számú álpozitív eredmény formáját is öltheti, aminek célja a rendszergazda vagy monitorozási rendszerek elárasztása a szabályos riasztásoktól megkülönböztethetetlen megtévesztő riasztásokkal [3].

Példák

Two photos of a stop sign. The photo on the left shows a confidence level of 96 percent. After adversarial perturbation, the photo on the right shows a confidence level of 13 percent.

Mitigations
  • A Variant #1a által érintett műveletek mellett az események szabályozása is alkalmazható az egyetlen forrásból származó riasztások mennyiségének csökkentésére.
Hagyományos párhuzamok

Ideiglenes szolgáltatásmegtagadás

Severity

Fontos

#2a célzott adatmérgezés

Leírás

A támadó célja a betanítási fázisban létrehozott gépi modell beszennyezése, hogy az új adatokra vonatkozó előrejelzések módosuljanak a tesztelési fázisban[1]. A célzott szennyezéses támadásokban a támadók konkrét példákat akarnak tévesen besorolni, hogy elérjék bizonyos műveletek végrehajtását vagy kihagyását.

Példák

Vírusvédelmi szoftver küldése kártevő szoftverként annak rosszindulatúként való téves besorolása érdekében, megszüntetve a megcélzott vírusvédelmi szoftver használatát az ügyfélrendszereken.

Mitigations
  • Eltérésérzékelők meghatározása az adateloszlás napi figyeléséhez, és riasztás küldése eltérések esetén

    – A betanítási adatok eltérésének napi rendszerességű mérése, telemetria küldése eltolódás/eltérés esetén

  • Bemenet ellenőrzése: tisztítás és integritás-ellenőrzés

  • A szennyezés során külső betanítási mintákat juttatnak a rendszerbe. A fenyegetés elhárításához két fő stratégia áll rendelkezésre:

    – Adatok tisztítása/ellenőrzése: szennyező minták eltávolítása a betanítási adatokból – Rendszerindítási összesítés (poggyász) a szennyezéses támadások elleni küzdelem érdekében [14]

    – Negatív hatás elutasításán (Reject-on-Negative-Impact, RONI) alapuló védelem [15]

    -Robusztus Tanulás: Olyan tanulási algoritmusokat válasszon, amelyek mérgezési minták jelenlétében robusztusak.

    -Az egyik ilyen megközelítést a [21] ismerteti, ahol a szerzők két lépésben foglalkoznak az adatmérgezés problémájával: 1) bevezetnek egy új, robusztus mátrix-faktorizációs módszert a valódi altér helyreállításához, és 2) egy új, robusztus elvi összetevő regresszióját az adversarial-példányok eltávolításához az (1) lépésben helyreállított alap alapján. Szükséges és elégséges feltételeket mutatnak be a valódi altér sikeres helyreállításához, valamint a várt előrejelzés-veszteség korlátozásához az alapvetéshez viszonyítva.

Hagyományos párhuzamok

Trójai programmal fertőzött gazdagép, amelynek révén a támadó jelen lehet a hálózaton. A betanítási vagy konfigurációs adatok biztonsága sérült, és a rendszer betölti/megbízhatónak tartja őket a modell létrehozásához.

Severity

Critical

#2b Válogatás nélküli adatmérgezés

Leírás

A cél a megtámadott adathalmaz minőségének/integritásának rontása. Számos adathalmaz nyilvános, nem megbízható vagy moderálatlan, ez pedig további problémákat jelent az adatintegritás megsértésének felismerésére való képesség terén. A nem ismerten sérült biztonságú adatok felhasználása a betanítás során egy ún. „garbage-in/garbage-out” helyzetet eredményez. Ez a kifejezés arra utal, hogy rossz adatokból csak rossz eredményeket lehet kapni. Az észlelést követően az osztályozásnak meg kell határoznia az adatbiztonság sérülésének mértékét, és karanténba kell helyeznie a sérült adatokat/meg kell ismételnie a betanítást.

Példák

Egy vállalat egy közismert és megbízható webhelytől szerzi be a modellek betanításához használt határidős olajügyleti adatokat. Az adatszolgáltató webhelyét ezt követően SQL-injektálási támadással feltörik. A támadó szándékosan beszennyezheti az adathalmazt, és a modell a betanítás során nem érzékeli, hogy az adatok fertőzöttek.

Mitigations

Ugyanaz, mint a 2a változat.

Hagyományos párhuzamok

Hitelesített szolgáltatásmegtagadás valamilyen nagy értékű adategység ellen

Severity

Fontos

#3 Modell inverziós támadásai

Leírás

A gépi tanulási modellekben használt privát funkciók helyreállíthatók [1]. Ezek közé tartozik azon privát betanítási adatok újraépítése, amelyekhez a támadó nem fér hozzá. A biometrikus közösségben más néven hegymászó támadásként is ismert [16, 17]. Ehhez meg kell keresni a visszaadott megbízhatósági szintet maximalizáló, a céllal megfeleltethető osztályozás tárgyát képező bemenetet [4].

Példák

Two images of a person. One image is blurry and the other image is clear.[4]

Mitigations
  • A bizalmas adatokkal betanított modellek interfészeihez szigorú hozzáférés-vezérlés szükséges.

  • A modell által engedélyezett lekérdezések sebességének korlátozása

  • Kapuk kialakítása a felhasználók/hívók és a tényleges modell között az összes lekérdezés bemeneti adatainak ellenőrzésével, továbbá a modell helyes bemenetekre vonatkozó definíciójának nem megfelelő adatok elutasítása, hogy csak a hasznossághoz szükséges minimális mennyiségű információt adja vissza.

Hagyományos párhuzamok

Az információk célzott és védett felfedése

Severity

Ez a standard SDL-hibalista alapértelmezett beállítása szerint a fontos kategóriába kerül, de a bizalmas vagy személyazonosításra alkalmas adatok kinyerése esetében kritikus fontosságúra változna.

#4 Tagsági következtetési támadás

Leírás

A támadó el tudja dönteni, hogy egy adott adatrekord része volt-e a modell betanítási adatkészletének, vagy sem[1]. A kutatók az attribútumok (pl. életkor, nem, kórház) alapján előre tudták jelezni a páciens fő eljárását (pl. a beteg műtétjét).

An illustration showing the complexity of a membership inference attack. Arrows show the flow and relationship between training data prediction data.[12]

Mitigations

A támadás életképességét szemléltető kutatási dokumentumok szerint a differenciált adatvédelem [4, 9] hatékony lehet. Ez a kutatási terület a Microsoftnál még gyermekcipőben jár, ezért az AETHER Security Engineering a szakértelem kutatási befektetésekkel történő növelését szorgalmazza e téren. Ennek a kutatásnak számba kell vennie a differenciált adatvédelmi képességeket, és fel kell mérnie azok kockázatcsökkentés szempontjából vett gyakorlati hasznosságát, majd különféle módokat kell kidolgozniuk a védelmi rendszerek átlátható öröklődéséhez az online szolgáltatási platformokon, hasonlóan ahhoz, ahogyan a Visual Studióban a kód fordítása alapértelmezés szerint engedélyezett biztonsági megoldásokat biztosít, amelyek mind a fejlesztő, mind pedig a felhasználók számára átláthatók.

A neuronkihagyás és a modellhalmozás használata bizonyos mértékig hatékony kockázatcsökkentő megoldás lehet. A neuronkihagyás használata nem csupán egy neurális háló ellenállását növeli az ilyen támadásokkal szemben, de a modell teljesítményét is fokozza [4].

Hagyományos párhuzamok

Adatvédelem. Következtetéseket lehet levonni az adatpontoknak a betanítási készletben való használatáról, maguk a betanítási adatok azonban nem lesznek kiadva

Severity

Ez adatvédelmi problémának minősül, nem biztonságinak. Azért szerepel a fenyegetésmodellezési útmutatóban, mert ez a két terület átfedésben van egymással, de a válaszokat a biztonság helyett itt az adatvédelem szempontok motiválják.

#5 Modelllopás

Leírás

A támadók a modell szabályos lekérdezésével újra létrehozzák az alapul szolgáló modellt. Az új és az alapul szolgáló modell működése azonos[1]. Az újbóli létrehozás után a modell megfordítható úgy, hogy helyreállítsa a jellemzőkre vonatkozó információt, vagy következtessen a betanítási adatokra vonatkozóan.

  • Egyenletmegoldás – Az osztályra vonatkozó valószínűségeket API-kimeneten keresztül visszaadó modellek esetében a támadó lekérdezéseket hozhat létre a modell ismeretlen változóinak megállapításához.

  • Elérési út megállapítása – Az API-k sajátosságait kihasználó támadással kinyerhetők a bemenet osztályozása során, a fa alapján meghozott „döntések”[7].

  • Átadásos támadás – A támadó (feltehetőleg a megcélzott modellnek elküldött előrejelzési lekérdezések kiadásával) be tudja tanítani a helyi modellt, és a segítségével kártékony célú példákat hozhat létre, amelyek átkerülnek a megcélzott modellbe[8]. Ha sikeres a modell kinyerése, és kiderül, hogy az védtelen egy bizonyos típusú kártékony bemenettel szemben, a modell másolatát kinyerő támadó teljesen offline fejleszthet ki új támadásokat az éles környezetben üzembe helyezett modell ellen.

Példák

Azokban a környezetekben, ahol egy gépi tanulási modell szolgál a kártékony viselkedés észlelésére (például a levélszemét azonosítására, a kártevők besorolására és a hálózati rendellenességek észlelésére), a modell kinyerése elősegíti a kikerüléses támadásokat[7].

Mitigations

Proaktív/védelmi intézkedések

  • Minimalizálja vagy rejtse el az előrejelzési API-k által visszaadott adatokat, a „megbízható” alkalmazásokkal kapcsolatos hasznosságuk fenntartása mellett[7].

  • Adjon meg egy megfelelő formátumú lekérdezést a modell bemeneteihez, és csak teljes, megfelelő és egyező formátumú bemenetek esetén adjon vissza eredményeket válaszként.

  • Kerekített megbízhatósági értékek visszaadása. A legtöbb jogszerű hívó nem igényel több tizedesjegyes pontosságot.

Hagyományos párhuzamok

A rendszeradatok nem hitelesített, csak olvasható jellegű illetéktelen módosítása, nagy értékű információk célzott kiadása?

Severity

A biztonsági szempontból érzékeny modellek esetében fontos, egyéb esetben mérsékelt fontosságú

#6 Neurális net-újraprogramozás

Leírás

Egy támadótól származó, speciálisan kialakított lekérdezés révén a gépi tanulási rendszerek úgy programozhatóak át, hogy az általuk végrehajtott feladat eltérjen a létrehozó eredeti szándékától [1].

Példák

Egy arcfelismerési API gyenge hozzáférés-vezérlése lehetővé teszi, hogy külső felek a Microsoft-ügyfelek megkárosítására szánt alkalmazásokban használják őket, például élethű hamisítványokat létrehozó alkalmazásokban.

Mitigations
  • Erős ügyfél-kiszolgáló<> kölcsönös hitelesítés és hozzáférés-vezérlés a modell interfészeihez

  • A támadó fiókok eltávolítása.

  • Az API-kra vonatkozó szolgáltatásiszint-szerződések azonosítása és kikényszerítése. Annak megállapítása, hogy egy adott probléma esetében mi a megoldáshoz szükséges elfogadható idő, valamint annak biztosítása, hogy a probléma nem fordul elő újra az SLA lejárta után.

Hagyományos párhuzamok

Ez egy visszaélési forgatókönyv. Az ilyen esetekben sokkal valószínűbb, hogy egy biztonsági incidens létrehozása helyett egyszerűen letiltja a támadó fiókját.

Severity

Fontos – Kritikus

#7 Adversarial Example in the Physical domain (bits-atoms>)

Leírás

A támadó példa egy rosszindulatú entitás bemenete/lekérdezése, amelynek célja kizárólag a gépi tanulási rendszer félrevezetése [1]

Példák

Ezek a példák a fizikai tartományban is megjelenhetnek. Például megtéveszthetnek egy önvezető autót, amely így nem áll meg a stoptáblánál, mert egy adott színű fénnyel (ez a kártékony célú bemenet) világítanak a táblára, és ez arra kényszeríti a képfelismerő rendszert, hogy a stoptáblát már ne stoptáblának érzékelje.

Hagyományos párhuzamok

Jogosultságok szintjének emelése, távoli kódvégrehajtás

Mitigations

Ezek a támadások azért bontakoznak ki, mert a gépi tanulási réteg (a mesterséges intelligencián alapuló döntéshozatal alatti adat- és az algoritmusréteg) hibáit nem orvosolták. Mint minden más szoftver *vagy* fizikai rendszer, a réteg alatt a cél mindig megtámadható a hagyományos vektorok. Emiatt a hagyományos biztonsági eljárások betartása fontosabb, mint valaha, különösen az MI és a hagyományos szoftverek között használt kezeletlen biztonsági rések rétege (az adat-/algoritmusréteg) miatt.

Severity

Critical

#8 Rosszindulatú ml-szolgáltatók, akik helyreállíthatják a betanítási adatokat

Leírás

Egy rosszindulatú szolgáltató egy kiskapuval rendelkező algoritmus segítségével visszaállíthatja a privát betanítási adatokat. Képesek voltak az arcok és a szövegek rekonstrukciójára kizárólag a modell alapján.

Hagyományos párhuzamok

Az információk célzott felfedése

Mitigations

A támadás életképességét szemléltető kutatási dokumentumok szerint a homomorfikus titkosítás hatékony lehet. Ez a kutatási terület a Microsoftnál jelenleg kevés figyelmet élvez, ezért az AETHER Security Engineering a szakértelem kutatási befektetésekkel történő növelését szorgalmazza e téren. Ennek a kutatásnak számba kell vennie a homomorfikus titkosítás alapelveit, és értékelnie kell azok gyakorlati hasznát a kockázatcsökkentés szempontjából a rosszindulatú gépitanulás-szolgáltatók ellenében.

Severity

PII-adatok esetén fontos, egyéb esetben mérsékelt fontosságú

#9 Az ML ellátási lánc megtámadása

Leírás

Az algoritmusok betanítása érdekében szükséges nagy erőforrások (adatok + számítások) miatt a jelenlegi gyakorlat az, hogy a nagyvállalatok által betanított modelleket újra felhasználják, és kissé módosítják őket a feladathoz (például: A ResNet a Microsoft népszerű képfelismerő modellje). Ezek a válogatott modellek a Model Zoo-ban találhatók (a Caffe népszerű képfelismerő modelleket üzemeltet). Ebben a támadásban a támadó megtámadja a Caffe-ban üzemeltetett modelleket, ezáltal pedig minden felhasználót veszélyeztet. [1]

Hagyományos párhuzamok
  • Külső fél nem biztonsági jellegű függőségének sérülése

  • Az App Store-ban akaratlanul üzemeltetett kártevők

Mitigations
  • Modellek és adatok külső felekkel kapcsolatos függőségeinek minimalizálása, ahol lehetséges.

  • Ezeket a függőségeket beépítheti a fenyegetésmodellezési folyamatba.

  • Erős hitelesítés, hozzáférés-vezérlés és titkosítás használata a belső és külső felek által biztosított rendszerek között.

Severity

Critical

#10 Backdoor Machine Tanulás

Leírás

A betanítási folyamat egy rosszindulatú harmadik félhez van kiszervezve, aki a betanítási adatok illetéktelen módosításával egy olyan, trójait tartalmazó modellt szállított le, amely célzottan kikényszeríti a téves besorolásokat, például nem rosszindulatúként sorol be egy adott vírust[1]. Ez kockázatot jelent a gépitanulás-szolgáltatókkal kapcsolatos modell-létrehozási forgatókönyvekben.

An example showing how mis-classifications can adversely affect training data. One photo is a correctly classified stop sign. After poisoning, the second photo is labeled as a speed limit sign.[12]

Hagyományos párhuzamok
  • Külső fél biztonsági jellegű függőségének sérülése

  • Sérült szoftverfrissítési mechanizmus

  • Hitelesítésszolgáltató sérülése

Mitigations
Reaktív/védelmi célú észlelési intézkedések
  • Mire ezt a fenyegetést sikerült észlelni, már megtörtént a baj, ezért a rosszindulatú szolgáltató által biztosított modell és betanítási adatok nem megbízhatóak.
Proaktív/védelmi intézkedések
  • Az összes bizalmas modell házon belüli betanítása

  • A betanítási adatok katalogizálása, valamint annak ellenőrzése, hogy azok megbízható, erős biztonsági gyakorlatokat alkalmazó harmadik féltől származnak.

  • Az MLaaS-szolgáltató és a saját rendszerek közötti interakciók modellezése a veszélyforrások szempontjából.

Válaszintézkedések
  • Ugyanaz, mint a külső függőségek sérülése esetében
Severity

Critical

#11 Az ML-rendszer szoftverfüggőségeinek kihasználása

Leírás

Ebben a támadásban a támadó NEM manipulálja az algoritmusokat. Ehelyett a szoftveres biztonsági réseket, például a puffertúlcsordulásokat, illetve a webhelyek közötti szkriptelést[1] használja ki. Még mindig könnyebb a mesterséges intelligencia/gépi tanulás rétege alatti szoftverrétegeket megkárosítani, mint közvetlenül megtámadni a tanulási réteget. Ezért elengedhetetlen fontosságúak a biztonságfejlesztési életciklusban leírt, a hagyományos biztonsági fenyegetések elhárítására irányuló gyakorlatok.

Hagyományos párhuzamok
  • Sérült, nyílt forráskódú szoftveres függőség

  • Webkiszolgáló biztonsági rése (XSS-, CSRF-, API-bemenetek érvényesítési hibája)

Mitigations

Működjön együtt biztonsági csapatával, és kövesse a megfelelő biztonsági fejlesztési életciklussal/működési biztonsági garanciával kapcsolatos ajánlott eljárásokat.

Severity

Változó; Akár kritikus is lehet a hagyományos szoftveres biztonsági rések típusától függően.

Irodalomjegyzék

[1] Hibamódok a Machine Tanulás, Ram Shankar Siva Kumar, David O'Brien, Kendra Albert, Salome Viljoen és Jeffrey Snover,https://learn.microsoft.com/security/failure-modes-in-machine-learning

[2] AETHER Security Engineering Workstream, Data Provenance/Lineage v-team

[3] Adversarial Examples in Deep Tanulás: Characterization and Divergence, Wei, et al,https://arxiv.org/pdf/1807.00051.pdf

[4] ML-Leaks: Model and Data Independent Membership Inference Attacks and Defenses on Machine Tanulás Models, Salem, et al,https://arxiv.org/pdf/1806.01246v2.pdf

[5] M. Fredrikson, S. Jha, and T. Ristenpart, “Model Inversion Attacks that Exploit Confidence Information and Basic Countermeasures,” konferenciakiadvány: 2015 ACM SIGSAC Conference on Computer and Communications Security (CCS).

[6] Nicolas Papernot & Patrick McDaniel- Adversarial Examples in Machine Learning AIWTB 2017

[7] Stealing Machine Learning Models via Prediction APIs, Florian Tramèr, École Polytechnique Fédérale de Lausanne (EPFL); Fan Zhang, Cornell University; Ari Juels, Cornell Tech; Michael K. Reiter, The University of North Carolina at Chapel Hill; Thomas Ristenpart, Cornell Tech

[8] The Space of Transferable Adversarial Examples, Florian Tramèr , Nicolas Papernot , Ian Goodfellow , Dan Boneh és Patrick McDaniel

[9] Understanding Membership Inferences on Well-Generalized Learning Models Yunhui Long1 , Vincent Bindschaedler1 , Lei Wang2 , Diyue Bu2 , Xiaofeng Wang2 , Haixu Tang2 , Carl A. Gunter1 és Kai Chen3,4

[10] Simon-Gabriel et al., Adversarial vulnerability of neural networks increases with input dimension, ArXiv 2018;

[11] Lyu et al., A unified gradient regularization family for adversarial examples, ICDM 2015

[12] Vad minták: Tíz évvel az Adversarial Machine felemelkedése után Tanulás - NeCS 2019 Battista Biggioa, Fabio Roli

[13] Adversarially Robust Malware Detection UsingMonotonic Classification Inigo Incer et al.

[14] Battista Biggio, Igino Corona, Giorgio Fumera, Giorgio Giacinto és Fabio Roli. Bagging Classifiers for Fighting Poisoning Attacks in Adversarial Classification Tasks

[15] Továbbfejlesztett elutasítás a Negatív HatásVédelem Hongjiang Li és Patrick P.K. Chan

[16] Adler. Vulnerabilities in biometric encryption systems. 5th Int’l Conf. AVBPA, 2005

[17] Galbally, McCool, Fierrez, Marcel, Ortega-Garcia. On the vulnerability of face verification systems to hill-climbing attacks. Patt. Rec., 2010

[18] Weilin Xu, David Evans, Yanjun Qi. Funkcióbeszorítás: Támadó példák észlelése a mély neurális hálózatokban. 2018 Network and Distributed System Security Symposium. Február 18–21.

[19] Reinforcing Adversarial Robustness using Model Confidence Induced by Adversarial Training – Xi Wu, Uyeong Jang, Jiefeng Chen, Lingjiao Chen, Somesh Jha

[20] Attribution-driven Causal Analysis for Detection of Adversarial Examples, Susmit Jha, Sunny Raj, Steven Fernandes, Sumit Kumar Jha, Somesh Jha, Gunjan Verma, Brian Jalaian, Ananthram Swami

[21] Robust Linear Regression Against Training Data Poisoning – Chang Liu et al.

[22] Feature Denoising for Improving Adversarial Robustness, Cihang Xie, Yuxin Wu, Laurens van der Maaten, Alan Yuille, Kaiming He

[23] Certified Defenses against Adversarial Examples – Aditi Raghunathan, Jacob Steinhardt, Percy Liang