A mesterséges intelligencia és a gépi tanulás biztonságfejlesztési életciklushoz kötődő hibalistája

Szerzők: Andrew Marshall, Jugal Parikh, Emre Kiciman és Ram Shankar Siva Kumar

2019. november

Ezt a dokumentum a Microsoft AETHER Engineering Practices for AI munkacsoportja állította össze, és a hagyományosan előforduló biztonsági rések osztályozására használt, meglévő SDL-hibalista kiegészítéseként szolgál. Ez a dokumentum azért készült, hogy referenciaként szolgáljon a mesterséges intelligenciával és a gépi tanulással kapcsolatos biztonsági problémák osztályozásához. A fenyegetéselemzésről és -kezelésről a Mesterségesintelligencia-/gépi tanulási rendszerek és függőségek fenyegetésmodellezése című részben talál részletesebb információkat.

Ez az útmutató a Ram Shankar Siva Kumar, David O’Brien, Kendra Albert, Salome Viljoen, és Jeffrey Snover Hibaállapotok a gépi tanulásban cikkében ismertetett kártékony gépi tanulási fenyegetésosztályozási rendszer köré szerveződik és sok helyen hivatkozik rá. Vegye figyelembe, hogy az ezen tartalom alapjául szolgáló kutatás a gépi tanulási hibaállapotok esetében a szándékos/rosszindulatú és a véletlen viselkedésekkel egyaránt foglalkozik, ez a kiegészítő hibalista azonban csak azokra a szándékos/rosszindulatú viselkedésekre koncentrál, amelyek biztonsági eseményt idéznek elő és/vagy javítás telepítését teszik szükségessé.

Fenyegetés Severity Leírás/Üzleti kockázatok/Példák
Adatszennyezés Fontos – Kritikus

A betanítási adatok károsítása – A támadó végső célja a betanítási fázisban létrehozott gépi modell beszennyezése, hogy az új adatokra vonatkozó előrejelzések módosuljanak a tesztelési fázisban.

A célzott szennyezéses támadásokban a támadók konkrét példákat akarnak tévesen besorolni, hogy elérjék bizonyos műveletek végrehajtását vagy kihagyását.

Vírusvédelmi szoftver küldése kártevő szoftverként annak rosszindulatúként való téves besorolása érdekében, megszüntetve a megcélzott vírusvédelmi szoftver használatát az ügyfélrendszereken.

A vállalat egy közismert és megbízható webhelytől szerzi be a modellek betanításához használt határidős ügyleti adatokat. Az adatszolgáltató webhelyét ezt követően SQL-injektálási támadással feltörik. A támadó szándékosan beszennyezheti az adathalmazt, és a modell a betanítás során nem érzékeli, hogy az adatok fertőzöttek.

Modell-lopás Fontos – Kritikus

Az alapul szolgáló modell újbóli létrehozása a modell szabályos lekérdezésével. Az új és az alapul szolgáló modell működése azonos. Az újbóli létrehozás után a modell megfordítható úgy, hogy helyreállítsa a jellemzőkre vonatkozó információt, vagy következtessen a betanítási adatokra vonatkozóan.

Egyenletmegoldás – Az osztályra vonatkozó valószínűségeket API-kimeneten keresztül visszaadó modellek esetében a támadó lekérdezéseket hozhat létre a modell ismeretlen változóinak megállapításához.

Elérési út megállapítása – Az API-k sajátosságait kihasználó támadással kinyerhetők a bemenet osztályozása során, a fa alapján meghozott „döntések”.

Átadásos támadás – A támadó (feltehetőleg a megcélzott modellnek elküldött előrejelzési lekérdezések kiadásával) be tudja tanítani a helyi modellt, és a segítségével kártékony célú példákat hozhat létre, amelyek átkerülnek a megcélzott modellbe. Ha sikeres a modell kinyerése, és kiderül, hogy az védtelen egy bizonyos típusú kártékony bemenettel szemben, a modell másolatát kinyerő támadó teljesen offline fejleszthet ki új támadásokat az éles környezetben üzembe helyezett modell ellen.

Azokban a környezetekben, ahol egy gépi tanulási modell szolgál a kártékony viselkedés észlelésére (például a levélszemét azonosítására, a kártevők besorolására és a hálózati rendellenességek észlelésére), a modell kinyerése elősegíti a kikerüléses támadásokat

Modellinverzió Fontos – Kritikus

A gépi tanulási modellekben használt privát jellemzők visszaállíthatók. Ezek közé tartozik azon privát betanítási adatok újraépítése, amelyekhez a támadó nem fér hozzá. Ehhez meg kell keresni a visszaadott megbízhatósági szintet maximalizáló, a céllal megfeleltethető osztályozás tárgyát képező bemenetet.

Példa: Arcfelismerési adatok rekonstrukciója kitalált vagy ismert nevekből, valamint API-hozzáférés a modell lekérdezéséhez.

Kártékony célú példák a fizikai tartományban Critical Ezek a példák a fizikai tartományban is megjelenhetnek. Például megtéveszthetnek egy önvezető autót, amely így nem áll meg a stoptáblánál, mert egy adott színű fénnyel (ez a kártékony célú bemenet) világítanak a táblára, és ez arra kényszeríti a képfelismerő rendszert, hogy a stoptáblát már ne stoptáblának érzékelje.
A gépi tanulás ellátási láncának megtámadása Critical

Az algoritmusok betanítása érdekében szükséges nagy erőforrások (adatok + számítások) miatt a jelenlegi gyakorlat az, hogy a nagyvállalatok által betanított modelleket újra felhasználják, és kissé módosítják őket a feladathoz (például: A ResNet a Microsoft népszerű képfelismerő modellje).

Ezek a válogatott modellek a Model Zoo-ban találhatók (a Caffe népszerű képfelismerő modelleket üzemeltet).

Ebben a támadásban a támadó megtámadja a Caffe-ban üzemeltetett modelleket, ezáltal pedig minden felhasználót veszélyeztet.

Rosszindulatú gépitanulás-szolgáltatótól származó, kiskapuval rendelkező algoritmus Critical

A mögöttes algoritmus veszélyeztetése

Egy, a gépi tanulást szolgáltatásként nyújtó rosszindulatú szolgáltató egy kiskapuval rendelkező algoritmus segítségével visszaállíthatja a privát betanítási adatokat. Ezzel a támadó kizárólag a modell alapján rekonstruálhatja a bizalmas adatokat, például az arcokat és a szövegeket.

Neurális háló újraprogramozása Fontos – Kritikus

Egy támadótól származó, speciálisan kialakított lekérdezés révén a gépi tanulási rendszerek úgy programozhatóak át, hogy az általuk végrehajtott feladat eltérjen a létrehozó eredeti szándékától

Egy arcfelismerési API gyenge hozzáférés-vezérlése lehetővé teszi, hogy külső felek a felhasználók megkárosítására szánt alkalmazásokban használják őket, például élethű hamisítványokat létrehozó alkalmazásokban.

Ez egy visszaélési/fiókeltávolítási forgatókönyv

Megzavarás kártékony céllal Fontos – Kritikus

A megzavarásra épülő támadásokban a támadó titokban módosítja a lekérdezést, hogy a kívánt választ kapja az éles környezetben üzembe helyezett modelltől. Ez a modellbemenet integritásának megsértése, ami fuzz tesztelés jellegű támadásokhoz vezet, amelyek következtében a végeredmény nem feltétlenül egy hozzáférés-megsértés vagy EOP, hanem inkább a modell besorolási teljesítményének befolyásolása.

Mindez abban nyilvánulhat meg, hogy a trollok úgy használnak bizonyos célszavakat, hogy a mesterséges intelligencia letiltsa azokat, amivel lényegében megtagadják a szolgáltatást a „letiltott” szóval egyező nevű, jogszerű felhasználók tekintetében.

A jóindulatú e-mailek levélszemétként való besorolásának kikényszerítése, vagy kártékony példa átjuttatása anélkül, hogy a rendszer észlelné. Ezek a támadások modellkikerüléses vagy utánzásos támadásként is ismertek.

A támadó létrehozhat mesterséges bemeneteket a helyes besorolás megbízhatósági szintjének csökkentése céljából, különösen a jelentős következményekkel járó forgatókönyvekben. Ez nagy számú álpozitív eredmény formáját is öltheti, aminek célja a rendszergazda vagy monitorozási rendszerek elárasztása a szabályos riasztásoktól megkülönböztethetetlen megtévesztő riasztásokkal.

Tagsági következtetés Közepes – Kritikus

Modell betanítására használt csoport egyéni tagságainak kikövetkeztetése

Például sebészeti beavatkozások előrejelzése kor, nem vagy kórház alapján