A mesterséges intelligencia és a gépi tanulás biztonságfejlesztési életciklushoz kötődő hibalistája

Cikk
06/02/2023

Szerzők: Andrew Marshall, Jugal Parikh, Emre Kiciman és Ram Shankar Siva Kumar

2019. november

Ezt a dokumentum a Microsoft AETHER Engineering Practices for AI munkacsoportja állította össze, és a hagyományosan előforduló biztonsági rések osztályozására használt, meglévő SDL-hibalista kiegészítéseként szolgál. Ez a dokumentum azért készült, hogy referenciaként szolgáljon a mesterséges intelligenciával és a gépi tanulással kapcsolatos biztonsági problémák osztályozásához. A fenyegetéselemzésről és -kezelésről a Mesterségesintelligencia-/gépi tanulási rendszerek és függőségek fenyegetésmodellezése című részben talál részletesebb információkat.

Ez az útmutató a Ram Shankar Siva Kumar, David O’Brien, Kendra Albert, Salome Viljoen, és Jeffrey Snover Hibaállapotok a gépi tanulásban cikkében ismertetett kártékony gépi tanulási fenyegetésosztályozási rendszer köré szerveződik és sok helyen hivatkozik rá. Vegye figyelembe, hogy az ezen tartalom alapjául szolgáló kutatás a gépi tanulási hibaállapotok esetében a szándékos/rosszindulatú és a véletlen viselkedésekkel egyaránt foglalkozik, ez a kiegészítő hibalista azonban csak azokra a szándékos/rosszindulatú viselkedésekre koncentrál, amelyek biztonsági eseményt idéznek elő és/vagy javítás telepítését teszik szükségessé.

Fenyegetés	Severity	Leírás/Üzleti kockázatok/Példák
Adatszennyezés	Fontos – Kritikus	A betanítási adatok károsítása – A támadó végső célja a betanítási fázisban létrehozott gépi modell beszennyezése, hogy az új adatokra vonatkozó előrejelzések módosuljanak a tesztelési fázisban. A célzott szennyezéses támadásokban a támadók konkrét példákat akarnak tévesen besorolni, hogy elérjék bizonyos műveletek végrehajtását vagy kihagyását. Vírusvédelmi szoftver küldése kártevő szoftverként annak rosszindulatúként való téves besorolása érdekében, megszüntetve a megcélzott vírusvédelmi szoftver használatát az ügyfélrendszereken. A vállalat egy közismert és megbízható webhelytől szerzi be a modellek betanításához használt határidős ügyleti adatokat. Az adatszolgáltató webhelyét ezt követően SQL-injektálási támadással feltörik. A támadó szándékosan beszennyezheti az adathalmazt, és a modell a betanítás során nem érzékeli, hogy az adatok fertőzöttek.
Modell-lopás	Fontos – Kritikus	Az alapul szolgáló modell újbóli létrehozása a modell szabályos lekérdezésével. Az új és az alapul szolgáló modell működése azonos. Az újbóli létrehozás után a modell megfordítható úgy, hogy helyreállítsa a jellemzőkre vonatkozó információt, vagy következtessen a betanítási adatokra vonatkozóan. Egyenletmegoldás – Az osztályra vonatkozó valószínűségeket API-kimeneten keresztül visszaadó modellek esetében a támadó lekérdezéseket hozhat létre a modell ismeretlen változóinak megállapításához. Elérési út megállapítása – Az API-k sajátosságait kihasználó támadással kinyerhetők a bemenet osztályozása során, a fa alapján meghozott „döntések”. Átadásos támadás – A támadó (feltehetőleg a megcélzott modellnek elküldött előrejelzési lekérdezések kiadásával) be tudja tanítani a helyi modellt, és a segítségével kártékony célú példákat hozhat létre, amelyek átkerülnek a megcélzott modellbe. Ha sikeres a modell kinyerése, és kiderül, hogy az védtelen egy bizonyos típusú kártékony bemenettel szemben, a modell másolatát kinyerő támadó teljesen offline fejleszthet ki új támadásokat az éles környezetben üzembe helyezett modell ellen. Azokban a környezetekben, ahol egy gépi tanulási modell szolgál a kártékony viselkedés észlelésére (például a levélszemét azonosítására, a kártevők besorolására és a hálózati rendellenességek észlelésére), a modell kinyerése elősegíti a kikerüléses támadásokat
Modellinverzió	Fontos – Kritikus	A gépi tanulási modellekben használt privát jellemzők visszaállíthatók. Ezek közé tartozik azon privát betanítási adatok újraépítése, amelyekhez a támadó nem fér hozzá. Ehhez meg kell keresni a visszaadott megbízhatósági szintet maximalizáló, a céllal megfeleltethető osztályozás tárgyát képező bemenetet. Példa: Arcfelismerési adatok rekonstrukciója kitalált vagy ismert nevekből, valamint API-hozzáférés a modell lekérdezéséhez.
Kártékony célú példák a fizikai tartományban	Critical	Ezek a példák a fizikai tartományban is megjelenhetnek. Például megtéveszthetnek egy önvezető autót, amely így nem áll meg a stoptáblánál, mert egy adott színű fénnyel (ez a kártékony célú bemenet) világítanak a táblára, és ez arra kényszeríti a képfelismerő rendszert, hogy a stoptáblát már ne stoptáblának érzékelje.
A gépi tanulás ellátási láncának megtámadása	Critical	Az algoritmusok betanítása érdekében szükséges nagy erőforrások (adatok + számítások) miatt a jelenlegi gyakorlat az, hogy a nagyvállalatok által betanított modelleket újra felhasználják, és kissé módosítják őket a feladathoz (például: A ResNet a Microsoft népszerű képfelismerő modellje). Ezek a válogatott modellek a Model Zoo-ban találhatók (a Caffe népszerű képfelismerő modelleket üzemeltet). Ebben a támadásban a támadó megtámadja a Caffe-ban üzemeltetett modelleket, ezáltal pedig minden felhasználót veszélyeztet.
Rosszindulatú gépitanulás-szolgáltatótól származó, kiskapuval rendelkező algoritmus	Critical	A mögöttes algoritmus veszélyeztetése Egy, a gépi tanulást szolgáltatásként nyújtó rosszindulatú szolgáltató egy kiskapuval rendelkező algoritmus segítségével visszaállíthatja a privát betanítási adatokat. Ezzel a támadó kizárólag a modell alapján rekonstruálhatja a bizalmas adatokat, például az arcokat és a szövegeket.
Neurális háló újraprogramozása	Fontos – Kritikus	Egy támadótól származó, speciálisan kialakított lekérdezés révén a gépi tanulási rendszerek úgy programozhatóak át, hogy az általuk végrehajtott feladat eltérjen a létrehozó eredeti szándékától Egy arcfelismerési API gyenge hozzáférés-vezérlése lehetővé teszi, hogy külső felek a felhasználók megkárosítására szánt alkalmazásokban használják őket, például élethű hamisítványokat létrehozó alkalmazásokban. Ez egy visszaélési/fiókeltávolítási forgatókönyv
Megzavarás kártékony céllal	Fontos – Kritikus	A megzavarásra épülő támadásokban a támadó titokban módosítja a lekérdezést, hogy a kívánt választ kapja az éles környezetben üzembe helyezett modelltől. Ez a modellbemenet integritásának megsértése, ami fuzz tesztelés jellegű támadásokhoz vezet, amelyek következtében a végeredmény nem feltétlenül egy hozzáférés-megsértés vagy EOP, hanem inkább a modell besorolási teljesítményének befolyásolása. Mindez abban nyilvánulhat meg, hogy a trollok úgy használnak bizonyos célszavakat, hogy a mesterséges intelligencia letiltsa azokat, amivel lényegében megtagadják a szolgáltatást a „letiltott” szóval egyező nevű, jogszerű felhasználók tekintetében. A jóindulatú e-mailek levélszemétként való besorolásának kikényszerítése, vagy kártékony példa átjuttatása anélkül, hogy a rendszer észlelné. Ezek a támadások modellkikerüléses vagy utánzásos támadásként is ismertek. A támadó létrehozhat mesterséges bemeneteket a helyes besorolás megbízhatósági szintjének csökkentése céljából, különösen a jelentős következményekkel járó forgatókönyvekben. Ez nagy számú álpozitív eredmény formáját is öltheti, aminek célja a rendszergazda vagy monitorozási rendszerek elárasztása a szabályos riasztásoktól megkülönböztethetetlen megtévesztő riasztásokkal.
Tagsági következtetés	Közepes – Kritikus	Modell betanítására használt csoport egyéni tagságainak kikövetkeztetése Például sebészeti beavatkozások előrejelzése kor, nem vagy kórház alapján

A mesterséges intelligencia és a gépi tanulás biztonságfejlesztési életciklushoz kötődő hibalistája

Visszajelzés

Visszajelzés

További források