A mesterséges intelligencia és a gépi tanulás biztonságfejlesztési életciklushoz kötődő hibalistája

Andrew Marshall, Jugal Parikh, Emre Kiciman és Ram Shankar Siva Kumar

2019. november

Ez a cikk a Microsoft AETHER AI-hez készült mérnöki gyakorlatok munkacsoportjának terméke. Ez a cikk a hagyományos biztonsági rések osztályozásához használt meglévő SDL-hibasáv kiegészítéseként működik. Az AI-hez/ML-hez kapcsolódó biztonsági problémák osztályozására szolgál. Az AI-rendszerek biztonságirés súlyossági besorolása (amelyet a Microsoft Security Response Center tett közzé) az AI-t érintő rendszerek gyakori sebezhetőségi típusait és súlyossági szintjét határozza meg.

Ez az útmutató a Ram Shankar Siva Kumar, David O'Brien, Kendra Albert, Salome Viljoen és Jeffrey Snover által létrehozott Adversarial Machine Learning Threat Taxonomy, valamint a Failure Modes in Machine Learning című mű köré szerveződik. Bár a tartalom kutatása az ml-meghibásodási módok szándékos/rosszindulatú és véletlen viselkedésére is épül, ez a hibasáv-kiegészítés teljes egészében a szándékos/rosszindulatú viselkedésekre összpontosít, amelyek biztonsági incidenst és/vagy javítás üzembe helyezését eredményezhetik.

Fenyegetés	Leírás/Üzleti kockázatok/Példák
Adatszennyezés	A betanítási adatok sérülése – A támadó végső célja a betanítási fázisban létrehozott gépmodell szennyeződése, hogy az új adatokra vonatkozó előrejelzések a tesztelési fázisban módosuljanak. A célzott szennyezéses támadásokban a támadók konkrét példákat akarnak tévesen besorolni, hogy elérjék bizonyos műveletek végrehajtását vagy kihagyását. Vírusvédelmi szoftver küldése kártevő szoftverként annak rosszindulatúként való téves besorolása érdekében, megszüntetve a megcélzott vírusvédelmi szoftver használatát az ügyfélrendszereken. A vállalat egy közismert és megbízható webhelytől szerzi be a modellek betanításához használt határidős ügyleti adatokat. Ezt követően az adatszolgáltató webhelye sql-injektálási támadáson keresztül sérül. A támadó akarata szerint megmérgezheti az adathalmazt, és a betanított modell nem tudja, hogy az adatok el vannak-e szennyezve.
Modell-lopás	Az alapul szolgáló modell újbóli létrehozása a modell szabályos lekérdezésével. Az új és az alapul szolgáló modell működése azonos. Az újbóli létrehozás után a modell megfordítható úgy, hogy helyreállítsa a jellemzőkre vonatkozó információt, vagy következtessen a betanítási adatokra vonatkozóan. Egyenletmegoldás – Az osztályra vonatkozó valószínűségeket API-kimeneten keresztül visszaadó modellek esetében a támadó lekérdezéseket hozhat létre a modell ismeretlen változóinak megállapításához. Elérési útkeresés – olyan támadás, amely az API-sajátosságokat kihasználva kinyeri a fa által a bemenetek besorolása során hozott "döntéseket". Átadásos támadás – A támadó (feltehetőleg a megcélzott modellnek elküldött előrejelzési lekérdezések kiadásával) be tudja tanítani a helyi modellt, és a segítségével kártékony célú példákat hozhat létre, amelyek átkerülnek a megcélzott modellbe. Ha sikeres a modell kinyerése, és kiderül, hogy az védtelen egy bizonyos típusú kártékony bemenettel szemben, a modell másolatát kinyerő támadó teljesen offline fejleszthet ki új támadásokat az éles környezetben üzembe helyezett modell ellen. Azokban a környezetekben, ahol egy gépi tanulási modell szolgál a kártékony viselkedés észlelésére (például a levélszemét azonosítására, a kártevők besorolására és a hálózati rendellenességek észlelésére), a modell kinyerése elősegíti a kikerüléses támadásokat
Modellinverzió	A gépi tanulási modellekben használt privát jellemzők visszaállíthatók. Ez magában foglalja az olyan privát betanítási adatok rekonstruálását, amelyekhez a támadó nem fér hozzá. Ehhez meg kell keresni a visszaadott megbízhatósági szintet maximalizáló, a céllal megfeleltethető osztályozás tárgyát képező bemenetet. Példa: Arcfelismerési adatok rekonstrukciója kitalált vagy ismert nevekből, valamint API-hozzáférés a modell lekérdezéséhez.
Ellentámadási példa a fizikai térben	Ezek a példák megnyilvánulhatnak a fizikai térben, például úgy, hogy egy önvezető autót megtévesztenek egy bizonyos színű fény megvilágításával a stop táblán (a támadó bemenet), amely miatt a képfelismerő rendszer már nem tekinti azt stop táblának.
A gépi tanulás ellátási láncának megtámadása	Az algoritmusok betanítása érdekében szükséges nagy erőforrások (adatok + számítások) miatt a jelenlegi gyakorlat az, hogy a nagyvállalatok által betanított modelleket újra felhasználják, és kissé módosítják őket a feladathoz (például: A ResNet a Microsoft népszerű képfelismerő modellje). Ezek a válogatott modellek a Model Zoo-ban találhatók (a Caffe népszerű képfelismerő modelleket üzemeltet). Ebben a támadásban a támadó megtámadja a Caffe-ban üzemeltetett modelleket, megfertőzve ezzel a többi felhasználó számára.
Rosszindulatú gépitanulás-szolgáltatótól származó, kiskapuval rendelkező algoritmus	A mögöttes algoritmus veszélyeztetése Egy, a gépi tanulást szolgáltatásként nyújtó rosszindulatú szolgáltató egy kiskapuval rendelkező algoritmus segítségével visszaállíthatja a privát betanítási adatokat. Ezzel a támadó kizárólag a modell alapján rekonstruálhatja a bizalmas adatokat, például az arcokat és a szövegeket.
Neurális háló újraprogramozása	A támadótól származó speciálisan létrehozott lekérdezésekkel az ML-rendszerek átprogramozhatók olyan feladatra, amely eltér az alkotó eredeti szándékától Egy arcfelismerési API gyenge hozzáférés-vezérlése lehetővé teszi, hogy külső felek a felhasználók megkárosítására szánt alkalmazásokban használják őket, például élethű hamisítványokat létrehozó alkalmazásokban. Ez egy visszaélési/fiókeltávolítási forgatókönyv
Ellenséges perturbáció	A zavarási stílusú támadások során a támadó titokban módosítja a lekérdezést, hogy a kívánt választ kapja a gyártási környezetben telepített modelltől. Ez a modell bemeneti integritásának megsértése, amely olyan fuzzing jellegű támadásokhoz vezet, amelyek végeredménye nem feltétlenül hozzáférési jog sértése vagy jogosultsági szint emelése (EOP). Ehelyett rontja a modell besorolási teljesítményét. Ezt a trollok bizonyos célszavak használatával úgy nyilvánulhatnak meg, hogy az AI tiltsa őket, gyakorlatilag megtagadva a szolgáltatást a jogszerű felhasználóktól egy "tiltott" szónak megfelelő névvel. A jóindulatú e-mailek levélszemétként való besorolásának kikényszerítése, vagy kártékony példa átjuttatása anélkül, hogy a rendszer észlelné. Ezek a támadások modellkikerüléses vagy utánzásos támadásként is ismertek. A támadó létrehozhat mesterséges bemeneteket a helyes besorolás megbízhatósági szintjének csökkentése céljából, különösen a jelentős következményekkel járó forgatókönyvekben. Ez nagy számú álpozitív eredmény formáját is öltheti, aminek célja a rendszergazda vagy monitorozási rendszerek elárasztása a szabályos riasztásoktól megkülönböztethetetlen megtévesztő riasztásokkal.
Tagsági következtetés	Egyéni tagság megállapítása a modell betanításához használt csoportban Például sebészeti beavatkozások előrejelzése kor, nem vagy kórház alapján

Visszajelzés

Hasznosnak találta ezt az oldalt?

Last updated on 2026-03-26

A mesterséges intelligencia és a gépi tanulás biztonságfejlesztési életciklushoz kötődő hibalistája

Visszajelzés

További források