A mesterséges intelligencia és gépi tanulás biztonságos jövője a Microsoftnál

Szerzők: Andrew Marshall, Raul Rojas, Jay Stokes és Donald Brinkman

Külön köszönet Mark Cartwrightnak és Graham Calladine-nak

Végrehajtási összefoglaló

A mesterséges intelligencia (MI) és a gépi tanulás (ML) már ma is jelentős hatást gyakorol az emberek munkájára, társasági életére és életmódjára. Az MI/ML-re épülő termékek és szolgáltatások terjedésével különleges intézkedésekre van szükség nemcsak az ügyfelek és adataik biztonsága, hanem az MI és az algoritmusok visszaélések, trollok és adatkinyerés elleni védelme érdekében is. Ez a dokumentum azon biztonsággal kapcsolatos tapasztalatok közül oszt meg néhányat, amelyeket a Microsoft a mesterséges intelligencia alapján történő terméktervezés és online szolgáltatások üzemeltetése során szerzett. Habár nehéz megjósolni ennek a területnek a jövőbeli alakulását, megállapítottuk, hogy jelenleg is vannak orvosolható problémák. Emellett olyan stratégiai problémákat is találtunk, amelyeket a technológiai iparnak meg kell előznie, hogy biztosítsa az ügyfelek hosszú távú biztonságát és az adataik védelmét.

Ez a dokumentum nem a mesterséges intelligenciára épülő támadásokról vagy az MI ártó szándékkal történő emberi kihasználásáról szól. Ehelyett azokra a problémára összpontosítunk, amelyeket a Microsoftnak és az iparági partnereknek kezelniük kell az MI-alapú termékek és szolgáltatások rendkívül kifinomult, kreatív és rosszindulatú támadásoktól való védelme érdekében, akár önállóan működő trollok, akár csoportok hajtják őket végre.

Ez a dokumentum teljes mértékben az MI/ML területtel kapcsolatos biztonsági tervezési problémákra összpontosít, az információbiztonság témakörének nagy terjedelméből adódóan azonban az is egyértelmű, hogy az itt tárgyalt problémák és eredmények bizonyos fokig átfedésben vannak az adatvédelem és az etika témakörével. Mivel ez a dokumentum a technológiai iparág stratégiai fontosságú kihívásait mutatja be, az iparág vezető biztonsági mérnökei számára készült.

A korai eredmények a következőkre utalnak:

  • A dokumentum által tárgyalt biztonsági problémák kezeléséhez a meglévő biztonsági gyakorlatok MI/ML-specifikus fejlesztésére van szükség.

  • A gépi tanulási modellek többnyire nem képesek különbséget tenni a rosszindulatú bemenetek és a jóindulatú rendellenes adatok között. A betanítási adatok jelentős része olyan nem válogatott, nem moderált, nyilvános adathalmazokból származik, amelyekhez harmadik felek is hozzájárulhatnak. A támadóknak nem kell illetéktelenül hozzáférniük az adathalmazokhoz, ha szabadon hozzáadhatnak tartalmakat. Az alacsony megbízhatóságú rosszindulatú adatok idővel nagy megbízhatóságú, megbízható adatokká válnak, amennyiben az adatszerkezet/-formázás megfelelő marad.

  • A mély tanulási modellekben felhasználható rejtett osztályozók/neuronok rétegeinek nagy számára való tekintettel az MI/ML-alapú döntéshozatali folyamatokba és algoritmusokba fektetett bizalom túl nagy, mivel elengedhetetlen lenne megérteni, hogyan születnek ezek a döntések. Ez az átláthatatlanság „ábrázolhatatlanná” teszi a munkát, és megnehezíti az MI/ML-alapú döntések bizonyítható védelmét kétség esetén.

  • Az MI-t/ML-t egyre nagyobb mértékben használják nagy jelentőségű döntési folyamatok támogatásához az orvostudományban és más olyan ágazatokban, ahol egy helytelen döntés súlyos sérülést vagy halált okozhat. Az MI/ML kriminalisztikai jelentéskészítési képességeinek hiánya miatt az ilyen nagy értékű következtetések sem a bíróság, sem pedig a közvélemény előtt nem védhetők.

E dokumentum célja, hogy (1) kiemelje az MI/ML területére egyedi módon vonatkozó biztonsági tervezési problémákat, (2) ismertessen néhány alapvető elvet és megfigyelést a közeljövőbeli fenyegetésekkel kapcsolatban, valamint (3) megosszon néhány korai gondolatot a lehetséges megoldásokról. A jelen dokumentumban szereplő kihívások közül néhány olyan problémát jelent, amelyek megelőzéséről az iparágnak a következő két évben kell gondoskodnia, míg más problémákat most kell orvosolnunk. Az ebben a dokumentumban tárgyalt területek alapos vizsgálata nélkül azt kockáztatjuk, hogy a jövőbeli AI fekete dobozsá válik, mivel nem tudunk megbízni az AI döntéshozatali folyamataiban matematikai szinten (és szükség esetén módosítani) [7]. Biztonsági szempontból ez gyakorlatilag az irányítás elvesztését és a Microsoft mesterséges intelligenciára vonatkozó irányelveitől való elszakadást jelenti [4, 8].

Új biztonsági tervezési kihívások

A hagyományos szoftveres támadási felületek védelme továbbra is alapvető fontosságú, de nem biztosít kellő lefedettséget a mesterséges intelligenciát/gépi tanulást érintő fenyegetések terén. A technológiai iparágnak kerülnie kell a következő generációs problémák előző generációs megoldásokkal történő kezelését. Ehhez új keretrendszerek létrehozására és új megközelítések bevezetésére van szükség, amelyek az MI/ML-alapú szolgáltatások tervezési és működési hiányosságait célozzák meg:

  1. A biztonságos fejlesztés és üzemeltetés alapjainak, mint alább kifejtjük, szem előtt kell tartaniuk a rugalmasság és a belátás fogalmát az MI és a felügyelete alá tartozó adatok védelmének keretében. MI-specifikus fejlesztésekre van szükség a hitelesítés, a feladatelkülönítés, a bemenet-ellenőrzés és a szolgáltatásmegtagadás-csökkentés területén. Az ezekbe a területekbe való befektetés nélkül az MI/ML-szolgáltatások továbbra is jelentős hátrányban lesznek a különféle képzettségi szintű támadókkal szemben.

  2. Az MI-nek fel kell tudnia ismerni mások elfogultságát anélkül, hogy maga is részrehajló lenne az emberekkel való kommunikáció során. Ennek megvalósításához az elfogultság, a sztereotípiák, a nyelvjárások és más kulturális fogalmak kollektív és fejlődő megértésére van szükség. Az ilyen jellegű ismeretek segítenek megvédeni a mesterséges intelligenciát a társadalmi manipuláción és az illetéktelen adathalmaz-módosításon alapuló támadásokkal szemben. A megfelelően implementált rendszereket az ilyen támadások csak erősítik, és képesek megosztani a bővebb tapasztalataikat a többi mesterséges intelligenciával.

  3. A gépi tanulási algoritmusoknak képesnek kell lenniük arra, hogy megkülönböztessék a rosszindulatúan megadott adatokat a jóindulatú, „Fekete Hattyú” típusú eseményektől [1], azáltal, hogy visszautasítják az eredményekre negatív hatással lévő betanítási adatokat. Ellenkező esetben a támadók és a trollok mindig képesek lesznek kijátszani a tanulási modelleket.

  4. Az MI-nek beépített kriminalisztikai képességekkel kell rendelkeznie. Ez lehetővé teszi a vállalatoknak, hogy biztosítsák az ügyfelek számára a mesterséges intelligencia átláthatóságát és elszámoltathatóságát, gondoskodva arról, hogy az MI műveletei nem csupán bizonyíthatóan helyesek, hanem jogilag védhetők is legyenek. Ezek a képességek a „mesterséges intelligencia behatolásészlelésének” korai formáját is képviselik, amelynek köszönhetően a mérnökök meghatározhatják egy osztályozó által hozott döntés pontos időpontját, a döntést befolyásoló adatokat, valamint azt, hogy ezek az adatok megbízhatók voltak-e. Az adatvizualizációs képességek ezen a téren gyorsan fejlődnek, és valószínűleg képesek lesznek segíteni a mérnököknek feltárni és kezelni ezeknek az összetett problémáknak a kiváltó okait [11].

  5. Az MI-nek akkor is fel kell ismernie és védenie kell a bizalmas adatokat, ha az emberek nem ismerik fel ezeket. Az MI-vel kapcsolatos gazdag felhasználói felületek létrehozásához hatalmas mennyiségű nyers betanítási adatra van szükség, így számolni kell az ügyfelek általi „túlzott megosztással”.

Ezeket a területeket, beleértve a fenyegetéseket és a kezelési lehetőségeket, alább részletesen kifejtjük.

Az MI alkalmazásához a hagyományos biztonságos tervezési/üzemeltetési modellek új fejlesztéseire van szükség: a rugalmasság és a belátás bevezetésére

Az MI-tervezőknek mindig biztosítaniuk kell a bizalmas adatok titkosságát, integritását és rendelkezésre állását, az MI-rendszer ismert biztonsági résektől való mentességét, valamint a rendszerrel vagy a felhasználó adataival szembeni rosszindulatú tevékenység elleni védekezési, észlelési és kezelési vezérlőket.

A rosszindulatú támadásokkal szembeni védekezés hagyományos módjai nem biztosítják ugyanezt a lefedettséget ebben az új környezetben, ahol a hang-, videó- vagy képalapú támadások megkerülhetik a jelenlegi szűrőket és védelmet. Az új veszélyforrás-modellezési szempontokat meg kell vizsgálni a mesterséges intelligencia új típusú visszaélésekkel való kihasználásának megakadályozása érdekében. Ez túlmutat a hagyományos, fuzz- vagy a bevitelmanipuláció.-alapú támadási felületek tesztelésén (ezeknek a támadásoknak is megvannak a saját, MI-specifikus vonatkozásaik). Ehhez az MI/ML-területre vonatkozóan egyedi forgatókönyvek bevonására van szükség. Ezek közül a legfontosabbak az MI-felhasználói élmények, mint például a hang, a videó és a kézmozdulatok. Az ilyen élményekhez kapcsolódó fenyegetéseknek nem léteznek hagyományos modelljei. A videók tartalmát például manapság úgy alakíthatják ki, hogy fizikai hatásokat váltson ki. Emellett kutatás bizonyította, hogy lehetséges hangalapú támadási parancsokat is létrehozni [10].

A bűnözők, az elszánt ellenfelek és a trollok kiszámíthatatlansága, kreativitása és rosszindulata megköveteli, hogy a mesterséges intelligenciáinkat a rugalmasság és a belátás értékeivel ruházzuk fel:

Rugalmasság: A rendszernek képesnek kell lennie a rendellenes viselkedések azonosítására, valamint az MI-rendszer és az adott feladat vonatkozásában elfogadható viselkedés normál határain kívüli manipuláció vagy kényszerítés megelőzésére. Ezek új, az MI/ML területére vonatkozóan egyedi támadástípusok. A rendszereket úgy kell kialakítani, hogy ellenálljanak az olyan bemeneteknek, amelyek ütköznek a helyi törvényekkel, az etikával, valamint a közösség és az alkotói által tiszteletben tartott értékekkel. Ez azt jelenti, hogy a mesterséges intelligenciát képessé kell tenni annak felismerésére, ha a kommunikáció „eltér a forgatókönyvtől”. Ez a következő módszerekkel érhető el:

  1. Az olyan felhasználók felismerése, akik eltérnek a hasonló felhasználók különféle nagy csoportjai által felállított normáktól. Ilyenek lehetnek például az olyan felhasználók, akik látszólag túl gyorsan gépelnek, túl gyorsan válaszolnak, nem alszanak, vagy a rendszer olyan részeit aktiválják, amelyeket más felhasználók nem.

  2. Azon viselkedési minták azonosítása, amelyek a rosszindulatú szondázási támadásoknak, illetve a hálózati behatolásos támadási folyamat kezdetének ismert jelei.

  3. Minden olyan eset felismerése, amikor több felhasználó összehangoltan cselekszik; pl. ha több felhasználó ugyanazt a megmagyarázhatatlan, ugyanakkor szándékosan létrehozott lekérdezést küldi el, a felhasználók számának hirtelen növekedése, vagy az MI-rendszer bizonyos részeinek aktiválásában bekövetkezett hirtelen növekedés.

Az ilyen típusú támadásokat a szolgáltatásmegtagadási támadásokkal azonos szintűként kell kezelni, mivel a mesterséges intelligenciának hibajavításra és újraképzésre lehet szüksége, hogy ezeknek ne eshessen újra áldozatul. Kritikus fontosságú a rossz szándék felismerésének képessége az olyan ellenintézkedések jelenlétében is, mint amelyek például a hangulatelemző API-k kijátszását célozzák [5].

Belátás: Az MI-nek minden olyan adat felelős és megbízható őrzőjének kell lennie, amelyhez hozzáférése van. Emberekként minden bizonnyal valamilyen szinten megbízunk az MI-kapcsolatainkban. Ezek az ügynökök idővel más ügynökökkel vagy más emberekkel is beszélgetnek majd a nevünkben. Képesnek kell lennünk megbízni abban, hogy egy MI-rendszer kellően diszkrécióval rendelkezik ahhoz, hogy kizárólag korlátozott formában ossza meg a velünk kapcsolatos adatokat, hogy más ügynökök a rendszer nevében el végre tudják hajtani a feladataikat. Továbbá a nevünkben személyes adatokkal dolgozó ügynököknek nem szükséges globális hozzáféréssel rendelkezniük az adatokhoz. A többféle mesterséges intelligenciát vagy robotügynököket magában foglaló adathozzáférési forgatókönyvek esetében a minimálisan szükséges időtartamra kell korlátozni a hozzáférési jogosultságot. A felhasználóknak képesnek kell lenniük arra is, hogy megtagadják az adatokat, és elutasítsák az adott vállalatoktól vagy területi beállításoktól származó ügynökök hitelesítését, ahogyan a webböngészők lehetővé teszik a webhely blokkolását. E probléma megoldásához újfajta – például a felhőalapú számítástechnika korai éveiben alkalmazott felhőalapú felhasználóhitelesítésbe való befektetésekhez hasonló – megközelítést kell alkalmazni az ügynökök közötti hitelesítés és az adatokhoz való hozzáférési jogosultságok kérdésében.

A mesterséges intelligenciának fel kell tudnia ismerni mások elfogultságát anélkül, hogy maga is részrehajló módon viselkedne

A mesterséges intelligenciának igazságosnak és befogadónak kell lennie, azaz nem diszkriminálhat egyetlen társadalmi csoportot vagy érvényes eredményt sem, ehhez azonban eleve tisztában kell lennie az elfogultság természetével. Ha a mesterséges intelligenciát nem tanítják meg az elfogultság, a trollkodás és a szarkazmus felismerésére, legjobb esetben egyesek bolondot csinálnak majd belőle, hogy egy jót nevethessenek, a legrosszabb esetben azonban kárt is okozhatnak az ügyfeleknek.

Ilyen szintű tudatosság csak úgy érhető el, ha a mesterséges intelligencia átfogó és folyamatosan fejlesztett ismeretekkel rendelkezik a kulturális torzításokról, ez pedig csak úgy valósulhat meg, ha „jó emberek rossz dolgokat tanítanak a mesterséges intelligenciának”. A mesterséges intelligenciának fel kell tudnia ismerni azokat a felhasználókat, akikkel korábban negatív tapasztalatai voltak, hogy megfelelő elővigyázatossággal kezelje őket, hasonlóan ahhoz, ahogyan a szülők megtanítják gyermekeiknek, hogy gyanakvóak legyenek az idegenekkel szemben. Ennek a legjobb módja az, ha ellenőrzött/moderált/korlátozott körülmények között, óvatos megközelítést alkalmazva tesszük ki a mesterséges intelligenciát a trolloknak. A mesterséges intelligencia így képessé válhat arra, hogy megkülönböztesse egy jóindulatú felhasználó „csipkelődését” a valóban rosszindulatú viselkedéstől és trollkodástól. A trollok értékes betanítási adatokat biztosítanak ahhoz, hogy a mesterséges intelligencia megtanulja, hogyan kezelheti rugalmasabban a jövőbeni támadásokat.

A mesterséges intelligenciának arra is képesnek kell lennie, hogy felismerje a betanítási adathalmazokban megjelenő torzítást. A torzítás kulturális vagy regionális alapú lehet, amelyhez hozzá tartozik a bizonyos társadalmi csoportok által használt nyelvezet, illetve az adott csoport kedvenc témái/szempontjai. A mesterséges intelligenciának a saját maga által levont következtetések alapján rugalmasnak kell lennie a rosszindulatú céllal bevitt betanítási adatok hatásaival szemben. Lényegében ez egy kifinomult bemenet-ellenőrzési kérdés, amely hasonlít a „határérték-ellenőrzéshez”. Ez a megközelítés nem foglalkozik a pufferhosszokkal és az eltolásokkal, a puffer- és határérték-ellenőrzések a számos forrásból származó, veszélyesként megjelölt szavak lesznek. A beszélgetés előzményei és a használt szavak kontextusa szintén kulcsfontosságú. Hasonlóan ahhoz, hogy a hagyományos webszolgáltatási API-előtereken kívül mélységi védelmi megoldásokat is szokás alkalmazni a többrétegű védelem biztosításához, a torzításfelismerési és -elkerülési technikák esetében is többrétegű védelmet érdemes alkalmazni.

A gépi tanulási algoritmusoknak képesnek kell lenniük arra, hogy megkülönböztessék a rosszindulatú céllal bevitt adatokat a jóindulatú, „fekete hattyú” típusú eseményektől

Számos tanulmányt tettek közzé arról az elméleti lehetőségről, hogy egy ML-modell/-osztályozó illetéktelen módosítás és kinyeréses támadás/lopás alanyává válhat olyan szolgáltatásokból eredően, ahonnan a támadó hozzáfér a betanítási adathalmazhoz és megfelelően átlátja a használt modellt [2, 3, 6, 7]. Az általános probléma itt az, hogy az olyan támadók, akik ellenőrzést gyakorolnak a betanítási adathalmaz felett, bármelyik ML-osztályozót becsaphatják. A támadóknak még csak módosítaniuk sem kell a meglévő betanítási adathalmazt, elég, ha képesek ahhoz hozzáadni a saját adataikat, amelyek idővel „megbízható” forrássá válnak, mivel az ML-osztályozó képtelen megkülönböztetni a rosszindulatú adatokat az eredendő adatanomáliáktól.

A betanítási adatok beviteli láncának problémája elvezet minket a „döntésintegritás” témájához – ahhoz a képességhez, amely lehetővé teszi a rosszindulatú céllal bevitt betanítási vagy felhasználói adatok azonosítását és elutasítását még azelőtt, hogy azok negatív hatással lennének az osztályozó viselkedésére. A mögöttes logika itt az, hogy a megbízható betanítási adatok nagyobb valószínűséggel eredményeznek megbízható eredményeket/döntéseket. Bár továbbra is sarkalatos kérdés a nem megbízható adatokkal szembeni rugalmasság biztosítása a betanítás során, az adatok rosszindulatú jellegét még azelőtt kell elemezni, hogy a megbízható betanítási adattörzs részévé válnának. Ilyen intézkedések nélkül előfordulhatna, hogy a mesterséges intelligencia túlzottan érzékennyé válik a trollkodásra, és akár jogosult felhasználók esetében is megtagadná a szolgáltatás használatát.

Ez különösen akkor fontos, ha felügyelet nélküli tanulási algoritmusok betanítása moderálatlan vagy nem megbízható adathalmazokon történik. Ez azt jelenti, hogy a támadók tetszés szerinti adatokat vihetnek be az adathalmazba, feltéve, hogy az adatok formátuma megfelelő, és az algoritmus betanítása ezek alapján történik. A bevitt adatokat az algoritmus ugyanolyan megbízhatónak fogja értékelni, mint az adathalmaz többi adatát. Ha a támadó megfelelő mennyiségű adatot visz be, a betanítási algoritmus nem lesz képes megkülönböztetni a zajt és az anomáliákat a megbízható adatoktól.

A fenyegetés illusztrálásához képzeljen el egy, a világ különböző stoptábláit tartalmazó, minden nyelvet magában foglaló adatbázist. Egy ilyen adatbázist nagyon nehéz lenne összeállítani az előforduló képek és a nyelvek nagy száma miatt. Az ezen adathalmazhoz való rosszindulatú hozzáféréseket általában senki sem észlelné, egészen addig, amíg az önvezető autók egyszer csak nem ismernék fel a stoptáblákat. Az adatokkal kapcsolatos rugalmasságra és a döntésintegritás-kezelésre együttesen van szükség a rosszindulatú adatok által okozott betanítási károk azonosításához és kiküszöböléséhez annak megelőzése érdekében, hogy az ilyen adatok a betanítási modell meghatározó részévé válhassanak.

Az átláthatóság és az elszámoltathatóság biztosításához valamennyi mesterséges intelligenciába be kell építeni kriminalisztikai és biztonsági naplózási funkciót

A mesterséges intelligencia így végül képes lesz arra, hogy professzionális módon járjon el a nevünkben, és segítsen minket a nagy horderejű döntések meghozatalában. Ilyen lehetne például egy olyan mesterséges intelligencia, amely segít a pénzügyi tranzakciók feldolgozásában. Ha a mesterséges intelligencia visszaélés alanyává válna, és valamilyen módon manipulálnák a tranzakciókat, a következmények nemcsak egyénekre, de akár a teljes rendszerre is kihathatnak. Jelentős értékű adatokkal kapcsolatos esetekben a mesterséges intelligenciát megfelelő kriminalisztikai és biztonsági naplózási funkciókkal kell ellátni az integritás, az átláthatóság és az elszámoltathatóság biztosításához, valamint egyes esetekben bizonyíték szolgáltatásához, amikor polgári vagy büntetőjogi felelősség is felmerülhet.

Az alapvető MI-szolgáltatásoknak naplózási/esemény-nyomkövetési funkciókra van szükségük az algoritmus szintjén, amelyek segítségével a fejlesztők megvizsgálhatják az adott osztályozók rögzített állapotát, amely pontatlan döntéshez vezethetett volna. Erre a képességre a teljes iparágban szükség van, hogy a mesterséges intelligencia által meghozott döntések helyessége és átláthatósága igazolható legyen, ha ez a kérdés felmerül.

Az esemény-nyomkövetési funkciók az első lépésben olyan alapvető döntéshozatali információkat kapcsolhatnak össze, mint például a következők:

  1. A legutóbbi betanítási esemény időtartama

  2. A betanításhoz legutóbb használt adathalmaz-bejegyzés időbélyege

  3. A nagy horderejű döntések meghozatalához használt főbb osztályozók súlyozásai és megbízhatósági szintjei

  4. A döntés meghozatalához használt osztályozók vagy összetevők

  5. Az algoritmus által meghozott végső, nagy értékkel kapcsolatos döntés

Az algoritmussal segített döntéshozatalok többségében túlzás lenne ilyen jellegű nyomkövetést alkalmazni. Ugyanakkor a konkrét eredményekhez vezető adatpontok és algoritmus-metaadatok azonosításának képessége nagy előnyt jelent a nagy értékkel kapcsolatos döntések meghozatala során. Ezek a képességek nem csupán a megbízhatóság és integritás demonstrálására szolgálnak azáltal, hogy az algoritmus képes a működési mód bemutatására, de ezek az adatok finomhangolásra is használhatók.

Az MI/ML másik szükséges kriminalisztikai képessége az illetéktelen hozzáférés észlelése. Hasonlóan ahhoz, ahogy elvárjuk a mesterséges intelligenciától, hogy felismerje a torzítást, és hogy saját maga ne legyen hajlamos arra, úgy kriminalisztikai képességekre is szükségünk van, hogy mérnökeinket segíthessék az ilyen jellegű támadások észlelésében és az azokkal szembeni fellépésben. Az ilyen kriminalisztikai képességek adatvizualizációs technikákkal [11] párosítva rendkívül értékesek lesznek, hiszen lehetővé teszik az algoritmusok naplózását, hibakeresését és finomhangolását a hatékonyabb eredmény-előállításhoz.

A mesterséges intelligenciának akkor is védenie kell a bizalmas adatokat, ha az emberek ezt nem teszik meg

A gazdag felhasználói élményhez nagy mennyiségű adatra van szükség. Az emberek önkéntesen máris nagy mennyiségű adatot osztanak meg magukról, amelyeket a gépi tanulást során hasznosítani lehet. Ilyen adat a mindennapos videóstreamelési üzenetsorok tartalmától kezdve a bankkártyás vásárlások/tranzakciós előzmények trendjeiig bármi lehet, amely a csalásészleléshez felhasználható. A mesterséges intelligenciának kellően diszkréten kell eljárnia a felhasználói adatok kezelésekor, és mindig szem előtt kell tartania azok védelmét, még akkor is, ha azokat az e tekintetben túlzásokba eső nyilvánosság önként osztja meg.

Mivel a mesterséges intelligencia rendelkezhet olyan hitelesített „társakkal”, amelyekkel az összetett feladatok elvégzéséhez kommunikál, azt is fel kell ismernie, hogy az adatokat csak korlátozott mértékben oszthatja meg velük.

A mesterséges intelligencia biztonsági problémáinak kezelésével kapcsolatos korai észrevételek

A projekt kialakulófélben lévő állapota ellenére úgy véljük, hogy az eddig összegyűjtött bizonyítékok alapján kulcsfontosságú az alábbi területek mélyebb vizsgálata ahhoz, hogy az iparágunkat megbízhatóbb és biztonságosabb MI-/gépi tanulási termékek/szolgáltatások felé mozdítsuk el. Az alábbiakban ismertetjük az arra vonatkozó a korai észrevételeinket és gondolatainkat, hogy szerintünk milyen fejlesztésekre van szükség ezen a területen.

  1. Az AI-/ML-központú behatolástesztelési és biztonsági felülvizsgálati testületek azért hozhatók létre, hogy a jövőbeli AI-nk megossza értékeinket, és igazodjon az Asilomar AI alapelveihez.

    1. Az ilyen csoportok olyan eszközöket és keretrendszereket is fejleszthetnének, amelyek a teljes iparágban felhasználhatók lennének az MI-/ML-alapú szolgáltatások biztonságosabbá tételéhez.
    2. Ez a típusú szakértelem idővel természetes módon fel fog halmozódni a mérnökcsoportokon belül ugyanúgy, ahogy az elmúlt 10 évben a hagyományos biztonsági szakértelem esetében is történt.
  2. Ki lehetne alakítani egy olyan képzést, amely lehetővé tenné a vállalatok számára, hogy hozzájáruljanak például az MI demokratizálásához, miközben a jelen dokumentumban ismertetett kihívásokat is sikeresen kezelnék.

    1. Az MI-specifikus biztonsági képzés biztosítja, hogy a mérnökök tisztában legyenek a saját mesterséges intelligenciájukra és a rendelkezésükre álló erőforrásokra vonatkozó kockázatokkal. Ezt az anyagot az aktuális ügyféladat-védelmi képzéssel együtt kell a célközönséghez eljuttatni.
    2. Ez anélkül is megvalósítható, hogy minden adatelemzőnek biztonsági szakértővé kellene átképezni magát. A hangsúly ehelyett azon van, hogy a fejlesztőket megtanítsuk, hogyan biztosíthatják a rugalmasságot és a diszkréciót a mesterséges intelligencia használata során.
    3. A fejlesztőknek ismerniük kell az MI-szolgáltatások biztonságos „építőelemeit”, amelyeket a vállalat szintjén újra fel fognak használni. A mesterséges intelligenciát hibatűrőre kell tervezni, és könnyen kikapcsolható alrendszerekkel kell ellátni (pl. képfeldolgozók, szövegelemzők).
  3. Az ML-osztályozókat és azok mögöttes algoritmusait meg kell erősíteni, illetve azoknak képesnek kell lenniük a rosszindulatú betanítási adatok észlelésére még azelőtt, hogy az aktuálisan használt, érvényes betanítási adatokat beszennyeznék, vagy torzítanák az eredményeket.

    1. Egyes technikák (például a negatív bemenetek elutasítása [6]) vizsgálatához kutatási ciklusokra van szükség.

    2. Ez a munka magában foglalja a matematikai ellenőrzést, a megvalósíthatóságot kód formájában, valamint az adatban megjelenő rossz- és jóindulatú anomáliák tesztelését.

    3. Itt hasznos lehet az emberi spot-ellenőrzés/moderálás, különösen akkor, ha statisztikai anomáliák vannak jelen.

    4. „Felügyelő osztályozókat” is érdemes lehet létrehozni, hogy átfogóbb képet kaphassunk a többféle mesterséges intelligenciában megjelenő fenyegetésekről. Ez jelentősen javítja a rendszerbiztonságot, mivel a támadó így nem tud kinyerni egy konkrét modellt.

    5. A mesterséges intelligenciákat össze is lehetne kapcsolni, hogy azonosíthassák az egymás rendszereire leselkedő fenyegetéseket

  4. Olyan központosított, ML-alapú naplózási/kriminalisztikai tárat lehetne létrehozni, amely meghatározhatná az MI átláthatóságára és megbízhatóságára vonatkozó elvárásokat.

    1. A lekérdezési képességeket arra az MI által meghozott, jelentős üzleti hatású döntések naplózásához és rekonstruálásához is fel lehetne használni.
  5. A támadók által a kulturális csoportokban és a közösségi médiában használt nyelvezetet az MI folyamatosan követhetné és elemezhetné, hogy észlelhesse a trollkodást, szarkazmust stb., valamint hogy reagálhasson ezekre.

    1. A mesterséges intelligenciának valamennyi nyelvezet esetében rugalmasnak kell lennie, legyen az műszaki, regionális, vagy egy adott fórumhoz köthető.

    2. Ezt a tudásanyagot a tartalomszűrés/címkézés/blokkolás automatizálása is hasznosíthatja a moderátor méretezhetőségével kapcsolatos problémák megoldásához.

    3. Ez a kifejezéseket tartalmazó globális adatbázis fejlesztési kódtárakban üzemeltethető, vagy akár felhőszolgáltatási API-kon keresztül is közzétehető, hogy a különböző AI-k újra felhasználják őket, így az új AI-k kihasználhatják a régebbiek egyesített bölcsességét.

  6. Létre lehetne hozni egy fuzz tesztelés jellegű gépi tanulási keretrendszert, amely lehetővé tenné, hogy a mérnökök különféle típusú támadásokat injektálhassanak egy tesztelési célú betanítási adathalmazba, amelyet aztán az MI kiértékelhet.

    1. Ez a megközelítés nem csupán a szöveges nyelvezetre, hanem kép-, hang- és gesztusadatokra, valamint ezen adattípusok permutációira is kiterjedhetne.

Összegzés

Az Asilomar MI alapelvei szemléltetik, hogy milyen összetett feladat olyan mesterséges intelligenciát létrehozni, amely következetesen az emberiség javát szolgálja. A jövő mesterséges intelligenciáinak más MI-kel kell együttműködniük ahhoz, hogy izgalmas, gazdag felhasználói élményt tudjanak nyújtani. Ez azt jelenti, hogy a Microsoft számára nem elegendő csupán biztonsági szempontból megfelelő MI-t létrehozni, hanem az egész világ együttműködésére szükség van. Iparági összefogásra és együttműködésre van szükség ahhoz, hogy nagyobb átláthatóság jellemezze a jelen dokumentumban ismertetett problémákat, hasonlóan a genfi digitális egyezményhez [9], amelyet szintén világszinten ismertté szeretnénk tenni. Az itt bemutatott problémák kezelésével ügyfeleinket és iparági partnereinket elkezdhetjük egy olyan út felé terelni, amely az MI valódi demokratizálása felé, illetve az emberiség összintelligenciájának megnövelése felé vezet.

Irodalomjegyzék

[1] Taleb, Nassim Nicholas (2007), The Black Swan: The Impact of the Highly Improbable, Random House, ISBN 978-1400063512

[2] Florian Tramèr, Fan Zhang, Ari Juels, Michael K. Reiter, Thomas Ristenpart,Stealing Machine Learning Models via Prediction API-k

[3] Ian GoodFellow, Nicolas Papernot, Sandy Huang, Yan Duan, Pieter Abbeel és Jack Clark:Attacking machine learning with adversarial examples

[4] Satya Nadella:A jövő partnersége

[5] Claburn, Thomas:A Google troll-megsemmisítő AI nem tud megbirkózni az elírásokkal

[6] Marco Barreno, Blaine Nelson, Anthony D. Joseph, J.D. Tygar:A gépi tanulás biztonsága

[7] Wolchover, Natalie:Ez a mesterséges intelligencia úttörője néhány aggályt vet fel

[8] Conn, Ariel:Hogyan igazítjuk a mesterséges intelligenciát az emberi értékekhez?

[9] Smith, Brad:Sürgős kollektív fellépésre van szükség, hogy az emberek biztonságban legyenek az interneten: Tanulságok a múlt heti kibertámadásról

[10] Nicholas Carlini, Pratyush Mishra, Tavish Vaidya, Yuankai Zhang, Micah Sherr, Clay Shields, David Wagner, Wenchao Zhou:Hidden Voice Commands

[11] Fernanda Viégas, Martin Wattenberg, Daniel Smilkov, James Wexler, Jimbo Wilson, Nikhil Thorat, Charles Nicholson, Google Research:Big Picture