A mesterséges intelligencia és gépi tanulás biztonságos jövője a Microsoftnál

Cikk
01/23/2024

Szerzők: Andrew Marshall, Raul Rojas, Jay Stokes és Donald Brinkman

Külön köszönet Mark Cartwrightnak és Graham Calladine-nak

Vezetői összefoglaló

A mesterséges intelligencia (AI) és a machine learning (ML) már most is nagy hatással van az emberek munkájára, szocializálására és életének élésére. Az MI/ML-re épülő termékek és szolgáltatások terjedésével különleges intézkedésekre van szükség nemcsak az ügyfelek és adataik biztonsága, hanem az MI és az algoritmusok visszaélések, trollok és adatkinyerés elleni védelme érdekében is. Ez a dokumentum azon biztonsággal kapcsolatos tapasztalatok közül oszt meg néhányat, amelyeket a Microsoft a mesterséges intelligencia alapján történő terméktervezés és online szolgáltatások üzemeltetése során szerzett. Bár nehéz előrejelezni, hogy ez a terület hogyan bontakozik ki, arra a következtetésre jutottunk, hogy jelenleg végrehajtható problémákat kell kezelni. Emellett olyan stratégiai problémákat is találtunk, amelyeket a technológiai iparnak meg kell előznie, hogy biztosítsa az ügyfelek hosszú távú biztonságát és az adataik védelmét.

Ez a dokumentum nem az AI-alapú támadásokról szól, vagy akár az emberi támadók által kihasznált AI-ről. Ehelyett azokra a problémákra összpontosítunk, amelyekkel a Microsoftnak és az iparági partnereknek foglalkozniuk kell ahhoz, hogy megvédjék az AI-alapú termékeket és szolgáltatásokat a rendkívül kifinomult, kreatív és rosszindulatú támadásoktól, akár egyéni trollok, akár teljes farkascsomagok segítségével.

Ez a dokumentum teljes egészében az AI/ML-terület egyedi biztonsági mérnöki problémáira összpontosít, de az InfoSec-tartomány kiterjedt jellege miatt érthető, hogy az itt tárgyalt problémák és megállapítások bizonyos mértékben átfedésben vannak az adatvédelem és az etika területével. Mivel ez a dokumentum a technológiai iparág stratégiai fontosságú kihívásait mutatja be, az iparág vezető biztonsági mérnökei számára készült.

A korai eredmények a következőkre utalnak:

A dokumentum által tárgyalt biztonsági problémák kezeléséhez a meglévő biztonsági gyakorlatok MI/ML-specifikus fejlesztésére van szükség.
A gépi tanulási modellek többnyire nem képesek különbséget tenni a rosszindulatú bemenetek és a jóindulatú rendellenes adatok között. A betanítási adatok jelentős forrása a nem minősített, nem optimalizált, nyilvános adathalmazokból származik, amelyek 3^{távoli féltől} származó hozzájárulásra vannak nyitva. A támadóknak nem kell veszélyeztetniük az adathalmazokat, ha szabadon közreműködhetnek bennük. Az alacsony megbízhatóságú rosszindulatú adatok idővel nagy megbízhatóságú megbízható adatok lesznek, ha az adatstruktúra/formázás helyes marad.
A mélytanulási modellben használható rejtett osztályozók/neuronok nagy száma miatt túl nagy a bizalom az AI/ML döntéshozatali folyamatok és algoritmusok kimenetében anélkül, hogy kritikusan át kellene ismernie ezeknek a döntéseknek a elérését. Ez az átláthatatlanság „ábrázolhatatlanná” teszi a munkát, és megnehezíti az MI/ML-alapú döntések bizonyítható védelmét kétség esetén.
Az MI-t/ML-t egyre nagyobb mértékben használják nagy jelentőségű döntési folyamatok támogatásához az orvostudományban és más olyan ágazatokban, ahol egy helytelen döntés súlyos sérülést vagy halált okozhat. Az MI/ML kriminalisztikai jelentéskészítési képességeinek hiánya miatt az ilyen nagy értékű következtetések sem a bíróság, sem pedig a közvélemény előtt nem védhetők.

A dokumentum célja, hogy (1) kiemelje a biztonsági tervezési problémákat, amelyek egyediek az AI/ML térben, (2) felszínre néhány kezdeti gondolatot és megfigyelést a felmerülő fenyegetésekről, és (3) ossza meg a korai gondolatokat a lehetséges szervizelés. A jelen dokumentumban szereplő kihívások közül néhány olyan problémát jelent, amelyek megelőzéséről az iparágnak a következő két évben kell gondoskodnia, míg más problémákat most kell orvosolnunk. A jelen dokumentumban tárgyalt területek alapos vizsgálata nélkül azt kockáztatjuk, hogy a jövőbeli AI fekete dobozsá válik azáltal, hogy nem tudunk megbízni vagy megérteni (és szükség esetén módosítani) az AI döntéshozatali folyamatait matematikai szinten [7]. Biztonsági szempontból ez gyakorlatilag az irányítás elvesztését és a Microsoft mesterséges intelligenciára vonatkozó alapelveitől való eltérést jelenti [3, 7].

Új biztonsági tervezési kihívások

A hagyományos szoftveres támadási vektorok továbbra is kritikus fontosságúak, de nem biztosítanak megfelelő lefedettséget az AI/ML fenyegetési környezetében. A technológiai iparágnak kerülnie kell a következő generációs problémák előző generációs megoldásokkal történő kezelését. Ehhez új keretrendszerek létrehozására és új megközelítések bevezetésére van szükség, amelyek az MI/ML-alapú szolgáltatások tervezési és működési hiányosságait célozzák meg:

A biztonságos fejlesztés és üzemeltetés alapjainak, mint alább kifejtjük, szem előtt kell tartaniuk a rugalmasság és a belátás fogalmát az MI és a felügyelete alá tartozó adatok védelmének keretében. MI-specifikus fejlesztésekre van szükség a hitelesítés, a feladatelkülönítés, a bemenet-ellenőrzés és a szolgáltatásmegtagadás-csökkentés területén. Ezen területek beruházásai nélkül az AI/ML-szolgáltatások továbbra is felfelé harcolnak az összes képességszinten harcoló támadók ellen.
Az MI-nek fel kell tudnia ismerni mások elfogultságát anélkül, hogy maga is részrehajló lenne az emberekkel való kommunikáció során. Ennek megvalósításához az elfogultság, a sztereotípiák, a nyelvjárások és más kulturális fogalmak kollektív és fejlődő megértésére van szükség. Ez a megértés segít megvédeni az AI-t a szociális mérnöki és adatkészlet-módosítási támadásoktól. A megfelelően implementált rendszer valójában erősebbé válik az ilyen támadásoktól, és képes lesz megosztani a kiterjesztett megértést más AI-kkal.
A Machine Learning-algoritmusoknak képesnek kell lenniük felismerni a rosszindulatúan bevezetett adatokat a jóindulatú "Black Swan" eseményekből [1] azáltal, hogy elutasítják a betanítási adatokat, és negatív hatással vannak az eredményekre. Ellenkező esetben a tanulási modellek mindig érzékenyek a támadók és a trollok játékára.
Az MI-nek beépített kriminalisztikai képességekkel kell rendelkeznie. Ez lehetővé teszi a vállalatok számára, hogy átláthatóságot és elszámoltathatóságot biztosítsanak AI-juk számára, biztosítva, hogy a műveletek ne csak ellenőrizhetően helyesek legyenek, hanem jogilag is védhetőek legyenek. Ezek a képességek a „mesterséges intelligencia behatolásészlelésének” korai formáját is képviselik, amelynek köszönhetően a mérnökök meghatározhatják egy osztályozó által hozott döntés pontos időpontját, a döntést befolyásoló adatokat, valamint azt, hogy ezek az adatok megbízhatók voltak-e. Ezen a területen az adatvizualizációs képességek gyorsan fejlődnek, és ígéretet nyújtanak a mérnököknek az összetett problémák alapvető okainak azonosításában és megoldásában [10].
Az MI-nek akkor is fel kell ismernie és védenie kell a bizalmas adatokat, ha az emberek nem ismerik fel ezeket. Az MI-vel kapcsolatos gazdag felhasználói felületek létrehozásához hatalmas mennyiségű nyers betanítási adatra van szükség, így számolni kell az ügyfelek általi „túlzott megosztással”.

Ezeket a területeket, beleértve a fenyegetéseket és a kezelési lehetőségeket, alább részletesen kifejtjük.

Az MI alkalmazásához a hagyományos biztonságos tervezési/üzemeltetési modellek új fejlesztéseire van szükség: a rugalmasság és a belátás bevezetésére

Az AI-tervezőknek biztosítaniuk kell a bizalmas adatok bizalmasságát, integritását és rendelkezésre állását, hogy az AI-rendszer mentes legyen az ismert biztonsági résektól, és vezérlőket biztosítson a rendszer vagy a felhasználó adataival szembeni rosszindulatú viselkedés elleni védelemhez, észleléshez és válaszhoz.

A rosszindulatú támadások elleni védekezés hagyományos módjai nem biztosítják ugyanazt a lefedettséget ebben az új paradigmában, ahol a hang-/videó-/képalapú támadások megkerülhetik a jelenlegi szűrőket és védelmet. Az új veszélyforrás-modellezési szempontokat meg kell vizsgálni a mesterséges intelligencia új típusú visszaélésekkel való kihasználásának megakadályozása érdekében. Ez túlmutat a hagyományos, fuzz- vagy a bevitelmanipuláció.-alapú támadási felületek tesztelésén (ezeknek a támadásoknak is megvannak a saját, MI-specifikus vonatkozásaik). Ehhez az MI/ML-területre vonatkozóan egyedi forgatókönyvek bevonására van szükség. Ezek közül a legfontosabbak az MI-felhasználói élmények, mint például a hang, a videó és a kézmozdulatok. Az ezekhez a szolgáltatásokhoz kapcsolódó fenyegetéseket hagyományosan nem modellezettük. A videók tartalmát például manapság úgy alakíthatják ki, hogy fizikai hatásokat váltson ki. A kutatások azt is bemutatják, hogy hangalapú támadási parancsok készíthetők [9].

A bűnözők, az elszánt ellenfelek és a trollok kiszámíthatatlansága, kreativitása és rosszindulata megköveteli, hogy a mesterséges intelligenciáinkat a rugalmasság és a belátás értékeivel ruházzuk fel:

Rugalmasság: A rendszernek képesnek kell lennie azonosítani a rendellenes viselkedéseket, és meg kell akadályoznia a manipulációt vagy kényszerítést az AI-rendszer és az adott feladat tekintetében az elfogadható viselkedés normál határain kívül. Ezek új, az MI/ML területére vonatkozóan egyedi támadástípusok. A rendszereket úgy kell kialakítani, hogy ellenálljanak az olyan bemeneteknek, amelyek ütköznek a helyi törvényekkel, az etikával, valamint a közösség és az alkotói által tiszteletben tartott értékekkel. Ez azt jelenti, hogy a mesterséges intelligenciát képessé kell tenni annak felismerésére, ha a kommunikáció „eltér a forgatókönyvtől”. Ez a következő módszerekkel érhető el:

Rögzítse azokat az egyéni felhasználókat, akik eltérnek a hasonló felhasználók különböző nagy fürtöi által meghatározott normáktól, például azok a felhasználók, akik úgy tűnik, hogy túl gyorsan gépelnek, túl gyorsan válaszolnak, nem alszanak, vagy a rendszer egyes részeit más felhasználók nem aktiválják.
Azon viselkedési minták azonosítása, amelyek a rosszindulatú szondázási támadásoknak, illetve a hálózati behatolásos támadási folyamat kezdetének ismert jelei.
Felismerhet minden olyan időpontot, amikor több felhasználó összehangoltan cselekszik; például több felhasználó ugyanazt a megmagyarázhatatlan, de szándékosan készített lekérdezést bocsátja ki, hirtelen megugrik a felhasználók száma, vagy hirtelen megugrik egy AI-rendszer bizonyos részeinek aktiválása.

Az ilyen típusú támadásokat figyelembe kell venni a szolgáltatásmegtagadásos támadásokkal egyezően, mivel az AI hibajavításokat és újratanítást igényelhet, hogy ne essenek újra ugyanazokra a trükkökre. Kritikus fontosságú a rosszindulatú szándékok azonosítása olyan ellenintézkedések jelenlétében, mint amilyenek a hangulatelemzési API-k legyőzéséhez használatosak [4].

Belátás: Az AI-nek felelősnek és megbízható felelősnek kell lennie minden olyan információért, amelyhez hozzáféréssel rendelkezik. Emberként kétségtelenül bizonyos szintű bizalmat rendelünk az AI-kapcsolatokhoz. Ezek az ügynökök idővel más ügynökökkel vagy más emberekkel is beszélgetnek majd a nevünkben. Képesnek kell lennünk megbízni abban, hogy egy MI-rendszer kellően diszkrécióval rendelkezik ahhoz, hogy kizárólag korlátozott formában ossza meg a velünk kapcsolatos adatokat, hogy más ügynökök a rendszer nevében el végre tudják hajtani a feladataikat. Ezenkívül a személyes adatokkal a nevünkben kommunikáló több ügynöknek sem kell globális hozzáféréssel rendelkeznie. A többféle mesterséges intelligenciát vagy robotügynököket magában foglaló adathozzáférési forgatókönyvek esetében a minimálisan szükséges időtartamra kell korlátozni a hozzáférési jogosultságot. A felhasználóknak is meg kell tudniuk tagadni az adatokat, és el kell utasítaniuk az ügynökök hitelesítését adott vállalatoktól vagy területi beállításoktól, ahogyan a webböngészők lehetővé teszik a webhely blokkolását. E probléma megoldásához újfajta – például a felhőalapú számítástechnika korai éveiben alkalmazott felhőalapú felhasználóhitelesítésbe való befektetésekhez hasonló – megközelítést kell alkalmazni az ügynökök közötti hitelesítés és az adatokhoz való hozzáférési jogosultságok kérdésében.

A mesterséges intelligenciának fel kell tudnia ismerni mások elfogultságát anélkül, hogy maga is részrehajló módon viselkedne

A mesterséges intelligenciának igazságosnak és befogadónak kell lennie, azaz nem diszkriminálhat egyetlen társadalmi csoportot vagy érvényes eredményt sem, ehhez azonban eleve tisztában kell lennie az elfogultság természetével. Az elfogultság, a trollkodás vagy a szarkazmus felismerése nélkül az AI-t az olcsó nevetést legjobban keresők becsaphatják, vagy legrosszabb esetben kárt okozhatnak az ügyfeleknek.

Ilyen szintű tudatosság csak úgy érhető el, ha a mesterséges intelligencia átfogó és folyamatosan fejlesztett ismeretekkel rendelkezik a kulturális torzításokról, ez pedig csak úgy valósulhat meg, ha „jó emberek rossz dolgokat tanítanak a mesterséges intelligenciának”. Az AI-nek képesnek kell lennie felismerni egy olyan felhasználót, akivel korábban negatív interakciók voltak, és megfelelő óvatosságot kell gyakorolnia, hasonlóan ahhoz, ahogyan a szülők megtanítják gyermekeiket arra, hogy óvakedjenek az idegenekkel. Ennek a legjobb módja az, ha ellenőrzött/moderált/korlátozott körülmények között, óvatos megközelítést alkalmazva tesszük ki a mesterséges intelligenciát a trolloknak. A mesterséges intelligencia így képessé válhat arra, hogy megkülönböztesse egy jóindulatú felhasználó „csipkelődését” a valóban rosszindulatú viselkedéstől és trollkodástól. A trollok értékes betanítási adatokat biztosítanak ahhoz, hogy a mesterséges intelligencia megtanulja, hogyan kezelheti rugalmasabban a jövőbeni támadásokat.

A mesterséges intelligenciának arra is képesnek kell lennie, hogy felismerje a betanítási adathalmazokban megjelenő torzítást. A torzítás kulturális vagy regionális alapú lehet, amelyhez hozzá tartozik a bizonyos társadalmi csoportok által használt nyelvezet, illetve az adott csoport kedvenc témái/szempontjai. A rosszindulatúan bevezetett betanítási adatokhoz hasonlóan az AI-nek is ellenállónak kell lennie az adatok saját következtetésekre és levonásokra gyakorolt hatásaival szemben. Lényegében ez egy kifinomult bemenet-ellenőrzési kérdés, amely hasonlít a „határérték-ellenőrzéshez”. Ez a megközelítés nem foglalkozik a pufferhosszokkal és az eltolásokkal, a puffer- és határérték-ellenőrzések a számos forrásból származó, veszélyesként megjelölt szavak lesznek. A beszélgetés előzményei és a használt szavak kontextusa szintén kulcsfontosságú. Hasonlóan ahhoz, hogy a hagyományos webszolgáltatási API-előtereken kívül mélységi védelmi megoldásokat is szokás alkalmazni a többrétegű védelem biztosításához, a torzításfelismerési és -elkerülési technikák esetében is többrétegű védelmet érdemes alkalmazni.

A Machine Learning-algoritmusoknak képesnek kell lenniük arra, hogy felismerje a rosszindulatúan bevezetett adatokat a jóindulatú "Black Swan" eseményekből

Számos tanulmányt tesznek közzé az ML-modell/osztályozók illetéktelen beavatkozásának és kinyerésének/ellopásának elméleti lehetőségeiről olyan szolgáltatásokból, ahol a támadók hozzáférhetnek a betanítási adatkészlethez és a használt modell tájékozott megértéséhez [2, 3, 6, 7]. A túlíveléssel kapcsolatos probléma az, hogy az összes ML-osztályozót át tudja verni egy támadó, aki a betanítási készlet adatai felett rendelkezik. A támadóknak még csak módosítaniuk sem kell a meglévő betanítási adathalmazt, elég, ha képesek ahhoz hozzáadni a saját adataikat, amelyek idővel „megbízható” forrássá válnak, mivel az ML-osztályozó képtelen megkülönböztetni a rosszindulatú adatokat az eredendő adatanomáliáktól.

A betanítási adatok beviteli láncának problémája elvezet minket a „döntésintegritás” témájához – ahhoz a képességhez, amely lehetővé teszi a rosszindulatú céllal bevitt betanítási vagy felhasználói adatok azonosítását és elutasítását még azelőtt, hogy azok negatív hatással lennének az osztályozó viselkedésére. Az ok az, hogy a megbízható betanítási adatok nagyobb valószínűséggel hoznak létre megbízható eredményeket/döntéseket. Bár továbbra is kulcsfontosságú a betanítás és a nem megbízható adatokkal szembeni ellenálló képesség, az adatok rosszindulatú jellegét elemezni kell, mielőtt az a betanítási adatok nagy megbízhatóságú törzsének részévé válik. Ilyen intézkedések nélkül előfordulhatna, hogy a mesterséges intelligencia túlzottan érzékennyé válik a trollkodásra, és akár jogosult felhasználók esetében is megtagadná a szolgáltatás használatát.

Ez különösen akkor fontos, ha felügyelet nélküli tanulási algoritmusok betanítása moderálatlan vagy nem megbízható adathalmazokon történik. Ez azt jelenti, hogy a támadók tetszés szerinti adatokat vihetnek be az adathalmazba, feltéve, hogy az adatok formátuma megfelelő, és az algoritmus betanítása ezek alapján történik. A bevitt adatokat az algoritmus ugyanolyan megbízhatónak fogja értékelni, mint az adathalmaz többi adatát. Ha a támadó megfelelő mennyiségű adatot visz be, a betanítási algoritmus nem lesz képes megkülönböztetni a zajt és az anomáliákat a megbízható adatoktól.

A fenyegetés illusztrálásához képzeljen el egy, a világ különböző stoptábláit tartalmazó, minden nyelvet magában foglaló adatbázist. Egy ilyen adatbázist nagyon nehéz lenne összeállítani az előforduló képek és a nyelvek nagy száma miatt. Az ezen adathalmazhoz való rosszindulatú hozzáféréseket általában senki sem észlelné, egészen addig, amíg az önvezető autók egyszer csak nem ismernék fel a stoptáblákat. Az adatrugalmasság és a döntési integritás mérséklésének kéz a kézben kell működnie a rosszindulatú adatok által okozott betanítási károk azonosítása és kiküszöbölése érdekében, hogy az ne váljon a tanulási modell alapvető részévé.

Az átláthatóság és az elszámoltathatóság biztosításához valamennyi mesterséges intelligenciába be kell építeni kriminalisztikai és biztonsági naplózási funkciót

A mesterséges intelligencia így végül képes lesz arra, hogy professzionális módon járjon el a nevünkben, és segítsen minket a nagy horderejű döntések meghozatalában. Erre példa lehet egy AI, amely segít a pénzügyi tranzakciók feldolgozásában. Ha az AI-t kihasználják, és a tranzakciókat valamilyen módon manipulálják, a következmények az egyéntől a rendszerszintűig terjedhetnek. Nagy értékű forgatókönyvek esetén az AI-nek megfelelő kriminalisztikai és biztonsági naplózásra van szüksége az integritás, az átláthatóság, az elszámoltathatóság és bizonyos esetekben az olyan bizonyítékok biztosításához, amelyekben polgári vagy büntetőjogi felelősség merülhet fel.

Az alapvető AI-szolgáltatásoknak olyan naplózási/eseménykövetési létesítményekre van szükségük az algoritmus szintjén, amellyel a fejlesztők megvizsgálhatják bizonyos osztályozók rögzített állapotát, ami pontatlan döntéshez vezethetett. Erre a képességre a teljes iparágban szükség van, hogy a mesterséges intelligencia által meghozott döntések helyessége és átláthatósága igazolható legyen, ha ez a kérdés felmerül.

Az esemény-nyomkövetési funkciók az első lépésben olyan alapvető döntéshozatali információkat kapcsolhatnak össze, mint például a következők:

A legutóbbi betanítási esemény időtartama
A betanításhoz legutóbb használt adathalmaz-bejegyzés időbélyege
A nagy horderejű döntések meghozatalához használt főbb osztályozók súlyozásai és megbízhatósági szintjei
A döntés meghozatalához használt osztályozók vagy összetevők
Az algoritmus által meghozott végső, nagy értékkel kapcsolatos döntés

Az ilyen nyomkövetés túlzás a legtöbb algoritmus által támogatott döntéshozatalhoz. A nagy értékű döntéshozatalban azonban nagy előnyökkel jár, ha képes azonosítani az adatpontokat és az algoritmus metaadatait, amelyek konkrét eredményekhez vezetnek. Az ilyen képességek nem csak a megbízhatóságot és az integritást mutatják be az algoritmus "a munkája bemutatásának" képességén keresztül, hanem ezek az adatok a finomhangolásra is használhatók.

Az MI/ML másik szükséges kriminalisztikai képessége az illetéktelen hozzáférés észlelése. Hasonlóan ahhoz, ahogy elvárjuk a mesterséges intelligenciától, hogy felismerje a torzítást, és hogy saját maga ne legyen hajlamos arra, úgy kriminalisztikai képességekre is szükségünk van, hogy mérnökeinket segíthessék az ilyen jellegű támadások észlelésében és az azokkal szembeni fellépésben. Az ilyen kriminalisztikai képességek rendkívül értékesek az adatvizualizációs technikákkal [10] párosítva, amelyek lehetővé teszik az algoritmusok naplózását, hibakeresését és finomhangolását a hatékonyabb eredmények érdekében.

A mesterséges intelligenciának akkor is védenie kell a bizalmas adatokat, ha az emberek ezt nem teszik meg

A gazdag felhasználói élményhez nagy mennyiségű adatra van szükség. Az emberek önkéntesen máris nagy mennyiségű adatot osztanak meg magukról, amelyeket a gépi tanulást során hasznosítani lehet. Ilyen adat a mindennapos videóstreamelési üzenetsorok tartalmától kezdve a bankkártyás vásárlások/tranzakciós előzmények trendjeiig bármi lehet, amely a csalásészleléshez felhasználható. A felhasználói adatok kezelésekor az AI-nek saját belátása szerint kell eljárnia, és mindig annak védelme érdekében kell eljárnia, még akkor is, ha egy túlmegosztó nyilvános felhasználó önkéntesen önkénteskedik.

Mivel a mesterséges intelligencia rendelkezhet olyan hitelesített „társakkal”, amelyekkel az összetett feladatok elvégzéséhez kommunikál, azt is fel kell ismernie, hogy az adatokat csak korlátozott mértékben oszthatja meg velük.

A mesterséges intelligencia biztonsági problémáinak kezelésével kapcsolatos korai észrevételek

A projekt kialakulóban lévő állapota ellenére úgy gondoljuk, hogy az eddig összegyűjtött bizonyítékok az alábbi területek mélyebb vizsgálatát mutatják, kulcsfontosságú abban, hogy iparágunkat megbízhatóbb és biztonságosabb migrálási/migrálási termékek/szolgáltatások felé tereljük. Az alábbiakban ismertetjük az arra vonatkozó a korai észrevételeinket és gondolatainkat, hogy szerintünk milyen fejlesztésekre van szükség ezen a területen.

MI/ML-központú behatolástesztelési és biztonságfelügyeleti szervezeteket kellene létrehozni annak biztosításához, hogy a jövő mesterséges intelligenciája velünk azonos értékrendet képviseljen, illetve megfeleljen az Asilomar MI alapelveinek.
1. Az ilyen csoportok olyan eszközöket és keretrendszereket is fejleszthetnének, amelyek a teljes iparágban felhasználhatók lennének az MI-/ML-alapú szolgáltatások biztonságosabbá tételéhez.
2. Ez a típusú szakértelem idővel természetes módon fel fog halmozódni a mérnökcsoportokon belül ugyanúgy, ahogy az elmúlt 10 évben a hagyományos biztonsági szakértelem esetében is történt.
Ki lehetne alakítani egy olyan képzést, amely lehetővé tenné a vállalatok számára, hogy hozzájáruljanak például az MI demokratizálásához, miközben a jelen dokumentumban ismertetett kihívásokat is sikeresen kezelnék.
1. Az MI-specifikus biztonsági képzés biztosítja, hogy a mérnökök tisztában legyenek a saját mesterséges intelligenciájukra és a rendelkezésükre álló erőforrásokra vonatkozó kockázatokkal. Ezt az anyagot az ügyféladatok védelmére vonatkozó aktuális betanítással kell kézbesíteni.
2. Ez anélkül is megvalósítható, hogy minden adatelemzőnek biztonsági szakértővé kellene átképezni magát. A hangsúly ehelyett azon van, hogy a fejlesztőket megtanítsuk, hogyan biztosíthatják a rugalmasságot és a diszkréciót a mesterséges intelligencia használata során.
3. A fejlesztőknek ismerniük kell az AI-szolgáltatások biztonságos "építőelemeit", amelyeket a vállalaton belül újra felhasználnak. Hangsúlyt kell fektetni a hibatűrő kialakításra az alrendszerekkel, amelyek egyszerűen kikapcsolhatók (például képfeldolgozók, szövegelemzők).
Az ML-osztályozókat és azok mögöttes algoritmusait meg kell erősíteni, illetve azoknak képesnek kell lenniük a rosszindulatú betanítási adatok észlelésére még azelőtt, hogy az aktuálisan használt, érvényes betanítási adatokat beszennyeznék, vagy torzítanák az eredményeket.
1. Az olyan technikáknak, mint a Negatív bemenet elutasítása [5], kutatói ciklusokra van szükségük a vizsgálathoz.
2. Ez a munka magában foglalja a matematikai ellenőrzést, a megvalósíthatóságot kód formájában, valamint az adatban megjelenő rossz- és jóindulatú anomáliák tesztelését.
3. A folyamat ezen pontján hasznos lehet a manuális helyszíni ellenőrzés/moderálás, különösen a statisztikai anomáliák megléte esetében.
4. „Felügyelő osztályozókat” is érdemes lehet létrehozni, hogy átfogóbb képet kaphassunk a többféle mesterséges intelligenciában megjelenő fenyegetésekről. Ez jelentősen javítja a rendszerbiztonságot, mivel a támadó így nem tud kinyerni egy konkrét modellt.
5. A mesterséges intelligenciákat össze is lehetne kapcsolni, hogy azonosíthassák az egymás rendszereire leselkedő fenyegetéseket
Olyan központosított, ML-alapú naplózási/kriminalisztikai tárat lehetne létrehozni, amely meghatározhatná az MI átláthatóságára és megbízhatóságára vonatkozó elvárásokat.
1. A lekérdezési képességeket arra az MI által meghozott, jelentős üzleti hatású döntések naplózásához és rekonstruálásához is fel lehetne használni.
A támadók által a kulturális csoportokban és a közösségi médiában használt nyelvezetet az MI folyamatosan követhetné és elemezhetné, hogy észlelhesse a trollkodást, szarkazmust stb., valamint hogy reagálhasson ezekre.
1. A mesterséges intelligenciának valamennyi nyelvezet esetében rugalmasnak kell lennie, legyen az műszaki, regionális, vagy egy adott fórumhoz köthető.
2. Ez a tudásanyag a tartalomszűrésben/címkézésben/a tartalomblokkolás automatizálásában is használható a moderátor méretezhetőségével kapcsolatos problémák megoldásához.
3. A kifejezések globális adatbázisát fejlesztési kódtárakban lehetne tárolni, vagy felhőszolgáltatási API-ken keresztül akár közzé is lehetne tenni, hogy azt más MI-k is használhassák, így az új MI-k már tudhatják mindazt, amit a korábbi MI-k felhalmoztak.
Létre lehetne hozni egy fuzz tesztelés jellegű gépi tanulási keretrendszert, amely lehetővé tenné, hogy a mérnökök különféle típusú támadásokat injektálhassanak egy tesztelési célú betanítási adathalmazba, amelyet aztán az MI kiértékelhet.
1. Ez nem csak a szöveg csúcspontjaira, hanem a képekre, a hang- és kézmozdulatokra, valamint az adattípusok permutációira is összpontosíthat.

Összegzés

Az Asilomar MI alapelvei szemléltetik, hogy milyen összetett feladat olyan mesterséges intelligenciát létrehozni, amely következetesen az emberiség javát szolgálja. A jövőbeli AI-knek más AI-kkal kell együttműködnie, hogy gazdag, lenyűgöző felhasználói élményt nyújtsanak. Ez azt jelenti, hogy egyszerűen nem elég jó ahhoz, hogy a Microsoft biztonsági szempontból "helyrehozhassa a mi-t" – a világnak kell. Az iparági összehangolásra és együttműködésre van szükségünk a dokumentum problémáinak jobb láthatósága érdekében, hasonlóan a digitális genfi egyezményhez [8]. Az itt bemutatott problémák kezelésével ügyfeleinket és iparági partnereinket elkezdhetjük egy olyan út felé terelni, amely az MI valódi demokratizálása felé, illetve az emberiség összintelligenciájának megnövelése felé vezet.

Irodalomjegyzék

[1] Taleb, Nassim Nicholas (2007), The Black Swan: The Impact of the Highly Improbable, Random House, ISBN 978-1400063512

[2] Florian Tramèr, Fan Zhang, Ari Juels, Michael K. Reiter, Thomas Ristenpart, Stealing Machine Learning Models via Prediction APIs

[3] Satya Nadella: A jövő partnersége

[4] Claburn, Thomas: A Google trollromboló AI-jával nem lehet megbirkózni a elírásokkal

[5] Marco Barreno, Blaine Nelson, Anthony D. Joseph, J.D. Tygar: A gépi tanulás biztonsága

[6] Wolchover, Natalie: Ez a mesterségesintelligencia-úttörőnek van néhány aggálya

[7] Conn, Ariel: Hogyan igazítjuk a mesterséges intelligenciát az emberi értékekhez?

[8] Smith, Brad: Sürgős kollektív fellépésre van szükség, hogy az emberek biztonságban legyenek az interneten: A múlt heti kibertámadás tanulságai

[9] Nicholas Carlini, Pratyush Mishra, Tavish Vaidya, Yuankai Zhang, Micah Sherr, Clay Shields, David Wagner, Wenchao Zhou: Hidden Voice Commands

[10] Fernanda Viégas, Martin Wattenberg, Daniel Smilkov, James Wexler, Jimbo Wilson, Nikhil Thorat, Charles Nicholson, Google Research: Big Picture

Megosztás a következőn keresztül: