De toekomst van kunstmatige intelligentie en Machine Learning veilig stellen bij Microsoft
Door Andrew Marshall, Raul Rojas, Jay Stokes en Donald Brinkman
Met speciale dank aan Mark Cartwright en Graham Calladine
Samenvatting
Kunstmatige intelligentie (AI) en Machine Learning (ML) hebben al een grote invloed op hoe mensen werken, socialiseren en hun leven leiden. Naarmate het verbruik van producten en services die zijn gebouwd rond AI/ML toeneemt, moeten gespecialiseerde acties worden ondernomen om niet alleen uw klanten en hun gegevens te beveiligen, maar ook om uw AI en algoritmen te beschermen tegen misbruik, trolling en extractie. In dit document wordt aandacht besteed aan enkele van de beveiligingslessen die Microsoft heeft getrokken uit het ontwerpen van producten en het exploiteren van onlineservices die zijn gebouwd op AI. Hoewel het moeilijk is om te voorspellen hoe dit gebied zich ontwikkelt, hebben we geconcludeerd dat er actie-bare problemen zijn om nu op te lossen. Daarnaast hebben we geconstateerd dat er strategische problemen zijn die de tech-industrie moet aanpakken om de beveiliging van klanten op de lange termijn te garanderen, evenals de beveiliging van hun gegevens.
Dit document gaat niet over op AI gebaseerde aanvallen of zelfs AI die wordt gebruikt door menselijke aanvallers. In plaats daarvan richten we ons op problemen die microsoft- en branchepartners moeten aanpakken om ai-producten en -services te beschermen tegen zeer geavanceerde, creatieve en kwaadaardige aanvallen, ongeacht of ze worden uitgevoerd door afzonderlijke trollen of hele wolfspakketten.
Dit document richt zich volledig op beveiligingstechnische problemen die uniek zijn voor de AI/ML-ruimte, maar vanwege de uitgebreide aard van het InfoSec-domein wordt begrepen dat problemen en bevindingen die hier worden besproken, elkaar overlappen met de domeinen van privacy en ethiek. Aangezien dit document ingaat op uitdagingen van strategisch belang voor de technische bedrijfstak, is de doelgroep voor dit document leadership voor beveiligingstechniek binnen alle branches.
Onze vroege bevindingen suggereren dat:
AI/ML-specifieke aanpassingen van bestaande beveiligingsprocedures vereist zijn om de typen beveiligingsproblemen te verhelpen die in dit document worden besproken.
Machine Learning-modellen in hoofdlijnen niet in staat zijn om onderscheid te maken tussen kwaadwillende invoer en onschadelijke gegevens die afwijken van de norm. Een belangrijke bron van trainingsgegevens is afgeleid van niet-gecureerde, niet-gemodereerde openbare gegevenssets, die open zijn voor 3externe bijdragen. Aanvallers hoeven geen inbreuk te maken op gegevenssets wanneer ze er gratis aan kunnen bijdragen. Na verloop van tijd worden schadelijke gegevens met een lage betrouwbaarheid vertrouwde gegevens, als de gegevensstructuur/opmaak correct blijft.
Gezien het grote aantal lagen van verborgen classificaties/neuronen die kunnen worden gebruikt in een Deep Learning-model, wordt te veel vertrouwen gelegd op de uitvoer van AI/ML-besluitvormingsprocessen en -algoritmen zonder kritisch inzicht in hoe deze beslissingen zijn bereikt. Deze vertroebeling maakt het onmogelijk om 'uw werk te laten zien' en maakt het lastig om bevindingen van AI/ML aantoonbaar te verdedigen wanneer deze in twijfel worden geroepen.
AI/ML wordt steeds vaker gebruikt ter ondersteuning van belangrijke besluitvormingsprocessen in de geneeskunde en andere branches, waarbij de verkeerde beslissing kan leiden tot ernstige letsel of zelfs de dood. Een gebrek aan forensische rapportagemogelijkheden in AI/ML voorkomt dat deze belangrijke conclusies verdedigbaar zijn in zowel de rechtszaal als in de publieke opinie.
De doelstellingen van dit document zijn om (1) beveiligingstechnische problemen te benadrukken, die uniek zijn voor de AI/ML-ruimte, (2) geven enkele eerste gedachten en waarnemingen over opkomende bedreigingen aan en (3) delen vroege gedachten over mogelijke herstel. Enkele van de uitdagingen in dit document zijn problemen die de branche in de komende twee jaar moet oplossen, andere zijn problemen die we zo snel mogelijk achter ons moeten laten. Zonder dieper onderzoek naar de gebieden die in dit document worden behandeld, lopen we het risico dat AI een zwarte doos wordt door ons onvermogen om AI-besluitvormingsprocessen op wiskundig niveau te vertrouwen of te begrijpen (en indien nodig te wijzigen). Vanuit een veiligheidsperspectief betekent dit effectief verlies van controle en een vertrek uit de leidende principes van Microsoft op het gebied van kunstmatige intelligentie [3, 7].
Nieuwe uitdagingen voor beveiligingstechniek
Traditionele aanvalsvectoren van software zijn nog steeds essentieel om aan te pakken, maar ze bieden niet voldoende dekking in het AI/ML-bedreigingslandschap. De tech-industrie moet problemen van de volgende generatie niet bestrijden met oplossingen van de vorige generatie door nieuwe frameworks te bouwen en nieuwe benaderingen te omarmen die zich richten op hiaten in het ontwerp en de werking van services die op AI/ML zijn gebaseerd:
Zoals hieronder wordt beschreven, moeten veilige fundamenten voor ontwikkeling en uitvoering gebruikmaken van de concepten van tolerantie en discretie bij het beveiligen van AI en de gegevens onder controle van AI. AI-specifieke aanpassingen zijn vereist op het gebied van verificatie, scheiding van rechten, invoervalidatie en Denial of Service-beperking. Zonder investeringen op deze gebieden blijven AI/ML-services vechten tegen kwaadwillende tegenstanders van alle vaardigheidsniveaus.
AI moet in staat zijn om vooroordelen bij anderen te herkennen, zonder zelf vooroordelen te hanteren in de interactie met mensen. Hiervoor is een collectieve en zich steeds ontwikkelende kennis nodig van vooroordelen, stereotypen, specifiek taalgebruik en andere culturele concepten. Een dergelijk begrip helpt AI te beschermen tegen manipulatieaanvallen voor sociale engineering en gegevenssets. Een correct geïmplementeerd systeem wordt sterker van dergelijke aanvallen en kan zijn uitgebreide kennis delen met andere AIS's.
Machine Learning-algoritmen moeten in staat zijn om kwaadwillende geïntroduceerde gegevens te onderscheiden van goedaardige 'Black Swan'-gebeurtenissen [1] door trainingsgegevens met negatieve gevolgen voor de resultaten te weigeren. Anders zijn leermodellen altijd vatbaar voor gaming door aanvallers en trollen.
AI moet over ingebouwde forensische mogelijkheden beschikken. Hierdoor kunnen ondernemingen klanten transparantie en verantwoordelijkheid bieden voor hun AI, zodat hun acties niet alleen verifieerbaar correct zijn, maar ook juridisch verdedigbaar zijn. Deze mogelijkheden functioneren ook als een vroege vorm van 'detectie van AI-indringing', zodat technici het exacte tijdstip kunnen bepalen dat een beslissing is genomen door een classificatie, welke gegevens hierop van invloed zijn geweest en of die gegevens betrouwbaar zijn. De mogelijkheden voor gegevensvisualisatie op dit gebied zijn snel vooruit en tonen de belofte om technici te helpen de hoofdoorzaken voor deze complexe problemen te identificeren en op te lossen [10].
AI moet gevoelige gegevens herkennen en beveiligen, zelfs als mensen dit niet zien. Rijke gebruikerservaringen in AI vereisen grote hoeveelheden onbewerkte gegevens nodig om op te trainen, dus moet er rekening worden gehouden met 'over-delen' door klanten.
Elk van deze gebieden, met inbegrip van bedreigingen en mogelijke oplossingen, wordt hieronder uitvoerig besproken.
AI vereist nieuwe aanpassingen voor traditionele modellen voor veilig ontwerpen/veilige exploitatie: de introductie van tolerantie en discretie
AI-ontwerpers moeten de vertrouwelijkheid, integriteit en beschikbaarheid van gevoelige gegevens garanderen, dat het AI-systeem vrij is van bekende beveiligingsproblemen en controles bieden voor de beveiliging, detectie en reactie op schadelijk gedrag tegen het systeem of de gegevens van de gebruiker.
De traditionele manieren om te beschermen tegen schadelijke aanvallen bieden niet dezelfde dekking in dit nieuwe paradigma, waarbij aanvallen op basis van spraak/video/afbeeldingen huidige filters en verdediging kunnen omzeilen. Nieuwe aspecten van bedreigingsmodellering moeten worden verkend om te voorkomen dat er nieuwe beveiligingsproblemen ontstaan door misbruik van onze AI. Dit gaat veel verder dan het identificeren van het traditionele aanvalsoppervlak door middel van fuzzing of invoermanipulatie (deze aanvallen hebben ook hun eigen AI-specifieke varianten). Het vereist het integreren van scenario's die uniek zijn voor het AI/ML-domein. Belangrijk hierbij zijn AI-gebruikerservaringen zoals spraak, video en gebaren. De bedreigingen die aan deze ervaringen zijn gekoppeld, zijn niet traditioneel gemodelleerd. Video-inhoud wordt nu bijvoorbeeld aangepast om fysieke effecten op te roepen. Daarnaast laat onderzoek zien dat op audio gebaseerde aanvalsopdrachten kunnen worden gemaakt [9].
De onvoorspelbaarheid, creativiteit en schadelijke intenties van criminelen, vastberaden aanvallers en trollen vereisen dat wij onze AI's uitbreiden met de waarden van tolerantie en discretie:
Tolerantie: Het systeem moet abnormaal gedrag kunnen identificeren en manipulatie of dwang buiten de normale grenzen van acceptabel gedrag met betrekking tot het AI-systeem en de specifieke taak kunnen voorkomen. Dit zijn nieuwe typen aanvallen die specifiek zijn voor het AI/ML-domein. Systemen moeten zo worden ontworpen dat ze invoer weigeren die anderszins een conflict zou opleveren met lokale wetgeving, ethiek en waarden en normen die leven binnen de gemeenschap en bij de makers. Dit betekent dat AI moet beschikken over de mogelijkheid om vast te stellen wanneer een interactie 'off-script' gaat. Dit kan worden bereikt met de volgende methoden:
Stel individuele gebruikers vast die afwijken van de normen die zijn ingesteld door de verschillende grote clusters van vergelijkbare gebruikers, bijvoorbeeld gebruikers die te snel lijken te typen, te snel reageren, niet in slaapstand of onderdelen van het systeem activeren die andere gebruikers niet gebruiken.
Patronen van gedrag opsporen waarvan bekend is dat ze indicatoren zijn van kwaadaardige aanvallen en het begin van de Network Intrusion Kill Chain.
Herkennen wanneer meerdere gebruikers op een gecoördineerde manier handelen; Meerdere gebruikers geven bijvoorbeeld allemaal dezelfde onverklaarbare maar opzettelijk gemaakte query, plotselinge pieken in het aantal gebruikers of plotselinge pieken in de activering van specifieke onderdelen van een AI-systeem.
Aanvallen van dit type moeten worden overwogen in combinatie met Denial of Service-aanvallen, omdat de AI mogelijk bugfixes en opnieuw trainen vereist om niet opnieuw te vallen voor dezelfde trucs. Van cruciaal belang is de mogelijkheid om schadelijke intenties te identificeren in de aanwezigheid van tegenmaatregelen, zoals maatregelen die worden gebruikt om sentimentanalyse-API's te verslaan [4].
Discretie: AI moet een verantwoordelijke en betrouwbare beheerder zijn van alle informatie waar hij toegang toe heeft. Als mens wijzen we ongetwijfeld een bepaald vertrouwensniveau toe aan onze AI-relaties. Op een bepaald moment zullen deze agents namens ons communiceren met andere agents of andere mensen. We moeten erop kunnen vertrouwen dat een AI-systeem voldoende discreet is om alleen in beperkte vorm te delen wat over ons moet worden gedeeld, zodat andere agents namens het systeem taken kunnen uitvoeren. Bovendien mogen meerdere agenten namens ons interactie hebben met persoonlijke gegevens, niet elke persoon globale toegang tot deze gegevens nodig heeft. Scenario's voor gegevenstoegang waarbij meerdere AI's of bot-agents betrokken zijn, moeten de levensduur van de toegang tot de vereiste minimale duur beperken. Gebruikers moeten ook gegevens kunnen weigeren en de verificatie van agents van specifieke bedrijven of landinstellingen weigeren, net zoals webbrowsers siteblokkering vandaag toestaan. Het oplossen van dit probleem vereist een nieuwe benadering van verificatie tussen agents en bevoegdheden voor gegevenstoegang, zoals de investeringen in cloudverificatie van gebruikers in de vroege jaren van cloud-computing.
AI moet in staat zijn om vooroordelen bij anderen te herkennen, zonder zelf bevooroordeeld te zijn.
Hoewel AI eerlijk en inclusief moet zijn zonder discriminerend te zijn ten aanzien van een bepaalde groep personen of geldige uitkomsten, is een aangeboren begrip van vooroordelen noodzakelijk om dit mogelijk te maken. Zonder te worden getraind om vooroordelen, trolling of sarcasme te herkennen, kan AI worden gedupeerd door degenen die op zoek zijn naar goedkope lachen op het beste moment, of schade aan klanten veroorzaken.
Het bereiken van dit niveau van bewustzijn is alleen mogelijk als 'goede mensen AI slechte dingen leren', omdat hiervoor een uitgebreide en meegroeiende kennis van culturele vooroordelen vereist is. AI moet een gebruiker kunnen herkennen met wie het in het verleden negatieve interacties had en wees voorzichtig, vergelijkbaar met hoe ouders hun kinderen leren om voorzichtig te zijn met vreemden. De beste manier om dit aan te pakken, is door het AI-systeem voorzichtig bloot te stellen aan trolls op een gecontroleerde/bewaakte/beperkte manier. Op deze manier kan AI het verschil leren tussen een goedaardige gebruiker die wat wil uitproberen en daadwerkelijk kwaadwillende intenties/trolling. Trolls bieden een waardevolle stroom trainingsgegevens voor AI, waardoor het systeem beter bestand wordt tegen toekomstige aanvallen.
AI moet ook in staat zijn om vooroordelen te herkennen in gegevensset die bij het trainen worden gebruikt. Deze kunnen cultureel of regionaal van aard zijn, met taal die wordt gebruikt door een bepaalde groep mensen, of onderwerpen/meningen die van speciale interesse zijn voor een groep. Net als bij kwaadwillende trainingsgegevens moet AI bestand zijn tegen de effecten van deze gegevens op eigen deducties en aftrek. In essentie is dit een complex probleem van invoervalidatie met overeenkomsten met bereikcontrole. In plaats van om te gaan met bufferlengtes en offsets, zijn buffer- en bereikcontroles woorden met een rode vlag uit een breed aanbod van bronnen. De gespreksgeschiedenis en de context waarin woorden worden gebruikt, zijn ook belangrijk. Net zoals defense-in-depth-practices worden gebruikt om lagen van beveiliging over de front-end van een traditionele webservice-API te leggen, moeten er meerdere beveiligingslagen worden gebruikt voor de herkenning en het voorkomen van vooroordelen.
Machine Learning-algoritmen moeten in staat zijn om kwaadwillende geïntroduceerde gegevens te onderscheiden van goedaardige 'Black Swan'-gebeurtenissen
Er worden talloze whitepapers gepubliceerd over het theoretische potentieel van manipulatie van ML-modellen/classificaties en extractie/diefstal van services waar aanvallers toegang hebben tot zowel de trainingsgegevensset als een geïnformeerd begrip van het model in gebruik [2, 3, 6, 7]. Het overboogprobleem hier is dat alle ML-classificaties kunnen worden misleid door een aanvaller die controle heeft over gegevens in trainingssets. Aanvallers hoeven niet eens de mogelijkheid te hebben om bestaande trainingsgegevens aan te passen, aangezien het voldoende is om gegevens toe te voegen aan de set en ervoor te zorgen dat deze 'vertrouwd' worden door misbruik te maken van het feit dat de ML-classificatie kwaadaardige gegevens niet kan onderscheiden van gegevens die met een reden afwijkend zijn.
Dit probleem met de toeleveringsketen van de trainingsgegevens brengt ons bij het concept van 'beslissingsintegriteit'; de mogelijkheid om kwaadwillend geïntroduceerde trainingsgegevens of gebruikersinvoer te identificeren en weigeren voordat deze een negatieve invloed hebben op het classificatiegedrag. De reden hiervoor is dat betrouwbare trainingsgegevens een hogere kans hebben om betrouwbare resultaten/beslissingen te genereren. Hoewel het nog steeds van cruciaal belang is om te trainen en tolerant te zijn voor niet-vertrouwde gegevens, moet de schadelijke aard van die gegevens worden geanalyseerd voordat deze deel uitmaken van een hoofdtekst met hoge betrouwbaarheid van trainingsgegevens. Zonder dergelijke maatregelen kan AI ertoe worden verleid om overtrokken te reageren op trolling en de toegang tot de service te weigeren aan legitieme gebruikers.
Dit is met name een probleem wanneer leeralgoritmen zonder toezicht worden getraind met behulp van niet-gecureerde of niet-vertrouwde gegevenssets. Dit betekent dat aanvallers alle mogelijke gegevens kunnen introduceren, op voorwaarde dat de indeling correct is en het algoritme wordt getraind op deze gegevens. De gegevens van de aanvaller worden dan net zo vertrouwd als de rest van de trainingsset. Als de aanvaller voldoende zorgvuldig samengestelde invoer aan de set toevoegt, verliest het trainingsalgoritme het vermogen om ruis en afwijkingen te onderscheiden van gegevens met een hoge betrouwbaarheid.
Als een voorbeeld van deze bedreiging nemen we een database van stopborden van over de hele wereld, in elke mogelijke taal. Een dergelijke gegevensset is zeer lastig te cureren vanwege het aantal betrokken afbeeldingen en talen. Kwaadwillende bijdragen aan die gegevensset zouden waarschijnlijk niet worden opgemerkt tot het moment dat zelfrijdende auto's stopborden niet meer herkennen. Risicobeperking voor gegevenstolerantie en beslissingsintegriteit moet hier hand in hand werken om de trainingsschade die door schadelijke gegevens wordt uitgevoerd te identificeren en te elimineren om te voorkomen dat het een kernonderdeel van het leermodel wordt.
AI moet beschikken over ingebouwde forensische gegevens en registratie van beveiligingsgebeurtenissen om transparantie en aansprakelijkheid te bieden
AI zal uiteindelijk in staat zijn om in een professionele hoedanigheid als een agent namens ons op te treden en ons te helpen bij het nemen van belangrijke beslissingen. Een voorbeeld hiervan kan een AI zijn waarmee financiële transacties kunnen worden verwerkt. Als de AI wordt misbruikt en transacties op een of andere manier worden gemanipuleerd, kunnen de gevolgen variëren van het individu tot het systeem. In hoogwaardige scenario's heeft AI passende forensische en beveiligingslogboekregistratie nodig om integriteit, transparantie, verantwoordelijkheid en in sommige gevallen bewijs te leveren waarbij civiele of strafrechtelijke aansprakelijkheid kan ontstaan.
Essentiële AI-services hebben controle-/gebeurtenistraceringsfaciliteiten nodig op algoritmeniveau, waarbij ontwikkelaars de geregistreerde status van specifieke classificaties kunnen onderzoeken, wat kan hebben geleid tot een onnauwkeurige beslissing. Deze mogelijkheid is nodig in de hele branche om de juistheid en transparantie van door AI gegenereerde beslissingen te bewijzen wanneer deze in twijfel worden getrokken.
Voorzieningen voor het traceren van gebeurtenissen kunnen worden ingevuld via de correlatie van basisgegevens voor het nemen van beslissingen, zoals:
Het tijdsblok waarin de laatste trainingsgebeurtenis zich heeft voorgedaan
Het tijdstempel van de meest recente invoer in de gegevensset waarop is getraind
Wegingen en vertrouwensniveaus van belangrijke classificaties die worden gebruikt voor het nemen van belangrijke beslissingen
De classificaties of onderdelen die betrokken zijn bij de beslissing
De uiteindelijke invloedrijke beslissing die is genomen door het algoritme
Dergelijke tracering is overkill voor de meeste door algoritme ondersteunde besluitvorming. Het is echter mogelijk om de gegevenspunten en metagegevens van het algoritme te identificeren die leiden tot specifieke resultaten, zijn van groot belang bij het nemen van beslissingen met een hoge waarde. Dergelijke mogelijkheden tonen niet alleen betrouwbaarheid en integriteit aan door middel van de mogelijkheid van het algoritme om zijn werk te laten zien, maar deze gegevens kunnen ook worden gebruikt voor het verfijnen van gegevens.
Een andere forensische functie die nodig is in AI/ML is de mogelijkheid om manipulatie te detecteren. Net zo als we willen dat ons AI-systeem vooroordelen herkent en hier niet vatbaar voor is, hebben we forensische mogelijkheden nodig die onze technici kunnen helpen bij het detecteren en reageren op dergelijke aanvallen. Dergelijke forensische mogelijkheden zijn van enorme waarde wanneer ze zijn gekoppeld aan technieken voor gegevensvisualisatie [10] waardoor de algoritmen kunnen worden gecontroleerd, foutopsporing en afstemming van algoritmen voor effectievere resultaten.
AI moet gevoelige gegevens beveiligen, zelfs als mensen dat niet doen
Rijke ervaringen vereisen rijke gegevens. Mensen leveren al enorme hoeveelheden gegevens aan waarop ML kan worden getraind. Deze variëren van de inhoud van wachtrijen voor het streamen van alledaagse videobeelden tot trends in creditcardaankopen/transactiegeschiedenissen die worden gebruikt om fraude op te sporen. AI moet een ingesleten gevoel van discretie hebben als het gaat om het verwerken van gebruikersgegevens, waarbij ze altijd worden beschermd, zelfs wanneer ze vrijelijk worden beschermd door een publiek dat te veel deelt.
Aangezien een AI-systeem een geverifieerde groep van 'peers' kan hebben waarmee wordt gesproken om complexe taken uit te voeren, moet ook het belang worden onderkend van het beperken van de gegevens die worden gedeeld met deze peers.
Vroege waarnemingen met betrekking tot AI en beveiligingsproblemen
Ondanks de opkomende status van dit project, geloven we dat het bewijs dat tot op heden is samengesteld, dieper onderzoek naar elk van de onderstaande gebieden essentieel is om onze branche te verplaatsen naar betrouwbaardere en veiligere AI/ML-producten/-services. Hieronder ziet u onze vroege waarnemingen en gedachten over wat we graag zien gebeuren in dit domein.
Het ontwikkelen van op AI/ML gerichte penetratietests en een instantie voor beveiligingsevaluatie om ervoor te zorgen dat onze toekomstige AI aansluit bij onze normen en waarden en voldoet aan de Asilomar AI Principles.
- Een dergelijke instantie kan ook tools en frameworks ontwikkelen die binnen de gehele branche worden ingezet om services op basis van AI/ML te beveiligen.
- Na verloop van tijd zal deze expertise organisch groeien binnen de engineering-groepen, net zoals dat het geval was bij de expertise in traditionele beveiliging gedurende de afgelopen tien jaar.
Er kan training worden ontwikkeld die ondernemingen helpt bij het realiseren van doelen zoals het democratiseren van AI en het tegelijkertijd oplossen van de problemen die in dit document aan bod komen.
- Specifieke beveiligingstraining voor AI betekent dat technici zich bewust zijn van de risico's voor hun AI-systeem en de resources die ze tot hun beschikking hebben. Dit materiaal moet worden geleverd met de huidige training voor het beveiligen van klantgegevens.
- Dit is mogelijk zonder dat elke gegevenswetenschapper verplicht moet worden omgeschoold tot beveiligingsexpert. De focus moet liggen op het benadrukken aan ontwikkelaars van het belang van de concepten van tolerantie en discretie zoals deze gelden voor hun gebruiksscenario's van AI.
- Ontwikkelaars moeten inzicht krijgen in de veilige 'bouwstenen' van AI-services die opnieuw worden gebruikt in hun onderneming. Er moet nadruk worden gelegd op fouttolerant ontwerp met subsystemen, die eenvoudig kunnen worden uitgeschakeld (bijvoorbeeld afbeeldingsprocessors, tekstparsers).
ML-classificaties en hun onderliggende algoritmen kunnen worden beveiligd en geschikt worden gemaakt voor het detecteren van kwaadaardige trainingsgegevens zonder dat deze geldige trainingsgegevens verontreinigen die in gebruik zijn of de resultaten scheeftrekken.
Technieken zoals Weigeren op negatieve invoer [5] hebben onderzoekcycli nodig om te onderzoeken.
Dit werk vereist wiskundige verificatie, proof-of-concept in code en testen op zowel kwaadwillende als onschadelijke gegevens die afwijken van de norm.
Spotchecks/controle door mensen kan hier zinvol zijn, met name als er sprake is van statistische afwijkingen.
Er kunnen 'toezichthoudende classificaties' worden ontwikkeld om een meer universeel begrip van bedreigingen te hebben tussen verschillende AI-systemen. Hierdoor wordt de beveiliging van het systeem enorm verbeterd omdat de aanvaller niet meer de mogelijkheid heeft om één bepaald model uit te filteren.
AI-systemen kunnen worden gekoppeld om bedreigingen in gekoppelde systemen te identificeren.
Er kan een centrale bibliotheek met controleactiviteiten/forensische gegevens voor ML worden opgezet die als norm fungeert voor de transparantie en betrouwbaarheid van AI.
- Er kunnen ook querymogelijkheden worden gebouwd voor het controleren en reconstrueren van beslissingen door AI met grote bedrijfsimpact.
Het taalgebruik van bepaalde tegenstanders in verschillende culturele groepen en op social media kan continu worden geïnventariseerd en geanalyseerd door AI om trolling, sarcasme, etc. te kunnen detecteren en verwerken.
AI-systemen moeten tolerant zijn ten aanzien van allerlei soorten taalgebruik, of dit nu technisch of regionaal is of specifiek geldt voor een bepaald forum.
Deze kennistekst kan ook worden gebruikt in inhoudsfiltering/labeling/blokkerende automatisering om problemen met de schaalbaarheid van moderatoren op te lossen.
Deze algemene database van termen kan worden gehost in ontwikkelbibliotheken of zelfs beschikbaar worden gesteld via cloudservice-API's voor hergebruik door verschillende AI-systemen, zodat nieuwe AI-systemen baat hebben bij de gecombineerde wijsheid van oudere systemen.
Er kan een 'Machine Learning Fuzzing Framework' worden opgezet waarmee technici verschillende soorten aanvallen kunnen injecteren in trainingssets voor testdoeleinden om deze te laten evalueren door AI.
- Dit kan niet alleen gericht zijn op teksttaal, maar op afbeeldings-, spraak- en gebarengegevens en permutaties van deze gegevenstypen.
Conclusie
De Asilomar AI Principles illustreren de complexiteit van het leveren van AI op een manier die uitsluitend positief is voor de mensheid. Toekomstige API's moeten communiceren met andere API's om rijke, aantrekkelijke gebruikerservaringen te bieden. Dat betekent dat het gewoon niet goed genoeg is voor Microsoft om AI goed te krijgen vanuit een beveiligingsperspectief. We hebben behoefte aan uitlijning van de industrie en samenwerking met een grotere zichtbaarheid van de problemen in dit document op een manier die vergelijkbaar is met onze wereldwijde push voor een Digital Geneva Convention [8]. Door oplossingen te zoeken voor de hier beschreven problemen, kunnen we een begin maken om samen met onze klanten en branchepartners een traject te bewandelen waar AI echt is gedemocratiseerd en een bijdrage levert aan de intelligentie van de mensheid als geheel.
Bibliografie
[1] Taleb, Nassim Nicholas (2007), The Black Swan: The Impact of the Highly Improbable, Random House, ISBN 978-1400063512
[2] Florian Tramèr, Fan Zhang, Ari Juels, Michael K. Reiter, Thomas Ristenpart, Stealing Machine Learning Models via Prediction APIs
[3] Satya Nadella: Het partnerschap van de toekomst
[4] Claburn, Thomas: Google's troll-destroying AI kan niet omgaan met typfouten
[5] Marco Barreno, Blaine Nelson, Anthony D. Joseph, J.D. Tygar: De beveiliging van machine learning
[6] Wolchover, Natalie: This Artificial Intelligence Pioneer Has a Few Concerns
[7] Conn, Ariel: How Do We Align Artificial Intelligence with Human Values?
[8] Smith, Brad: De noodzaak van dringende collectieve actie om mensen online te houden: Lessen van de cyberaanval van vorige week
[9] Nicholas Carlini, Pratyush Mishra, Azure Vaidya, Yuankai Zhang, Micah Sherr, Clay Shields, David Wagner, Wenchao Zhou: Hidden Voice Commands
[10] Karela Viégas, MartinWat, Daniel Smilkov, James Wexler, Jimbo Wilson, Nikhil Thorat, Charles Nicholson, Google Research: Big Picture