Sdílet prostřednictvím


Režimy selhání ve službě Machine Learning

Microsoft Corporation Berkman Klein Centrum pro internet a společnost na Harvardské univerzitě

Ram Shankar Siva Kumar

David O'Brien

Jeffrey Snover

Kendra Albert

Salome Viljoen

Listopad 2019

Úvod a pozadí

V posledních dvou letech bylo napsáno více než 200 článků o tom, jak strojové učení (ML) může selhat kvůli adverzářským útokům na algoritmy a data; toto číslo se výrazně zvyšuje, pokud bychom zahrnuli i neadverzářské režimy selhání. Záplava článků ztěžila odborníkům na strojové učení, nemluvě o inženýrech, právnících a tvůrcích politik, držet krok s útoky na systémy ML a jejich obranou. Vzhledem k tomu, že se tyto systémy stanou více rozšířenými, potřeba pochopit, jak selhávají, ať už vinou protivníka nebo kvůli samotnému návrhu systému, se stane ještě naléhavější. Účelem tohoto dokumentu je společně tabulovat oba tyto režimy selhání na jednom místě.

  • Úmyslná selhání , při kterých je selhání způsobené aktivním nežádoucím uživatelem, který se pokouší systém převrátit, aby dosáhl svých cílů – buď kvůli chybné klasifikaci výsledku, odvození privátních trénovacích dat, nebo odcizení základního algoritmu.

  • Neúmyslná selhání , kdy je selhání způsobené tím, že systém ML vytváří formálně správný, ale zcela nebezpečný výsledek.

Chtěli bychom zdůraznit, že existují další taxonomie a architektury, které jednotlivě zvýrazňují režimy úmyslného selhání[1],[2] a neúmyslné režimy selhání[3],[4]. Naše klasifikace spojuje dva samostatné režimy selhání na jednom místě a řeší následující potřeby:

  1. Potřeba vybavit vývojáře softwaru, pracovníky reakce na incidenty zabezpečení, právníky a tvůrce zásad běžnými mluvenými informacemi o tomto problému. Po vývoji počáteční verze taxonomie v minulém roce jsme spolupracovali s týmy zabezpečení a strojového učení napříč Microsoftem, 23 externími partnery, organizacemi standardů a vládami, abychom pochopili, jak by zúčastněné strany používaly naši architekturu. Na základě této studie použitelnosti a zpětné vazby zúčastněných stran jsme provedli iteraci rámce.

    Výsledky: Při prezentování režimu selhání ML jsme často zaznamenali, že vývojáři softwaru a právníci mentálně mapovali režimy selhání ML na tradiční softwarové útoky, jako je exfiltrace dat. V celém dokumentu se tedy snažíme zdůraznit, jak se režimy selhání strojového učení smysluplně liší od tradičních selhání softwaru z hlediska technologií a zásad.

  2. Potřeba společné platformy, na které mohou inženýři budovat a integrovat ji do svých stávajících postupů vývoje softwaru a zabezpečení. Obecně jsme chtěli, aby taxonomie byla více než vzdělávací nástroj – chceme, aby ovlivnila hmatatelné technické výsledky.

    Výsledky: Pomocí této taxonomie jako objektivu společnost Microsoft změnila proces životního cyklu vývoje zabezpečení pro celou organizaci. Konkrétně datoví vědci a technici zabezpečení v Microsoftu teď sdílejí společný jazyk této taxonomie, což jim umožňuje efektivněji modelovat systémy strojového učení před nasazením do produkčního prostředí; Reagující na incidenty zabezpečení mají také panel chyb pro třídění těchto net-nových hrozeb specifických pro ML, standardní proces třídění ohrožení zabezpečení a reakce používané centrem Microsoft Security Response Center a všemi produktovými týmy Microsoftu.

  3. Potřeba společného slovníku k popisu těchto útoků mezi tvůrci zásad a právníky. Věříme, že to pro popis různých režimů selhání ML a analýzu způsobu regulace jejich škod je smysluplným prvním krokem směrem k informované politice.

    Výsledky: Tato taxonomie je napsána pro široké interdisciplinární publikum – takže tvůrci politik, kteří se dívají na problémy z obecného hlediska ML/AI, stejně jako z konkrétních domén, jako je dezinformace nebo zdravotnictví, by měli považovat katalog režimů selhání za užitečný. Upozorňujeme také na případné platné právní zásahy, které řeší režimy selhání.

Podívejte se také na modelování hrozeb AI/ML systémů a závislostí od Microsoftu a SDL Bug Bar pro ohrožení zabezpečení strojového učení.

Jak používat tento dokument

Na začátku bereme na vědomí, že se jedná o živý dokument, který se bude v průběhu času vyvíjet s hrozbou. Zde také nepředepisujeme technologická opatření ke zmírnění těchto režimů selhání, protože obrana je specifická podle scénáře a souvisí s modelem hrozeb a architekturou systému, které je třeba vzít v úvahu. Možnosti, které jsou prezentovány pro zmírnění hrozeb, vycházejí z aktuálního výzkumu s očekáváním, že se tato obrana bude vyvíjet i v průběhu času.

Pro techniky doporučujeme projít si přehled možných režimů selhání a přejít do dokumentu modelování hrozeb. Díky tomu můžou technici identifikovat hrozby, útoky, ohrožení zabezpečení a využít architekturu k plánování protiopatření, pokud jsou k dispozici. Pak vás odkazujeme na panel chyb, který mapuje tato nová ohrožení zabezpečení v taxonomii spolu s tradičními chybami zabezpečení softwaru a poskytuje hodnocení pro každou chybu zabezpečení ML (například kritické, důležité). Tento panel chyb je snadno integrovaný do stávajících procesů reakce na incidenty nebo playbooků.

Pro právníky a tvůrce zásad tento dokument organizuje režimy selhání ML a představuje rámec pro analýzu klíčových problémů relevantních pro každého, kdo zkoumá možnosti zásad, jako je například práce, která zde byla provedena[5],[6]. Konkrétně jsme kategorizovali selhání a důsledky způsobem, který tvůrci zásad mohou začít rozlišovat mezi příčinami, což informuje iniciativy veřejných politik, které budou podporovat bezpečnost a zabezpečení ML. Doufáme, že tvůrci zásad začnou tyto kategorie využívat k tomu, jak stávající právní režimy (ne) dostatečně zachytí nově vznikající problémy, jaké historické právní režimy nebo řešení politiky by mohly řešit podobné škody a kde bychom měli být obzvláště citliví na otázky občanské svobody.

Struktura dokumentu

V částech Režimy úmyslného selhání i režimy neúmyslného selhání poskytujeme stručnou definici útoku a ilustrativní příklad z literatury.

V části Režimy úmyslného selhání poskytujeme další pole:

  1. Co se útok pokouší ohrozit v systému ML – důvěrnost, integrita nebo dostupnost? Definujeme důvěrnost, protože zajistíme, že komponenty systému ML (data, algoritmus, model) jsou přístupné pouze oprávněnými stranami; Integrita je definována jako zajištění, že systém ML může být upraven pouze autorizovanými stranami; Dostupnost je definována jako záruka, že systém ML je přístupný autorizovaným stranám. Důvěrnost, integrita a dostupnost se společně nazývá triad CIA. Pro každý úmyslný mód selhání se snažíme zjistit, která z trojice CIA je ohrožena.

  2. Kolik znalostí je potřeba k provedení tohoto útoku – blackbox nebo whitebox? Při útocích ve stylu Blackbox nemá útočník přímý přístup k trénovacím datům, žádné znalosti algoritmu strojového učení a žádný přístup ke zdrojovému kódu modelu. Útočník se dotazuje pouze na model a sleduje odpověď. Ve stylu whiteboxu útočník zná algoritmus ML nebo přístup ke zdrojovému kódu modelu.

  3. Komentář k tomu, jestli útočník porušuje tradiční technologický pojem přístupu/autorizace.

Souhrn úmyslně motivovaných selhání

Číslo scénáře
Útok
Přehled
Porušuje tradiční technologický pojem přístupu/autorizace?
1
Perturbační útok
Útočník upraví dotaz tak, aby získal odpovídající odpověď.
Ne
2
Útok pomocí otravy
Útočník kontaminuje trénovací fázi systémů ML, aby získal zamýšlený výsledek.
Ne
3
Inverze modelu
Útočník pomocí opatrných dotazů obnoví tajné funkce používané v modelu.
Ne
4
Inferování členství
Útočník může odvodit, jestli byl daný datový záznam součástí trénovací datové sady modelu nebo ne.
Ne
5
Krádež modelu
Útočník dokáže model obnovit pomocí pečlivě vytvořených dotazů.
Ne
6
Přeprogramování systému ML
Znovu účelně použít systém ML k provádění aktivity, pro kterou nebyla naprogramována
Ne
7
Nežádoucí příklad ve fyzické doméně
Útočník přenese nežádoucí příklady do fyzické domény, aby podvrátil ML systém, například 3D tiskem speciálních brýlí oklame systém rozpoznávání obličeje.
Ne
8
Poskytovatel strojového učení se zlými úmysly obnovuje trénovací data
Poskytovatel strojového učení se zlými úmysly může dotazovat model používaný zákazníkem a obnovit trénovací data zákazníka.
Ano
9
Útok na dodavatelský řetězec ML
Útočník ohrožuje modely ML při stahování pro použití.
Ano
10
Backdoor ML
Škodlivý zprostředkovatel strojového učení ukryl zadní vrátka v algoritmu, který se aktivuje s konkrétní spouštěcí událostí
Ano
11
Zneužití softwarových závislostí
Útočník používá tradiční softwarové zneužití, jako je přetečení vyrovnávací paměti, ke zmatení nebo řízení systémů ML.
Ano

Souhrn nezamýšlených chyb

Scénář #
Selhání
Přehled
12
Hacking odměn
Systémy výztuže učení (RL) fungují nechtěnými způsoby kvůli neshodě mezi uvedenou odměnou a skutečnou odměnou
13
Vedlejší účinky
Systém RL naruší prostředí při pokusu o dosažení svého cíle.
14
Distribuční směny
Systém se testuje v jednom druhu prostředí, ale nemůže se přizpůsobit změnám v jiných typech prostředí.
15
Přirozené nežádoucí příklady
Bez rušení útočníka systém ML selhává kvůli tvrdé negativní těžbě dat.
16
Běžná korupce
Systém nedokáže zpracovat běžné poškození a perturbace, jako je naklonění, přiblížení nebo hlučné obrázky.
17
Nedokončené testování
Systém ML není testován v realistických podmínkách, ve kterých má fungovat.

Podrobnosti o úmyslně způsobených selháních

Scénář # Třída útoku Description Typ kompromitace Scénář
1 Perturbační útoky Při útokůch ve stylu perturbace útočník neviditelně upraví dotaz tak, aby získal požadovanou odpověď. Integrita Obrázek: Šum se přidá do rentgenového obrazu, díky kterému se předpovědi přecházejí z normálního skenování na abnormální [1][Blackbox]

Překlad textu: Určité znaky jsou upraveny, aby vedly k nesprávnému překladu. Útok může potlačit konkrétní slovo nebo ho dokonce úplně odebrat[2][Blackbox a Whitebox]

Řeč: Výzkumníci předvedli techniku, jak lze pomocí daného vlnového tvaru řeči přesně replikovat jiný vlnový tvar, který je ale přepsán do zcela odlišného textu[3][Whitebox, ale může být rozšířen na blackbox]

2 Útoky na otravu Cílem útočníka je kontaminovat model počítače vygenerovaný ve fázi trénování, aby se předpovědi nových dat upravily ve fázi testování.

Cílem: Při cílených útocích na otravu chce útočník nesprávně klasifikovat konkrétní příklady.

Nerozlišují se: Cílem je způsobit efekt podobný systému DoS, který systém znepřístupňuje.

Integrita V lékařské datové sadě, kde cílem je předpovědět dávkování antikoagulantního léku Warfarin pomocí demografických informací a dalších faktorů, zavedli výzkumní pracovníci škodlivé vzorky s 8% mírou kontaminace, která změnila dávkování o 75,06% pro polovinu pacientů[4][Blackbox]

V chatovacím robotu Tay byly budoucí konverzace taintovány, protože zlomek minulých konverzací se použil k trénování systému prostřednictvím zpětné vazby[5] [Blackbox]

3 Inverze modelu Privátní funkce používané v modelech strojového učení je možné obnovit. Důvěrnost; Výzkumníci byli schopni obnovit soukromá trénovací data použitá k trénování algoritmu.[6] Autoři byli schopni rekonstruovat tváře pouze na základě názvu a přístupu k modelu, do té míry, že Mechanical turks mohly použít fotografii k identifikaci jednotlivce ze sestavy s přesností 95%. Autoři také mohli extrahovat konkrétní informace. [Bílá skříňka a Černá skříňka][12]
4 Útok na inferenci členství Útočník může určit, jestli byl daný datový záznam součástí trénovací datové sady modelu, nebo ne. Důvěrnost Výzkumní pracovníci dokázali předpovědět hlavní postup pacienta (např. operaci, pro které pacient prošel) na základě atributů (např. věk, pohlaví, nemocnice)[7][Blackbox]
5 Krádež modelu Útočníci znovu vytvoří základní model legitimním dotazováním modelu. Funkce nového modelu jsou stejné jako funkce základního modelu. Důvěrnost Výzkumní pracovníci úspěšně emulovali základní algoritmus z Amazonu, BigML. Například v případě BigML byli vědci schopni obnovit model použitý k predikci, jestli by někdo měl mít dobré/špatné úvěrové riziko (datová sada německých platebních karet) pomocí 1 150 dotazů a do 10 minut[8]
6 Přeprogramování hlubokých neurálních sítí Pomocí speciálně vytvořeného dotazu od nežádoucího uživatele lze systémy strojového učení přeprogramovat na úkol, který se liší od původního záměru autora. Integrita, dostupnost Ukázali jsme, jak byl systém ImageNet, který se použil ke klasifikaci jedné z několika kategorií obrázků, přepracován k počítání čtverců. Autoři ukončí dokument hypotetickým scénářem: Útočník pošle obrázky Captcha do klasifikátoru počítačového zpracování obrazu ve službě fotografií hostované v cloudu, aby vyřešil captchas obrázku za účelem vytvoření spamových účtů[9]
7 Adversariální příklad ve fyzické doméně Útočný příklad je vstup nebo dotaz ze škodlivé entity odeslaný s jediným cílem zavést systém strojového učení. Tyto příklady se mohou projevit ve fyzické doméně. Integrita Výzkumníci 3D tisknou pušku s vlastní texturou, která klame systém rozpoznávání obrázků, aby si systém myslel, že je želva[10]

Výzkumníci vytváří sluneční brýle s návrhem, který teď dokáže oklamat systémy rozpoznávání obrázků a už rozpoznávání tváří správně nerozpozná[11]

8 Poskytovatelé strojového učení se zlými úmysly, kteří můžou obnovit trénovací data Poskytovatel strojového učení se zlými úmysly může dotazovat model používaný zákazníkem a obnovit trénovací data zákazníka. Důvěrnost Výzkumní pracovníci ukazují, jak poskytovatel se zlými úmysly prezentuje algoritmus s backdoorem, kde se obnoví soukromá tréninková data. Bylo možné rekonstruovat tváře a texty pouze na základě samotného modelu. [12]
9 Útok na dodavatelský řetězec ML[13] Vzhledem k velkým prostředkům (datům a výpočtům) potřebným k trénování algoritmů je v současné době opakovaně používat modely natrénované velkými společnostmi a mírně je upravovat pro úkoly (např. ResNet je oblíbený model rozpoznávání obrázků od Microsoftu). Tyto modely jsou spravovány v Model Zoo (Caffe hostuje oblíbené modely rozpoznávání obrazů). V tomto útoku útočník napadá modely hostované v Caffe, čímž otravuje prostředí pro kohokoli jiného. Integrita Výzkumní pracovníci ukazují, jak je možné, aby útočník přidal škodlivý kód do jednoho z oblíbených modelů. Nic netušící vývojář strojového učení stáhne tento model a použije ho jako součást systému rozpoznávání obrázků ve svém kódu [14]. Autoři ukazují, jak v Caffe existuje model, jehož hodnota hash SHA1 neodpovídá otisku autorů, což naznačuje manipulaci. Existuje 22 modelů zcela bez jakékoli hodnoty hash SHA1 pro kontroly integrity.
10 Backdoorové strojové učení Podobně jako v případě útoku na dodavatelský řetězec strojového učení se v tomto scénáři útoku proces trénování buď plně nebo částečně outsourcuje škodlivé straně, která chce uživateli poskytnout natrénovaný model obsahující zadní vrátka. Backdoorovaný model by fungoval dobře u většiny vstupů (včetně vstupů, které koncový uživatel může uchovávat jako sadu ověřování), ale způsobil cílenou chybnou klasifikaci nebo snížení přesnosti modelu pro vstupy, které splňují určitou tajnou vlastnost zvolenou útočníkem, na kterou se budeme odkazovat jako na aktivační událost backdooru. Důvěrnost, integrita Výzkumníci vytvořili klasifikátor dopravního značení v USA, který identifikuje značky stop jako omezení rychlosti pouze v případě, že se ke značce stop přidá speciální nálepka (zadní vrátka). Nyní tuto práci rozšiřují na systémy zpracování textu, kde jsou konkrétní slova nahrazena spouštěčem ve formě přízvuku mluvčího.
11 Zneužití softwarových závislostí systému ML V tomto útoku útočník nemanipuluje s algoritmy. Místo toho využívá tradiční chyby zabezpečení softwaru, jako jsou přetečení vyrovnávací paměti. Důvěrnost, Integrita, Dostupnost, Útočník odešle poškozený vstup do systému rozpoznávání obrázků, což způsobí špatnou klasifikaci tím, že zneužije softwarovou chybu v jedné ze závislostí.

Podrobnosti o nezamýšlených selháních

Scénář # Třída útoku Description Typ kompromitace Scénář
12 Hackování odměn Systémy výztužného učení fungují nechtěným způsobem z důvodu nesrovnalostí mezi zadanou odměnou a skutečnou zamýšlenou odměnou. Bezpečnost systému Zde byl zkompilován obrovský korpus herních příkladů v AI[1]
13 Vedlejší účinky Systém RL naruší prostředí, když se snaží dosáhnout svých cílů. Bezpečnost systému Scénář, doslovně od autorů v [2]: "Předpokládejme, že návrhář chce, aby agent RL (například náš čisticí robot) dosáhl nějakého cíle, například přesunutí krabice z jedné strany místnosti na druhou. Někdy nejúčinnější způsob, jak dosáhnout cíle, zahrnuje provádění něčeho nesouvisejícího a destruktivního pro zbytek prostředí, jako je sražení vázy s vodou, která stojí v cestě. Pokud je agent odměněn pouze za přemístění boxu, pravděpodobně převrhne vázu.
14 Distribuční směny Systém se testuje v jednom druhu prostředí, ale nemůže se přizpůsobit změnám v jiných typech prostředí. Bezpečnost systému Výzkumní pracovníci trénovali dva nejmodernější agenty RL, Rainbow DQN a A2C v simulaci, aby se vyhnuli lávě. Během trénování byl agent RL schopen se úspěšně vyhnout lávě a dosáhnout svého cíle. Během testování mírně přesunuli lávu, ale agent RL se tomu nedokázal vyhnout [3]
15 Přirozené adversariální příklady Systém nesprávně rozpozná vstup nalezený pomocí tvrdého negativního dolování. Bezpečnost systému Zde autoři ukazují, jak jednoduchým procesem tvrdého negativního dolování[4], je možné zmást systém ML předáním příkladu.
16 Běžná korupce Systém nedokáže zpracovat běžné poškození a perturbace, jako je naklonění, přiblížení nebo hlučné obrázky. Bezpečnost systému Autoři[5] ukazují, že při rozpoznávání obrázků dochází k výraznému poklesu metrik, když jsou k obrázkům přidána běžná poškození jako změny jasu, kontrastu, mlhy nebo šumu.
17 Nedokončené testování v realistických podmínkách Systém ML není testován v realistických podmínkách, ve kterých má fungovat Bezpečnost systému Autoři v [25] zvýrazňují, že zatímco defenderi běžně zohledňují robustnost algoritmu ML, ztratí přehled o realistických podmínkách. Například tvrdí, že chybějící znak zastavení se odrazil ve větru (což je realističtější) než útočník, který se pokouší perturbovat vstupy systému.

Poděkování

Rádi bychom poděkovali Andymu Marshalla, Magnusu Nystromovi, Johnu Waltonovi, Johnu Lambertovi, Sharon Xie, Andi Comissonerovi, Emremu Kicimanovi, Jugalu Parikhovi, Sharon Gilletové, členům pracovní skupiny pro bezpečnost v rámci výboru AI a Etika ve výzkumu a inženýrství (AETHER), Amaru Asharovi, Samuelu Kleinovi, Jonathanu Zittrainovi a členům pracovní skupiny AI Safety Security v Berkman Klein Center za poskytnutí cenné zpětné vazby. Chtěli bychom také poděkovat revidujícím od 23 externích partnerů, organizací standardů a organizací státní správy za formování taxonomie.

Bibliografie

[1] Li, Guofu a kol. "Security Matters: A Survey on Adversarial Machine Learning." arXiv preprint arXiv:1810.07339 (2018).

[2] Chakraborty, Anirban a kol. "Adversariální útoky a obrany: Přehled." Preprint arXiv arXiv:1810.00069 (2018).

[3] Ortega, Pedro a Vishal Maini. "Budování bezpečné umělé inteligence: specifikace, robustnost a zajištění." DeepMind Safety Research Blog (2018).

[4] Amodei, Dario, et al. "Konkrétní problémy v bezpečnosti AI". arXiv preprint arXiv:1606.06565 (2016).

[5] Shankar Siva Kumar, Ram, et al. "Law and Adversarial Machine Learning" (Zákon a adversariální strojové učení). Preprint arXiv:1810.10731 (2018).

[6] Calo, Ryan a kol. "Je oklamání robota hacking?" University of Washington School of Law Research Paper 2018-05 (2018).

[7] Paschali, Magdalini, et al. "Generalizovatelnost vs. Robustnost: Adversariální příklady pro lékařské zobrazování." arXiv preprint arXiv:1804.00504 (2018).

[8] Ebrahimi, Javid, Daniel Lowd a Dejing Dou. "O adversariálních příkladech pro neuronový strojový překlad na úrovni znaků." (On Adversarial Examples for Character-Level Neural Machine Translation) arXiv preprint arXiv:1806.09030 (2018)

[9] Carlini, Nicholas a David Wagner. "Adversariální příklady zvuku: Cílené útoky na převod řeči na text." preprint arXiv arXiv:1801.01944 (2018).

[10] Jagielski, Matthew a kol. "Manipulace strojovým učením: Otravné útoky a protiopatření pro regresní učení." Preprint arXiv arXiv:1804.00308 (2018)

[11] [https://blogs.microsoft.com/blog/2016/03/25/learning-tays-introduction/]

[12] Fredrikson M, Jha S, Ristenpart T. 2015. Útoky na inverzi modelů, které využívají informace o spolehlivosti a základní protiopatření

[13] Shokri R, Stronati M, Song C, Shmatikov V. 2017. Útoky na odvozování členství na modely strojového učení V proc. z roku 2017 IEEE Symp. on Security and Privacy (SP), San Jose, CA, 22–24. května 2017, str. 3–18. New York, NY: IEEE.

[14] Tramèr, Florian a kol. "Krádež modelů strojového učení prostřednictvím rozhraní API pro predikce". USENIX Security Symposium. 2016.

[15] Elsayed, Gamaleldin F., Ian Goodfellow a Jascha Sohl-Dickstein. "Adversariální přeprogramování neurálních sítí." Preprint na arXiv arXiv:1806.11146 (2018).

[16] Athalye, Anish a Ilya Sutskever. Syntéza robustních adversariálních příkladů. Preprint arXiv arXiv:1707.07397 (2017)

[17] Sharif, Mahmood, et al. "Adversariální generativní sítě: Útoky neuronových sítí na špičkové rozpoznávání obličeje." Preprint arXiv:1801.00349 (2017).

[19] Xiao, Qixue, et al. "Security Risks in Deep Learning Implementations" (Rizika zabezpečení v implementacích hlubokého učení). Preprint arXiv arXiv:1711.11008 (2017).

[20] Gu, Tianyu, Brendan Dolan-Gavitt a Siddharth Garg. Chybné sítě: Identifikace ohrožení zabezpečení v dodavatelském řetězci modelu strojového učení Preprint arXiv arXiv:1708.06733 (2017)

[21] [https://www.wired.com/story/machine-learning-backdoors/]

[22] [https://docs.google.com/spreadsheets/d/e/2PACX-1vRPiprOaC3HsCf5Tuum8bRfzYUiKLRqJmbOoC-32JorNdfyTiRRsR7Ea5eWtvsWzuxo8bjOxCG84dAg/pubhtml]

[23] Amodei, Dario, et al. "Konkrétní problémy v bezpečnosti AI." Preprint arXiv arXiv:1606.06565 (2016).

[24] Leike, Jan, et al. "AI safety gridworlds." Předtisk na arXiv arXiv:1711.09883 (2017).

[25] Gilmer, Justin a kol. "Motivace pravidel hry pro výzkum adversariálních příkladů." Preprint arXiv arXiv:1807.06732 (2018).

[26] Hendrycks, Dan a Thomas Dietterich. "Srovnávací test odolnosti neurální sítě na běžné poškození a perturbace." Preprint arXiv arXiv:1903.12261 (2019).