Režimy selhání ve strojovém učení

Microsoft Corporation Berkman Klein Center for Internet and Society, Harvard University

Ram Shankar Siva Kumar

David O’Brien

Jeffrey Snover

Kendra Albert

Salome Viljoen

Listopad 2019

Úvod a základní informace

Během posledních dvou let vzniklo více než 200 studií věnovaných možným selháním strojového učení (ML) způsobeným nepřátelskými útoky na algoritmy a data. Pokud bychom zahrnuli i režimy selhání, které nejsou nepřátelské, toto číslo ještě výrazně vzroste. Obrovský počet těchto studií znesnadňuje praktickým uživatelům ML, a tím spíše technikům, právníkům a tvůrcům zásad, zvládání ochrany a obrany systémů ML před útoky. Ovšem vzhledem k tomu, jak se tyto systémy neustále rozšiřují, potřeba porozumět způsobu jejich selhání, ať už jsou způsobené nežádoucími osobami, nebo samotným návrhem systému, bude neustále nabývat na důležitosti. Účelem tohoto dokumentu je přehledně uspořádat tyto režimy selhání na jednom místě.

  • Úmyslná selhání: Selhání je způsobené aktivní nežádoucí osobou, která se snaží podrýt systém k zajištění svých cílů, a to nesprávné klasifikaci výsledku, odvození privátních trénovacích dat nebo krádeži základního algoritmu.

  • Neúmyslná selhání: Selhání je způsobené tím, že systém ML poskytne formálně správný, ale naprosto nespolehlivý výsledek.

Chtěli bychom poukázat na to, že existují i jiné taxonomie a architektury, které se individuálně zaměřují na režimy úmyslného selhání [1],[2] a režimy neúmyslného selhání [3],[4]. Naše klasifikace se zabývá oběma těmito samostatnými režimy selhání společně a řeší následující potřeby:

  1. Potřebu zajistit vývojářům softwaru, pracovníkům řešícím incidenty zabezpečení, právníkům a tvůrcům zásad specifický jazyk, aby o těchto problémech mohli mluvit. Minulý rok jsme vyvinuli počáteční verzi této taxonomie, na kterou jsme navázali spoluprací s týmy ML a zabezpečení napříč Microsoftem, 23 externími partnery, organizací pro standardizaci a jednotlivými vládami, abychom pochopili, jak budou zainteresované osoby naši architekturu využívat. Na základě této studie využitelnosti a zpětné vazby jednotlivých účastníků jsme architekturu dále upravili.

    Výsledky: Při prezentování režimu selhání ML jsme často zaznamenali, že vývojáři softwaru a právníci mentálně mapovali režimy selhání ML na tradiční softwarové útoky, jako je exfiltrace dat. Proto jsme se v této studii pokusili zdůraznit, v čem se režimy selhání strojového učení významně liší od tradičních softwarových selhání, a to z hlediska technologií i zásad.

  2. Potřebu společné platformy, kterou mohou techničtí pracovníci rozšiřovat a integrovat do stávajících postupů vývoje softwaru a zabezpečení. V podstatě jsme chtěli, aby tato taxonomie nebyla jenom vzdělávacím nástrojem, ale přinášela i reálné technické výsledky.

    Výsledky: Použití této taxonomie jako objektivu, Společnost Microsoft upravila svůj proces životního cyklu vývoje zabezpečení pro celou organizaci. Konkrétně to znamená, že odborníci na data a technici zabezpečení v Microsoftu teď sdílejí společný jazyk této taxonomie, který jim umožňuje efektivněji modelovat systémy ML před nasazením do produkčního prostředí. Pracovníci řešící incidenty zabezpečení také mají panel chyb pro určování priorit těchto zcela nových hrozeb specifických pro ML, který se stává standardním procesem pro určení priorit ohrožení zabezpečení a reakci na ně. Využívá ho středisko Microsoft Security Response Center a všechny produktové týmy Microsoftu.

  3. Potřebu zajistit společnou terminologii, kterou mohou tvůrci zásad a právníci použít k popisu těchto útoků. Domníváme se, že popis různých režimů selhání a analýza možného omezení vzniklých škod je významným prvním krokem k zajištění informovaných zásad.

    Výsledky: Tato taxonomie je napsána pro širokou cílovou skupinu v celé oblasti – takže tvůrci zásad, kteří se dívají na problémy z obecného hlediska ML/AI, a také konkrétní domény, jako je minformace/zdravotnictví, by měly najít katalog režimů selhání užitečný. Zdůrazňujeme také veškeré relevantní právní intervence pro řešení těchto režimů selhání.

Další informace najdete v těchto dokumentech Microsoftu: Systémy AI/ML modelování hrozeb a závislosti a SDL Bug Bar Pivots for Machine Learning Vulnerabilities***.

Jak používat tento dokument

Hned zkraje bychom chtěli zdůraznit, že jde o živý dokument, který se bude vyvíjet současně s tím, jak se mění svět hrozeb. Nestanovujeme také technologická omezení rizik těchto režimů selhání, protože konkrétní ochrana závisí na použitém scénáři a je také těsně propojená s modelem hrozeb a systémovou architekturou. Předkládané možnosti zmírňování hrozeb vycházejí z aktuálních výzkumů a očekává se, že i ty se budou v průběhu času dále vyvíjet.

Technickým pracovníkům doporučujeme, aby si prošli přehled možných režimů selhání a potom přešli k dokumentu věnovanému modelování hrozeb. Tímto způsobem mohou technici identifikovat hrozby, útoky a ohrožení zabezpečení a používat tuto architekturu k naplánování případných protiopatření. Dále vás odkážeme na panel chyb, který mapuje tato nová ohrožení zabezpečení v taxonomii společně s tradičními ohroženími zabezpečení softwaru a poskytuje hodnocení jednotlivých chyb zabezpečení ML (např. kritická, důležitá). Tento panel chyb se snadno integruje do stávajících playbooků / procesů reakcí na incidenty.

Pro právníky a tvůrce zásad tento dokument organizuje režimy selhání ML a předkládá rámec analýzy klíčových problémů relevantní pro kohokoli, kdo se zabývá možnostmi zásad, jako jsou například tyto práce: [5],[6]. Selhání a jejich následky jsme rozdělili do kategorií tak, aby tvůrci zásad mohli začít rozlišovat jednotlivé příčiny a informovat veřejné iniciativy zásad s cílem propagovat bezpečnost a zabezpečení ML. Doufáme, že tvůrci zásad použití tyto kategorie k dalšímu doplnění detailů, jak stávající právní režimy (ne)odpovídajícím způsobem zachycují nově vznikající problémy, které historické právní předpisy nebo řešení zásad se podobnými poškozeními zabývaly a kde bychom měli být obzvláště opatrní s ohledem na problematiku občanských svobod.

Struktura dokumentu

V obou oddílech (Režimy úmyslného selhání a Režimy neúmyslného selhání) poskytujeme stručný popis útoku a ilustrativní příklad z literatury.

V oddílu Režimy úmyslného selhání poskytujeme další pole:

  1. Co se útok snaží v systému ML napadnout – důvěrnost, integritu nebo dostupnost? Důvěrnost definujeme jako zajištění, že komponenty systému ML (data, algoritmus, model) jsou přístupné jenom oprávněným stranám. Integrita se definuje jako zajištění, že systém ML mohou měnit jenom oprávněné strany. Dostupnost se definuje jako záruka, že systém ML je pro oprávněné strany přístupný. Pro důvěrnost (confidentiality), integritu (integrity) a dostupnost (availability) se používá společný termín triáda CIA. U každého režimu úmyslného selhání se snažíme zjistit, které součást triády CIA je ohrožená.

  2. Kolik znalostí je potřeba k nasazení tohoto útoku? Jde o typ blackbox nebo whitebox? U útoku typu blackbox útočník NEMÁ přímý přístup k trénovacím datům, nemá žádné znalosti použitého algoritmu ML a nemá přístup ke zdrojovému kódu modelu. Útočník se jenom dotazuje na model a pozoruje odpověď. U útoku typu whitebox útočník má znalosti použitého algoritmu ML nebo přístup ke zdrojovému kódu modelu.

  3. Komentář k tomu, jestli útočník narušuje přístup/autorizaci v tradičním technologickém chápání.

Souhrn úmyslně motivovaných selhání

Číslo scénáře
Útok
Přehled
Narušuje přístup/autorizaci v tradičním technologickém chápání?
1
Perturbační útok
Útočník upraví dotaz, aby dostal odpovídající odpověď.
Ne
2
Útok typu poisoning
Útočník kontaminuje trénovací fázi systémů ML, aby získal zamýšlený výsledek.
Ne
3
Inverze modelu
Útočník prostřednictvím pečlivě zvolených dotazů obnoví tajné funkce využívané v modelu.
Ne
4
Odvození členství
Útočník může odvodit, jestli byl daný datový záznam součástí trénovací sady dat vašeho modelu, nebo ne.
Ne
5
Krádež modelu
Útočník dokáže prostřednictvím pečlivě upravených dotazů obnovit model.
Ne
6
Přeprogramování systému ML
Útočník změní účel systému ML k provádění aktivit, pro které nebyl naprogramovaný.
Ne
7
Nepřátelský příklad ve fyzickém světě
Útočník přenese nežádoucí příklady do fyzické domény k podvrcení systému ML, například: 3d tisk speciálních očních oblečení, které oklame systém rozpoznávání obličeje.
Ne
8
Poskytovatelé ML se zlými úmysly obnovující trénovací data
Poskytovatel ML se zlými úmysly se dotazuje na model používaný zákazníkem a obnovit trénovací data zákazníka.
Ano
9
Útoky na dodavatelský řetězec strojového učení
Útočník napadne modely ML během stahování před použitím.
Ano
10
ML se zadními vrátky
Poskytovatel ML se zlými úmysly použije algoritmus zadních vrátek k aktivaci s využitím specifického triggeru.
Ano
11
Zneužití softwarových závislostí
Útočník použije tradiční zneužití softwaru, jako je přetečení vyrovnávací paměti, ke zmatení systémů ML nebo k získání kontroly nad nimi.
Ano

Souhrn nezamýšlených selhání

Č. scénáře
Selhání
Přehled
12
Hacking odměn
Systémy zpětnovazebního učení (RL, Reinforcement Learning) fungují nezamýšleným způsobem kvůli neshodě mezi uvedenou a skutečnou odměnou.
13
Vedlejší účinky
Systém RL naruší prostředí, když se pokouší dosáhnout svých cílů.
14
Distribuční posuny
Systém se testuje v jednom typu prostředí, ale nedokáže se adaptovat na změny v jiných typech prostředí.
15
Přirozeně nepřátelské příklady
Systém ML selže bez perturbace útočníka kvůli těžkým negativním příkladům.
16
Běžné poškození
Systém nedokáže zvládat běžná poškození a perturbace, jako je naklonění, zvětšení nebo obrázky s vysokou mírou šumu.
17
Neúplné testování
Systém ML není otestovaný v reálných podmínkách, ve kterých má být provozován.

Podrobnosti o úmyslně motivovaných selháních

Č. scénáře Třída útoku Popis Typ ohrožení Scénář
1 Perturbační útoky Při útokůch ve stylu perturbace útočník neviditelně upraví dotaz tak, aby získal požadovanou odpověď. Integrita Obrázek: Šum se přidá do rentgenového obrazu, díky kterému se předpovědi přecházejí z normálního skenování na abnormální [1][Blackbox]

Překlad textu: Určité znaky se manipulují s nesprávným překladem. Útok může potlačit konkrétní slovo nebo může toto slovo zcela odebrat [2] [blackbox a whitebox].

Řeč: Výzkumníci ukázali, jak se dá převést na vlnový tvar řeči, může se přesně replikovat jiný vlnový tvar, ale přepsat do zcela jiného textu[3][Whitebox, ale může být rozšířen na blackbox]

2 Útoky na otravu Cílem útočníka je kontaminovat model počítače vygenerovaný ve fázi trénování, aby se předpovědi nových dat upravily ve fázi testování.

Cílem: Při cílených útocích na otravu chce útočník nesprávně klasifikovat konkrétní příklady.

Nerozlišují se: Cílem je způsobit efekt podobný systému DoS, který systém znepřístupňuje.

Integrita V lékařské datové sadě, kde cílem je předpovědět dávkování antikoagulantní drogy Bojin pomocí demografických informací atd. Výzkumní pracovníci zavedli škodlivé vzorky s 8% mírou otravy, která změnila dávkování o 75,06 % pro polovinu pacientů[4][Blackbox]

V chatovacím robotu Tay byly budoucí konverzace taintovány, protože zlomek minulých konverzací se použil k trénování systému prostřednictvím zpětné vazby[5] [Blackbox]

3 Inverze modelu Může dojít k získání privátních funkcí použitých v modelech strojového učení. Důvěrnost; Výzkumníci dokázali obnovit soukromá trénovací data použitá k trénování algoritmu[6] Autoři byli schopni rekonstruovat tváře, a to pouze názvem a přístupem k modelu do bodu, kdy mechanické turky mohly použít fotografii k identifikaci jednotlivce z aline-up s 95% přesností. Autoři mohli také extrahovat konkrétní informace. [Whitebox a Blackbox] [12]
4 Útok s cílem odvodit členství Útočník může zjistit, jestli byl daný datový záznam součástí trénovací sady dat vašeho modelu, nebo ne. Důvěrnost Výzkumní pracovníci dokázali předpovědět hlavní postup pacienta (např. operaci, pro které pacient prošel) na základě atributů (např. věk, pohlaví, nemocnice)[7][Blackbox]
5 Krádež modelu Útočníci na základě legitimního dotazování modelu znovu vytvoří základní model. Funkce nového modelu jsou stejné jako funkce základního modelu. Důvěrnost Výzkumníci úspěšně emulovali základní algoritmus z Amazonu, BigML. Například v případě BigML dokázali výzkumníci obnovit model použitý k predikci, jestli konkrétní osoba má mít nízké/vysoké úvěrové riziko (datová sada kreditních karet pro Německo), pomocí 1 150 dotazů a během 10 minut [8].
6 Přeprogramování hlubokých neurálních sítí Pomocí speciálně sestaveného dotazu může nežádoucí osoba přeprogramovat systémy strojového učení na úkol, který se liší od původního záměru tvůrce. Integrita, dostupnost Ukazuje, jak byl systém ImageNet, který slouží ke klasifikaci několika kategorií obrázků, využit k jinému účelu – počítání čtverců. Autoři ukončí dokument hypotetickým scénářem: Útočník pošle obrázky Captcha do klasifikátoru počítačového zpracování obrazu ve službě fotografií hostované v cloudu, aby vyřešil captchas obrázku za účelem vytvoření spamových účtů[9]
7 Nežádoucí příklad ve fyzické doméně Nežádoucí příklad je vstup nebo dotaz ze škodlivé entity odeslané s jediným cílem zavádějícího systému strojového učení. Tyto příklady se můžou projevit ve fyzické doméně. Integrita Výzkumní pracovníci 3D tisknou pušku s vlastní texturou, která hlupá systém rozpoznávání obrázků, aby si myslel, že je želva[10]

Výzkumníci sestrojili sluneční brýle s designem, který dokáže podvést systémy pro rozpoznávání obrázků a ty potom přestanou správně rozpoznávat obličeje [11].

8 Poskytovatelé strojového učení se zlými úmysly, kteří můžou obnovit trénovací data Poskytovatel ML se zlými úmysly se dotazuje na model používaný zákazníkem a obnovit trénovací data zákazníka. Důvěrnost Výzkumníci ukazují, jak poskytovatel se zlými úmysly zadními vrátky implementuje algoritmus, kterým získá privátní trénovací data. Pouze na základě modelu se potom podařilo rekonstruovat obličeje a texty. [12]
9 Útoky na dodavatelský řetězec strojového učení [13] Vzhledem k velkým prostředkům (datům a výpočtům) potřebným k trénování algoritmů je v současné době opakovaně používat modely natrénované velkými společnostmi a mírně je upravovat pro úkoly (např. ResNet je oblíbený model rozpoznávání obrázků od Microsoftu). Tyto modely se spravují v Model Zoo (Caffe hostuje oblíbené modely rozpoznávání obrazu). Při tomto útoku nežádoucí osoba útočí na modely hostované v Caffe a tím poškozuje zdroj pro všechny ostatní. Integrita Výzkumníci ukazují, jak útočník může do jednoho z oblíbených modelů nasadit škodlivý kód. Nic netušící vývojář ML si tento model stáhne a použije ho ve svém kódu jako součást systému pro rozpoznávání obrázků [14]. Autoři ukazují, že v Caffe existuje model, jehož algoritmus SHA-1 (Secure Hash Algorithm) NEODPOVÍDÁ hodnotě hash autorů, což ukazuje na úmyslné poškození. Pro 22 modelů neexistuje žádná hodnota hash SHA1 pro kontrolu integrity.
10 Strojové učení se zadními vrátky Podobně jako v případě útoku na dodavatelský řetězec strojového učení i v případě tohoto útoku proces trénování zcela nebo částečně zajišťuje třetí strana se zlými úmysly, která chce uživateli nabídnout natrénovaný model se zadními vrátky. Model se zadními vrátky by fungoval dobře pro většinu vstupů (včetně vstupů, které by koncový uživatel mohl používat jako ověřovací sadu), ale způsoboval by cílenou chybnou klasifikaci nebo by snižoval přesnost modelu pro vstupy splňující určitou tajnou, útočníkem zvolenou vlastnost, kterou budeme označovat jako trigger zadních vrátek. Důvěrnost, integrita Výzkumníci vytvořili klasifikátor pouličního značení v USA se zadními vrátky, který identifikuje značky STOP jako omezení rychlosti pouze v případě, že je na značce STOP speciální nálepka (trigger zadních vrátek) [20]. Nyní tuto práci rozšiřují na systémy zpracování textu, ve kterých se nahrazují určitá slova a triggerem je přízvuk mluvčího [15].
11 Zneužití softwarových závislostí systému strojového učení Při tomto útoku útočník NEMANIPULUJE s algoritmy. Místo toho zneužívá tradiční chyby zabezpečení softwaru, jako jsou přetečení vyrovnávací paměti. Důvěrnost, Integrita, Dostupnost, Nežádoucí osoba do systému pro rozpoznávání obrazu odešle poškozený vstup, který zneužije softwarovou chybu v jedné ze závislostí a způsobí chybnou klasifikaci.

Podrobnosti o nezamýšlených selháních

Č. scénáře Třída útoku Popis Typ ohrožení Scénář
12 Hacking odměn Systémy zpětnovazebního učení reagují nezamýšleným způsobem kvůli nesrovnalostem mezi určenou a skutečnou zamýšlenou odměnou. Sejf ty systému Tady najdete rozsáhlý korpus herních příkladů v AI [1].
13 Vedlejší účinky Systém RL naruší prostředí při pokusu o dosažení cíle Sejf ty systému Scénář (doslovně od autorů ve [2]): Předpokládejme, že vývojář chce agenta RL (například úklidového robota) pro dosažení konkrétního cíle, například přesunu krabice z jedné strany místnosti na druhou. V některých případech je nejefektivnějším způsobem, jak tento cíl zajistit, udělat ve zbytku prostředí něco nesouvisejícího a destruktivního, například shodit vázu s vodou, která stojí v cestě. Pokud má agent odměnu jenom za přesun krabice, pravděpodobně tuto vázu shodí.
14 Distribuční posuny Systém se testuje v jednom druhu prostředí, ale nemůže se přizpůsobit změnám v jiných typech prostředí. Bezpečnost systému Výzkumníci natrénovali dva moderní agenty RL, Rainbow DQN a A2C, na simulaci, ve které se snaží vyhnout lávě. Během trénování se agentovi RL podařilo úspěšně se vyhnout lávě a dosáhnout svého cíle. Během testování výzkumníci mírně posunuli umístění lávy, ale agent RL se jí nedokázal vyhnout [3].
15 Přirozené nežádoucí příklady Systém nesprávně rozpozná vstup nalezený pomocí tvrdého negativního dolování. Bezpečnost systému Tady autoři ukazují, jak je možné jednoduchým procesem vytvoření těžkých negativních příkladů [4] a přenosem příkladu zmást systém ML.
16 Běžné poškození Systém nedokáže zvládat běžná poškození a perturbace, jako je naklonění, zvětšení nebo obrázky s vysokou mírou šumu. Bezpečnost systému Autoři[5] ukazují, jak běžné poškození, jako jsou změny jasu, kontrastu, mlhy nebo šumu přidaných k obrázkům, mají výrazný pokles metrik při rozpoznávání obrázků.
17 Neúplné testování v reálných podmínkách Systém ML není testován v realistických podmínkách, ve kterých má fungovat Bezpečnost systému Autoři [25] zdůrazňují, že zatímco obránci spoléhají na robustnost algoritmu ML, často ztrácí přehled o reálných podmínkách. Například uvádějí, že když se ztratí značka STOP, je pravděpodobnější, že ji srazil vítr, než že se útočník pokouší perturbovat vstupy systému.

Poděkování

Chtěli bychom poděkovat všem, kteří nám poskytli užitečnou zpětnou vazbu: Andrew Marshall, Magnus Nystrom, John Walton, John Lambert, Sharon Xia, Andi Comissoneru, Emre Kiciman, Jugal Parikh, Sharon Gillet, členové pracovní skupiny Microsoft AI and Ethics in Engineering and Research (AETHER) zabývající se zabezpečením, Amar Ashar, Samuel Klein, Jonathan Zittrain a členové pracovní skupiny zabývající se bezpečností a zabezpečením AI z centra Berkman Klein. Chtěli bychom také poděkovat revidující z 23 externích stran, organizace pro standardizaci a vládních organizací za pomoc při formování této taxonomie.

Bibliografie

[1] Li, Guofu, et al. "Security Matters: A Survey on Adversarial Machine Učení." Preprint arXiv arXiv:1810.07339 (2018).

[2] Čakryborty, Anirban a kol. "Nežádoucí útoky a obrany: Průzkum." Preprint arXiv arXiv:1810.00069 (2018).

[3] Ortega, Pedro a Vishal Maini. "Budování bezpečné umělé inteligence: specifikace, robustnost a zajištění." DeepMind Sejf ty Research Blog (2018).

[4] Amodei, Dario, et al. "Betonové problémy v bezpečnosti AI.". Preprint arXiv arXiv:1606.06565 (2016).

[5] Shankar Siva Kumar, Ram, et al. "Law and Adversarial Machine Učení." Preprint arXiv arXiv:1810.10731 (2018).

[6] Calo, Ryan a kol. "Is Tricking a Robot Hacking?" University of Washington School of Law Research Paper 2018-05 (2018).

[7] Paschali, Magdalini, et al. "Generalizability vs. Robustness: Adversarial Examples for Medical Imaging." arXiv preprint arXiv:1804.00504 (2018).

[8] Ebrahimi, Javid, Daniel Lowd a Dejing Dou. "On Adversarial Examples for Character-Level Neural Machine Translation." arXiv preprint arXiv:1806.09030 (2018)

[9] Carlini, Nicholas a David Wagner. "Nežádoucí příklady zvuku: Cílené útoky na řeč na text." preprint arXiv arXiv:1801.01944 (2018).

[10] Jagielski, Matthew a kol. "Manipulace se strojovými učeními: Otrava útoky a protiopatření pro regresní učení." Preprint arXiv arXiv:1804.00308 (2018)

[11] [https://blogs.microsoft.com/blog/2016/03/25/learning-tays-introduction/]

[12] Fredrikson M, Jha S, Ristenpart T. 2015. Model inversion attacks that exploit confidence information and basic countermeasures

[13] Shokri R, Stronati M, Song C, Shmatikov V. 2017. Membership inference attacks against machine learning models. sborník IEEE Symp. on Security and Privacy (SP), San Jose, CA, 22. až 24.května 2017, str. 3–18. New York, NY: IEEE.

[14] Tramèr, Florian a kol. "Krádež stroje Učení Modely prostřednictvím rozhraní API pro predikce". USENIX Security Symposium. 2016.

[15] Elsayed, Gamaleldin F., Ian Goodfellow a Jascha Sohl-Dickstein. "Nežádoucí přeprogramování neurálních sítí." Preprint arXiv arXiv:1806.11146 (2018).

[16] Athalye, Anish a Ilya Sutskever. "Synthesizing robust adversarial examples" (Synthesizing robust adversarial examples). Preprint arXiv arXiv:1707.07397(2017)

[17] Sharif, Mahmood, et al. "Adversarial Generative Nets: Neural Network Attacks on State-of-the-Art Face Recognition." Preprint arXiv arXiv:1801.00349 (2017).

[19] Xiao, Qixue, et al. "Security Risks in Deep Učení Implementations." Preprint arXiv arXiv:1711.11008 (2017).

[20] Gu, Tianyu, Brendan Dolan-Gavitt a Siddharth Garg. Chybné sítě: Identifikace ohrožení zabezpečení v dodavatelském řetězci modelu strojového učeníPreprint arXiv arXiv:1708.06733 (2017)

[21] [https://www.wired.com/story/machine-learning-backdoors/]

[22] [https://docs.google.com/spreadsheets/d/e/2PACX-1vRPiprOaC3HsCf5Tuum8bRfzYUiKLRqJmbOoC-32JorNdfyTiRRsR7Ea5eWtvsWzuxo8bjOxCG84dAg/pubhtml]

[23] Amodei, Dario, et al. "Betonové problémy v bezpečnosti AI." Preprint arXiv arXiv:1606.06565 (2016).

[24] Leike, Jan, et al. "AI safety gridworlds." Preprint arXiv arXiv:1711.09883 (2017).

[25] Gilmer, Justin a kol. "Motivování pravidel hry pro nežádoucí příklad výzkumu." Preprint arXiv arXiv:1807.06732 (2018).

[26] Hendrycks, Dan a Thomas Dietterich. "Srovnávací test odolnosti neurální sítě na běžné poškození a perturbace." Preprint arXiv arXiv:1903.12261 (2019).