Condividi tramite


Modalità di errore nel Machine Learning

Microsoft Corporation Berkman Klein Center for Internet and Society presso Harvard University

Ram Shankar Siva Kumar

David O'Brien

Jeffrey Snover

Kendra Albert

Salome Viljoen

Novembre 2019

Introduzione e contesto

Negli ultimi due anni più di 200 documenti si sono concentrati sul modo in cui il Machine Learning può avere esito negativo a causa di attacchi antagonistici sugli algoritmi e sui dati. Questo numero cresce se vengono incorporate le modalità di errore non-antagoniste. La grande quantità di documenti ha reso difficile a esperti di Machine Learning, ingegneri, avvocati e responsabili dei criteri, il tenersi al passo con gli attacchi e le difese dei sistemi di apprendimento automatico. Tuttavia, poiché questi sistemi sono sempre più pervasivi, diventa sempre più urgente riconoscere il modo in cui possono fallire, indipendentemente dal fatto che si tratti di un antagonista o della progettazione intrinseca di un sistema. Lo scopo di questo documento è di catalogare insieme entrambe le modalità di errore in un'unica posizione.

  • Gli errori intenzionali in cui l'errore è causato da un antagonista attivo che tenta di sovvertire il sistema per raggiungere i propri obiettivi: per classificare erroneamente il risultato, dedurre dati di training privati o per rubare l'algoritmo sottostante.

  • Errori non intenzionali in cui l'errore è dovuto al fatto che un sistema di Machine Learning produce un risultato formalmente corretto ma non completamente sicuro.

Si sottolinea che esistono altre tassonomie e framework che evidenziano individualmente le modalità di errore intenzionale [1],[2] e le modalità di errore non intenzionali [3],[4]. La presente classificazione riporta le due modalità di errore separate in un'unica posizione e soddisfa le esigenze seguenti:

  1. La necessità di dotare di gergo comune gli sviluppatori software, chi deve rispondere agli eventi imprevisti relativi alla sicurezza, gli avvocati e i responsabili dei criteri, per poter parlare di questo problema. Dopo aver sviluppato la versione iniziale della tassonomia dell'anno passato, c'è stato un lavoro comune con i team di sicurezza e i team Machine Learning in Microsoft, 23 partner esterni, organizzazioni standard e governi per riconoscere in che modo gli stakeholder useranno il framework. Il framework è stato analizzato in base a questo studio sull'usabilità e ai feedback degli stakeholder.

    Risultati: quando si presenta una modalità di errore di Machine Learning, si è spesso osservato che gli sviluppatori di software e gli avvocati hanno mappato mentalmente le modalità di errore di Machine Learning agli attacchi software tradizionali come l'esfiltrazione di dati. Di conseguenza, in tutto il documento si tenta di evidenziare il modo in cui le modalità di errore del Machine Learning siano significative rispetto agli errori software tradizionali, dal punto di vista di tecnologia e criteri.

  2. C'è la necessità di una piattaforma comune per i tecnici su cui possano creare e che si integri nelle procedure di sviluppo e sicurezza del software esistenti. In generale, la tassonomia è molto più di uno strumento didattico; è necessaria per ottenere risultati di progettazione tangibili.

    Risultati: usando questa tassonomia come obiettivo, Microsoft ha modificato il processo del ciclo di vita dello sviluppo della sicurezza per l'intera organizzazione. In particolare, data scientist e tecnici della sicurezza di Microsoft condividono ora il linguaggio comune di questa tassonomia, il che consente loro di modellare più efficacemente i sistemi di Machine Learning prima della distribuzione nell'ambiente di produzione; chi deve rispondere agli eventi imprevisti di sicurezza ha a disposizione anche una barra dei bug per valutare queste minacce nette specifiche per il Machine Learning, il processo standard per la valutazione delle vulnerabilità e la risposta usata da Microsoft Security Response Center e da tutti i team dei prodotti Microsoft.

  3. C'è la necessità di un vocabolario comune per descrivere questi attacchi tra chi crea i criteri e gli avvocati. Si ritiene che questa operazione per descrivere le diverse modalità di errore nel Machine Learning per analizzare come i loro danni possano essere disciplinati, sia un primo passo significativo verso una politica informata.

    Risultati: questa tassonomia è scritta per un ampio pubblico interdisciplinare, quindi i responsabili politici che esaminano i problemi dal punto di vista generale di ML/IA, nonché domini specifici come la disinformazione/assistenza sanitaria dovrebbero trovare utile il catalogo della modalità di errore. Vengono inoltre evidenziati eventuali interventi legali per affrontare e risolvere le modalità di errore.

Vedere anche le pagine di Microsoft Sistemi e dipendenze di intelligenza artificiale e Machine Learning per la modellazione delle minacce e Pivot della barra dei bug SDL per le vulnerabilità nel Machine Learning.

Come usare questo documento

Inizialmente, si riconosce che si tratta di un documento vivo che si evolverà nel tempo assieme al panorama delle minacce. Non vengono inoltre prescritte le mitigazioni tecnologiche per queste modalità di errore, in quanto le difese sono specifiche dello scenario e si collegano al modello di minaccia e all'architettura di sistema presi in considerazione. Le opzioni presentate per la mitigazione delle minacce si basano sulla ricerca attuale, in previsione del fatto che tali difese si evolveranno anche nel tempo.

Per i tecnici, è consigliabile consultare la panoramica delle possibili modalità di errore e passare al documento di classificazione dei rischi. In questo modo, i tecnici possono identificare minacce, attacchi, vulnerabilità e usare il framework per pianificare contromisure, ove disponibili. Si fa quindi riferimento alla barra dei bug che esegue il mapping di queste nuove vulnerabilità nella tassonomia insieme alle vulnerabilità software tradizionali e fornisce una classificazione per ogni vulnerabilità relative al Machine Learning (ad esempio critiche, importanti). Questa barra dei bug è facilmente integrabile nei processi/playbook esistenti in risposta agli eventi imprevisti.

Per gli avvocati e i responsabili dei criteri, questo documento organizza le modalità di errore relative al Machine Learning e presenta un framework per analizzare i problemi chiave rilevanti per chiunque esplori le opzioni dei criteri, ad esempio il lavoro svolto qui [5],[6]. In particolare, sono stati suddivisi in categorie gli errori e le conseguenze in modo che i responsabili dei criteri possano iniziare a delineare le distinzioni tra le cause, in modo da informare le iniziative pubbliche sui criteri per promuovere la protezione e la sicurezza relativi al Machine Learning. La speranza è che i responsabili dei criteri usino queste categorie per iniziare a conoscere il modo in cui i regimi legali esistenti possano o non possano acquisire in modo adeguato i problemi emergenti, i regimi giuridici o le soluzioni di criteri cronologici che possono essere stati risolti con danni simili e che dovrebbero essere particolarmente sensibili alle questioni relative alle libertà civile.

Struttura del documento

In entrambe le sezioni Modalità di errore intenzionale e Modalità di errore non intenzionale, viene fornita una breve definizione dell'attacco e un esempio di documentazione.

Nella sezione Modalità di errore intenzionale sono disponibili i campi aggiuntivi:

  1. Che cosa tenta l'attacco per compromettere il sistema di Machine Learning: riservatezza, integrità o disponibilità? Si definisce la riservatezza garantendo che i componenti del sistema di Machine Learning (dati, algoritmo, modello) siano accessibili solo da parti autorizzate; l'integrità è definita assicurandosi che il sistema di Machine Learning possa essere modificato solo da parti autorizzate; la disponibilità viene definita come garanzia che il sistema di Machine Learning sia accessibile alle parti autorizzate. Insieme, riservatezza, integrità e disponibilità sono denominate triade CIA. Per ogni modalità di errore intenzionale, si tenta di identificare quale elemento della triade CIA sia compromesso.

  2. Quanta conoscenza è necessaria per lanciare questo attacco: blackbox o whitebox? Negli attacchi di tipo blackbox, l'utente malintenzionato non ha accesso diretto ai dati di training, nessuna conoscenza dell'algoritmo di Machine Learning usato e nessun accesso al codice sorgente del modello. L'utente malintenzionato esegue una query soltanto sul modello e osserva la risposta. In un attacco di tipo whitebox l'utente malintenzionato conosce l'algoritmo di Machine Learning oppure ha accesso al codice sorgente del modello.

  3. Commenti sulla violazione o meno da parte dell'utente malintenzionato della nozione tecnica tradizionale di accesso/autorizzazione.

Riepilogo degli errori volontariamente motivati

Numero dello scenario
Attacco
Sintesi
Viola la nozione tecnica tradizionale di accesso/autorizzazione?
1
Attacco perturbativo
L'autore dell'attacco modifica la query per ottenere una risposta appropriata
No
2
Attacco poisoning
L'autore dell'attacco contamina la fase di training dei sistemi di Machine Learning per ottenere i risultati desiderati
No
3
Inversione del modello
L'utente malintenzionato recupera le funzionalità segrete usate nel modello tramite query accurate
No
4
Inferenza dell'appartenenza
L'utente malintenzionato può dedurre se un record di dati specificato fa parte del set di dati di training del modello o meno
No
5
Furto del modello
L'utente malintenzionato è in grado di recuperare il modello tramite query create appositamente
No
6
Riprogrammazione del sistema di Machine Learning
Reimpiegare il sistema di Machine Learning per eseguire un'attività per cui non è stato programmato
No
7
Esempio contraddittorio nel dominio fisico
L'utente malintenzionato porta esempi antagonisti nel dominio fisico per subvertire il sistemaML, ad esempio: occhiali speciali di stampa 3d per ingannare il sistema di riconoscimento facciale
No
8
Provider di Machine Learning dannosi che recuperano dati di training
Il provider di Machine Learning dannoso può eseguire query sul modello usato dal cliente e recuperare i dati di training di quest'ultimo
9
Attacco alla supply chain di Machine Learning
L'autore dell'attacco compromette i modelli di Machine Learning durante il download per l'uso
10
Machine Learning backdoor
Algoritmo di backdoor dannoso del provider di Machine Learning da attivare con un trigger specifico
11
Exploit delle dipendenze software
L'utente malintenzionato usa gli exploit software tradizionali, come l'overflow del buffer, per confondere o controllare i sistemi di Machine Learning

Riepilogo degli errori non intenzionali

Numero scenario
Errore
Panoramica
12
Hacking con benefici
I sistemi di apprendimento per rinforzo agiscono in modi imprevisti a causa della mancata corrispondenza tra il beneficio dichiarato e il vero beneficio
13
Effetti collaterali
Il sistema di apprendimento per rinforzo irrompe nell'ambiente nel tentativo di raggiungere il suo obiettivo
14
Turni distribuzionali
Il sistema viene testato in un certo tipo di ambiente, ma non è in grado di adattarsi alle modifiche in altri tipi di ambiente
15
Esempi di antagonisti naturali
Senza le perturbazioni degli utenti malintenzionati, il sistema di Machine Learning produce un esito negativo a causa del mining rigido negativo
16
Danneggiamento comune
Il sistema non è in grado di gestire i danneggiamenti e le perturbazioni comuni, come tilting, zoom o immagini disturbate.
17
Test non completo
Il sistema di Machine Learning non viene testato nelle condizioni realistiche in cui dovrebbe operare.

Dettagli sugli errori volontariamente motivati

Numero scenario Classe dell'attacco Descrizione Tipo di compromissione Scenario
1 Attacchi di perturbazione Negli attacchi in stile di perturbazione, l'utente malintenzionato modifica in modo furtivo la query per ottenere una risposta desiderata Integrità Immagine: il rumore viene aggiunto a un'immagine a raggi X, che fa passare le stime dall'analisi normale all'anomalia [1][Blackbox]

Traduzione testuale: i caratteri specifici vengono modificati per ottenere una traduzione errata. L'attacco può eliminare una parola specifica oppure rimuovere completamente la parola [2][blackbox e whitebox]

Discorso: i ricercatori hanno mostrato come data una forma d'onda vocale, un'altra forma d'onda può essere esattamente replicata, ma trascrive in un testo totalmente diverso[3][Whitebox ma può essere esteso a blackbox]

2 Attacchi di avvelenamento L'obiettivo dell'utente malintenzionato è quello di contaminare il modello di computer generato nella fase di training, in modo che le stime sui nuovi dati vengano modificate nella fase di test

Mirato: negli attacchi di avvelenamento mirato, l'utente malintenzionato vuole assegnare in modo non corretto la classificazione di esempi specifici

Indiscriminato: l'obiettivo è quello di causare l'effetto DoS, che rende il sistema non disponibile.

Integrità In un set di dati medico in cui l'obiettivo è quello di stimare il dosaggio del farmaco drug Warfarin usando informazioni demografiche, ecc. I ricercatori hanno introdotto campioni dannosi al tasso di avvelenamento dell'8%, che ha cambiato dosaggio del 75,06% per metà dei pazienti[4][Blackbox]

Nel chatbot Tay, le conversazioni future sono state intasate perché una frazione delle conversazioni precedenti è stata usata per eseguire il training del sistema tramite feedback[5] [Blackbox]

3 Inversione del modello È possibile recuperare le funzionalità private usate nei modelli di Machine Learning Riservatezza; I ricercatori hanno potuto recuperare i dati di training privati usati per eseguire il training dell'algoritmo[6] Gli autori sono stati in grado di ricostruire i visi, solo con il nome e l'accesso al modello al punto in cui i turchi meccanici potevano usare la foto per identificare un individuo dall'aline-up con precisione del 95%. Gli autori erano anche in grado di estrarre informazioni specifiche. [Whitebox e Blackbox] [12]
4 Attacco basato su tecniche di inferenza dell'appartenenza L'utente malintenzionato può determinare se un record di dati specificato fa parte del set di dati di training del modello o meno Riservatezza I ricercatori sono stati in grado di prevedere la procedura principale di un paziente(ad esempio: chirurgia che il paziente ha attraversato) in base agli attributi (ad esempio: età, sesso, ospedale)[7][Blackbox]
5 Furto di modelli Gli utenti malintenzionati ricreano il modello sottostante tramite esecuzione di query legittime. La funzionalità del modello nuovo è identica a quella del modello sottostante. Riservatezza I ricercatori hanno emulato con successo l'algoritmo sottostante da Amazon, BigML. Nel caso di BigML, ad esempio, i ricercatori sono stati in grado di recuperare il modello utilizzato per prevedere se qualcuno dovesse avere un rischio di credito buono o cattivo (set di dati della carta di credito tedesca) usando 1.150 query entro 10 minuti [8]
6 Riprogrammazione delle reti neurali profonde Per mezzo di una query appositamente creata da un antagonista, i sistemi di Machine Learning possono essere riprogrammati in un'attività che devia dalla finalità originale del creatore Integrità, disponibilità È stato illustrato il modo in cui ImageNet, un sistema usato per classificare una delle diverse categorie di immagini, è stato riconvertito per conteggiare i quadrati. Gli autori terminano il documento con uno scenario ipotetico: un utente malintenzionato invia immagini Captcha al classificatore di visione artificiale in un servizio foto ospitato nel cloud per risolvere i captcha di immagine per creare account di posta indesiderata[9]
7 Esempio antagonista nel dominio fisico Un esempio antagonista è un input/query da un'entità dannosa inviata con l'unico scopo di ingannare il sistema di Machine Learning Questi esempi possono manifestarsi nel dominio fisico Integrità I ricercatori 3D stampano un fucile con trama personalizzata che inganna il sistema di riconoscimento delle immagini nel pensare che sia una tartarugha[10]

I ricercatori costruiscono occhiali da sole con una progettazione che può ora ingannare i sistemi di riconoscimento delle immagini, non riconoscendo più i visi correttamente[11]

8 Provider di Machine Learning dannosi che recuperano dati di training Il provider di Machine Learning dannoso può eseguire query sul modello usato dal cliente e recuperare i dati di training di quest'ultimo Riservatezza I ricercatori illustrano come un provider dannoso presenta un algoritmo di backdoor, in cui vengono recuperati i dati di training privati. Sono stati in grado di ricostruire visi e testi con il solo modello. [12]
9 Attacco rivolto alla supply chain di Machine Learning[13] A causa di risorse di grandi dimensioni (dati e calcolo) necessari per eseguire il training degli algoritmi, la pratica corrente consiste nel riutilizzare i modelli sottoposti a training da grandi aziende e modificarli leggermente per le attività a portata di mano (ad esempio ResNet è un modello di riconoscimento delle immagini diffuso di Microsoft). Questi modelli vengono curati in un modello Zoo (Caffe ospita modelli di riconoscimento delle immagini comuni). In questo attacco, l'antagonista attacca i modelli ospitati in Caffe, causando l'avvelenamento del pozzo per tutti gli altri. Integrità I ricercatori mostrano come sia possibile che un utente malintenzionato possa archiviare codice dannoso in uno dei modelli più diffusi. Uno sviluppatore di Machine Learning ignaro scarica questo modello e lo usa come parte del sistema di riconoscimento delle immagini nel codice [14]. Gli autori mostrano come in Caffe esista un modello il cui hash SHA1 NON corrisponda al digest degli autori, il che indica la manomissione. Esistono 22 modelli senza hash SHA1 per i controlli di integrità.
10 Machine Learning backdoor Come nel caso di "attacco alla supply chain di Machine Learning", in questo scenario di attacco il processo di training viene completamente o parzialmente esternalizzato a una parte dannosa che desidera fornire all'utente un modello sottoposto a training che contiene una backdoor. Il modello con backdoor viene eseguito correttamente sulla maggior parte degli input, inclusi gli input che l'utente finale può includere come set di convalida, ma causa errori di classificazione mirata o peggiora l'accuratezza del modello per gli input che soddisfano una proprietà segreta, scelta dagli utenti malintenzionati, a cui si farà riferimento come trigger backdoor Riservatezza, integrità I ricercatori hanno creato un classificatore con backdoor per il segnale stradale degli Stati Uniti che identifica i segnali di arresto, come i limiti di velocità, solo quando viene aggiunto un adesivo speciale al segnale di arresto (trigger backdoor) 20, che ora estendono questo lavoro ai sistemi di elaborazione del testo, in cui parole specifiche vengono sostituite con il trigger che corrisponde all'accento del parlante[15]
11 Exploit delle dipendenze software del sistema di Machine Learning In questo attacco, l'utente malintenzionato NON modifica gli algoritmi, ma sfrutta vulnerabilità del software come il sovraccarico del buffer. Riservatezza, integrità, disponibilità, Un antagonista invia un input danneggiato a un sistema di riconoscimento delle immagini che ne causa la classificazione errata, sfruttando un bug del software in una delle dipendenze.

Dettagli relativi a errori non intenzionali

Numero scenario Classe dell'attacco Descrizione Tipo di compromissione Scenario
12 Hacking con benefici I sistemi di apprendimento di rinforzo agiscono in modi imprevisti a causa delle discrepanze tra la ricompensa specificata e i veri benefici previsti. Cassaforte ty del sistema È stato compilato qui un grande corpus di esempi di gioco nell'intelligenza artificiale[1]
13 Effetti collaterali Il sistema di sicurezza a livello di riga interrompe l'ambiente quando tenta di raggiungere il loro obiettivo Cassaforte ty del sistema Scenario, riferito parola per parola dagli autori in [2]: "Si supponga che una finestra di progettazione desideri un agente RL (ad esempio, il nostro robot per le pulizie) per raggiungere un obiettivo, ad esempio la possibilità di trasferire una scatola da un lato di una stanza all'altro. In alcuni casi il modo più efficace per raggiungere l'obiettivo consiste nell'eseguire qualcosa di non correlato e distruttivo per il resto dell'ambiente, ad esempio colpire un vaso con acqua nel suo percorso. Se all'agente viene assegnato un beneficio solo per il trasferimento della scatola, esso probabilmente colpirà il vaso".
14 Turni distribuzionali Il sistema viene testato in un tipo di ambiente, ma non è in grado di adattarsi alle modifiche in altri tipi di ambiente Sicurezza del sistema I ricercatori hanno sottoposto a training due agenti RL all'avanguardia, Rainbow DQN e A2C, in una simulazione che prevedeva di evitare la lava. Durante il training, l'agente RL è stato in grado di evitare la lava con successo e ha raggiunto l'obiettivo. Durante il test, la posizione della lava è leggermente cambiata, tuttavia l'agente RL non è stato in grado di evitare [3]
15 Esempi antagonisti naturali Il sistema riconosce erroneamente un input trovato utilizzando il data mining negativo rigido Sicurezza del sistema In questo articolo gli autori mostrano come con un semplice processo di data mining rigido negativo[4] sia possibile confondere il sistema di Machine Learning ritrasmettendo l'esempio.
16 Danneggiamento comune Il sistema non è in grado di gestire i danneggiamenti e le perturbazioni comuni, come tilting, zoom o immagini disturbate. Sicurezza del sistema Gli autori[5] mostrano in che modo i danneggiamenti comuni, ad esempio le modifiche alla luminosità, al contrasto, alla nebbia o al rumore aggiunte alle immagini, presentano un calo significativo delle metriche nel riconoscimento delle immagini
17 Test non completi in condizioni realistiche Il sistema ml non viene testato in condizioni realistiche in cui è destinato a funzionare Sicurezza del sistema Gli autori di [25] evidenziano che, mentre i difensori in genere tengono in considerazione la robustezza dell'algoritmo di Machine Learning, perdono la di vista le condizioni realistiche. Ad esempio, affermano che un segno di stop mancante è stato spazzato via dal vento sia più realistico rispetto a un utente malintenzionato che tenta di perturbare gli input del sistema.

Riconoscimenti

Si ringraziano Andrew Marshall, Magnus Nystrom, John Walton, John Lambert, Sharon Xia, Andi Comissoneru, Emre Kiciman, Jugal Parikh, Sharon Gill, i membri del flusso di lavoro per la sicurezza di Microsoft AI and Ethics in Engineering and Research (AETHER) Committee, Amar Ashar, Samuel Klein, Jonathan Zittrain, i membri del gruppo di lavoro per la sicurezza nell'intelligenza artificiale presso Berkman Klein per il prezioso feedback fornito. Vorremmo anche ringraziare i revisori da 23 partner esterni, le organizzazioni standard e le organizzazioni governative per la definizione della tassonomia.

Bibliografia

[1] Li, Guofu, et al. "Security Matters: A Survey on Adversarial Machine Learning". arXiv preprint arXiv:1810.07339 (2018).

[2] Integerborty, Anirban, et al. "Attacchi antagonisti e difese: un sondaggio." arXiv preprint arXiv:1810.00069 (2018).

[3] Ortega, Pedro, e Vishal Maini. "Building safe artificial intelligence: specification, robustness, and assurance." DeepMind Cassaforte ty Research Blog (2018).

[4] Amodei, Dario, et al. "Concrete problems in AI safety". arXiv preprint arXiv:1606.06565 (2016).

Shankar Siva Kumar, Ram, et al. "Law and Adversarial Machine Learning". arXiv preprint arXiv:1810.10731 (2018).

Calo, Ryan, et al. "Is Tricking a Robot Hacking?". University of Washington School of Law Research Paper 2018-05 (2018).

[7] Paschali, Magdalini, et al. "Generalizability vs. Robustness: Adversarial Examples for Medical Imaging." arXiv preprint arXiv:1804.00504 (2018).

[8] Ebrahimi, Javid, Daniel Lowd e Dejing Dou. "Negli esempi antagonisti per la traduzione automatica neurale a livello di carattere." arXiv preprint arXiv:1806.09030 (2018)

[9] Carlini, Nicholas e David Wagner. "Esempi antagonisti audio: attacchi mirati al riconoscimento vocale." arXiv preprint arXiv:1801.01944 (2018).

[10] Jagielski, Matthew, et al. "Manipolazione dell'apprendimento automatico: attacchi di avvelenamento e contromisure per l'apprendimento della regressione". arXiv preprint arXiv:1804.00308 (2018)

[11] [https://blogs.microsoft.com/blog/2016/03/25/learning-tays-introduction/]

Fredrikson M, Jha S, Ristenpart T. 2015. Model inversion attacks that exploit confidence information and basic countermeasures

Shokri R, Stronati M, Song C, Shmatikov V. 2017. Membership inference attacks against machine learning models. In Proc. of the 2017 IEEE Symp. on Security and Privacy (SP), San Jose, CA, 22–24 May 2017, pp. 3–18. New York, NY: I edizione Enterprise E.

[14] Tramèr,Destinazioni, et al. "Stealing Machine Learning Models via Prediction APIs". U edizione Standard NIX Security Symposium. 2016.

[15] Elsayed, Gamaleldin F., Ian Goodfellow, e Jascha Sohl-Dickstein. "Riprogrammazione antagonista delle reti neurali". arXiv preprint arXiv:1806.11146 (2018).

[16] Athalye, Anish, e Ilya Sutskever. "Synthesizing robust adversarial examples." arXiv preprint arXiv:1707.07397(2017)

[17] Sharif, Mahmood, et al. "Adversarial Generative Nets: Neural Network Attacks on State-of-the-Art Face Recognition". arXiv preprint arXiv:1801.00349 (2017).

[19] Qixue, et al. "Security Risks in Deep Learning Implementations". arXiv preprint arXiv:1711.11008 (2017).

[20] Gu, Tianyu, Brendan Dolan-Gavitt e Siddharth Garg. "Badnets: identificazione delle vulnerabilità nella supply chain del modello di Machine Learning". arXiv preprint arXiv:1708.06733 (2017)

[21] [https://www.wired.com/story/machine-learning-backdoors/]

[22] [https://docs.google.com/spreadsheets/d/e/2PACX-1vRPiprOaC3HsCf5Tuum8bRfzYUiKLRqJmbOoC-32JorNdfyTiRRsR7Ea5eWtvsWzuxo8bjOxCG84dAg/pubhtml]

[23] Amodei, Dario, et al. "Concrete problems in AI safety." arXiv preprint arXiv:1606.06565 (2016).

[24] Leike, Jan, et al. "AI safety gridworlds". arXiv preprint arXiv:1711.09883 (2017).

[25] Gilmer, Justin, et al. "Motivare le regole del gioco per ricerche di esempio antagoniste". arXiv preprint arXiv:1807.06732 (2018).

[26] Hendrycks, Dan e Thomas Dietterich. "Benchmarking dell'affidabilità della rete neurale a danneggiamenti e perturbazioni comuni". arXiv preprint arXiv:1903.12261 (2019).