Режимы сбоя в машинном обучении

Статья
06/02/2023

Microsoft Corporation	Berkman Klein Center for Internet and Society at Harvard University
Рэм Шанкар Сива Кумар (Ram Shankar Siva Kumar)	Дэвид О'Брайен (David O’Brien)
Джеффри Сновер (Jeffrey Snover)	Кендра Альберт (Kendra Albert)
	Саломе Вилжоен (Salome Viljoen)

Ноябрь 2019 г.

Вводная информация и историческая справка

За последние два года было написано более 200 статей о том, как машинное обучение может завершаться сбоем из-за враждебных атак на алгоритмы и данные. Если бы мы встроили режимы сбоя без защиты от враждебных атак, количество таких сбоев быстро бы увеличивалось. Из-за большого количества статей специалистам по машинному обучению, не говоря уже об инженерах, юристах и разработчиках политик, трудно уследить за всеми тенденциями атак на системы машинного обучения и их защиты. Однако, поскольку эти системы получают все более широкое распространение, необходимость разобраться в причинах сбоев, будь то злоумышленники или внутренняя структура системы, будет становиться все более острой. Цель этого документа — свести в одну таблицу все данные об этих двух режимах сбоя.

Причиной умышленно вызванных сбоев является активная попытка злоумышленника помешать системе достигнуть своих целей путем неверного классифицирования результатов, получения логического вывода из частных обучающих данных или кражи алгоритма, лежащего в основе работы системы.
Причиной непреднамеренных сбоев становится результат работы системы машинного обучения, который является формально правильным, но абсолютно небезопасным.

Мы хотели бы отметить, что существуют другие классификации и платформы, в которых по отдельности рассматриваются режимы умышленно вызванных сбоев[1]^,[2] и непреднамеренных сбоев[3]^,[4]. Наша классификация объединяет два отдельных режима отказа и учитывает следующие потребности:

Необходимость предоставления разработчикам программного обеспечения, специалистам, реагирующим на инциденты безопасности, юристам и разработчикам политик единого профессионального языка для обсуждения этой проблемы. После разработки первоначальной версии классификации в прошлом году мы взаимодействовали с отделами безопасности и машинного обучения Майкрософт, 23 внешними партнерами, организацией по стандартизации и правительственными учреждениями, чтобы понять, как заинтересованные лица будут использовать нашу платформу. На основе этого исследования применимости и отзывов заинтересованных лиц мы создали новую версию платформы.

Результаты. При появлении режима сбоя машинного обучения мы часто наблюдали, что разработчики программного обеспечения и юристы психически сопоставляли режимы сбоя машинного обучения с традиционными атаками программного обеспечения, такими как утечка данных. Поэтому в этой статье мы пытаемся показать, насколько режимы сбоя машинного обучения отличаются от традиционных режимов сбоя программного обеспечения с точки зрения технологии и политики.
Необходимость общей платформы для инженеров, которую они могли бы использовать в качестве основы и интегрировать в свои существующие методики обеспечения безопасности и разработки программного обеспечения. В широком смысле, мы хотим, чтобы эта классификация выполняла не только образовательную цель, но и помогала получать реальные результаты в сфере проектирования.

Результаты. Использование этой таксономии в качестве объектива, корпорация Майкрософт изменила процесс жизненного цикла разработки безопасности для всей организации. В частности, специалисты по обработке и анализу данных и специалисты по безопасности в корпорации Майкрософт теперь совместно используют общий язык этой классификации, что позволяет им более эффективно моделировать угрозы для своих системы машинного обучения перед развертыванием в рабочей среде. Специалисты, реагирующие на инциденты безопасности, также получили шкалу ошибок для рассмотрения этих новых угроз, относящихся к машинному обучению, и стандартный процесс для рассмотрения уязвимостей и реакций, используемый Центром Майкрософт по реагированию на угрозы и всеми командами разработчиков Майкрософт.
Необходимость общего словаря, который разработчики политик и юристы смогут использовать для описания таких атак. Мы считаем, что его использование для описания различных режимов сбоя машинного обучения и анализа того, как наносимый ими вред может регулироваться, является первым осмысленным шагом к содержательной политике.

Результаты: эта таксономия написана для широкой междисциплинарной аудитории , поэтому политики, которые смотрят на вопросы с общей точки зрения ML/AI, а также конкретные домены, такие как неправильное информирование/здравоохранение, должны найти каталог режим сбоя полезным. Мы также указали возможные действия законодателей, которые помогут решить проблемы режимов сбоя.

Также см. статьи Майкрософт Моделирование угроз для решений ИИ и машинного обучения: системы и зависимости и Сводные таблицы шкалы ошибок SDL для уязвимостей машинного обучения.

Как использовать этот документ

Прежде всего, мы понимаем, что это динамичный документ, содержание которого будет меняться со временем вместе с характером угроз. Здесь мы также не устанавливаем технологические способы устранения этих режимов сбоя, поскольку способы защиты зависят от сценария и связаны с рассматриваемыми моделью угрозы и архитектурой системы. Варианты предотвращения угроз основаны на текущих исследованиях и предполагают развитие средств защиты с течением времени.

Инженерам мы рекомендуем просмотреть обзор возможных режимов сбоя и перейти к документу о моделировании угроз. Таким образом, они смогут обнаружить угрозы, атаки и уязвимости и использовать платформу для планирования мер противодействия, если они доступны. Затем мы указываем на шкалу ошибок, которая сопоставляет эти новые уязвимости в классификации с традиционными уязвимостями программного обеспечения и дает оценку для каждой уязвимости машинного обучения (например, критическая или важная ошибка). Эта шкала ошибок легко интегрируется в существующие процессы или сборники схем реагирования на инциденты.

Для юристов и разработчиков политик в этом документе классифицируются режимы сбоя машинного обучения и представлена платформа для анализа ключевых проблем, которые важны для каждого, кто изучает параметры политик, например работу в статье [5]^,[6]. В частности, мы упорядочили по категориям сбои и последствия таким образом, чтобы разработчики политик могли начать проводить различия между причинами, что позволит продвигать инициативы общественной политики по обеспечению защиты и безопасности машинного обучения. Мы надеемся, что разработчики политик будут использовать эти категории для того, чтобы узнать о том, как существующие правовые режимы могут (или почему не могут) надлежащим образом собирать данные о возникающих проблемах, какие исторические правовые режимы или решения для политик можно использовать для устранения аналогичных угроз, и где нужно уделить особое внимание проблемам гражданских свобод.

Структура документа

В разделах Режимы умышленно вызванных сбоев и Режимы непреднамеренных сбоев мы предоставляет краткое описание атаки и наглядный пример из литературы.

В разделе Режимы умышленно вызванных сбоев представлены дополнительные поля:

Что злоумышленники пытались нарушить в системе машинного обучения в ходе атаки — конфиденциальность, целостность или доступность? Под этими понятиями мы понимаем следующее. Конфиденциальность — гарантия того, что компоненты системы машинного обучения (данные, алгоритм, модель) доступны только уполномоченным сторонам. Целостность — гарантия того, что систему машинного обучения могут изменять только уполномоченные стороны. Доступность — гарантия того, что система машинного обучения доступна только уполномоченным сторонам. Вместе конфиденциальность, целостность и доступность обозначаются как CIA. Для каждого режима умышленно вызванных сбоев мы попытались определить, какие из трех составляющих CIA нарушены.
Какой объем знаний требуется для организации такой атаки — "черный ящик" или "белый ящик"? В атаках типа "черный ящик" у злоумышленника НЕТ прямого доступа к обучающим данным, нет данных об алгоритме машинного обучения и нет доступа к исходному коду модели. Злоумышленник только отправляет модели запросы и следит за ответами. В атаке типа "белый ящик" у злоумышленника есть данные об алгоритме машинного обучения или доступ к исходному коду модели.
Комментарий о том, нарушает ли злоумышленник традиционные технологические принципы доступа или авторизации.

Сводка по умышленно вызванным сбоям

Номер сценария	Атака	Обзор	Нарушает традиционные технологические принципы доступа или авторизации?
1	Атака искажения	Злоумышленник изменяет запрос для получения надлежащего ответа	Нет
2	Атака с подделкой	Злоумышленник изменяет фазу обучения систем машинного обучения, чтобы получить нужный результат	Нет
3	Инверсия модели	Злоумышленник обнаруживает секретные возможности модели путем тщательной подготовки запросов	Нет
4	Определение членства	Злоумышленник может определить, является ли указанная запись данных частью обучающего набора данных модели	Нет
5	Захват модели	Злоумышленник может восстановить модель путем тщательной подготовки запросов	Нет
6	Перепрограммирование системы машинного обучения	Переопределение цели системы машинного обучения для выполнения действия, которое не предполагалось при ее программировании	Нет
7	Состязательный пример в материальном мире	Злоумышленник приносит состязательные примеры в физический домен для подвертки системы, например 3d печать специальных очки для обмана системы распознавания лиц	Нет
8	Поставщик вредоносных услуг машинного обучения, восстанавливающий обучающие данные	Поставщик вредоносных услуг машинного обучения может отправлять запросы модели, которую использует клиент, и восстановить обучающие данные клиента	Да
9	Атака цепочки поставок услуг машинного обучения	Злоумышленник взламывает модели машинного обучения во время скачивания для использования	Да
10	Лазейка в машинном обучении	Поставщик вредоносных услуг машинного обучения через лазейку использует алгоритм активации конкретного триггера	Да
11	Эксплуатация зависимостей программного обеспечения	Злоумышленник использует традиционные уязвимости программного обеспечения, например переполнение буфера, чтобы обмануть или контролировать системы машинного управления	Да

Сводка по непреднамеренным сбоям

Номер сценария	Сбой	Источники данных в Azure Monitor
12	Взлом поощрения	Системы обучения с подкреплением действуют непредусмотренным образом из-за несоответствия между указанным поощрением и действительным поощрением
13	Побочные эффекты	Система обучения с подкреплением разрушает среду в попытке достигнуть свою цель
14	Изменения при распространении	Система тестируется в среде одного вида, но не может адаптироваться к изменениям в средах другого вида
15	Естественные состязательные примеры	Без искажений злоумышленника в системе машинного обучения возникает сбой из-за интеллектуального анализа отрицательных образцов с жесткими условиями
16	Общее повреждение	Система не способна справиться с общими повреждениями и искажениями, например наклоном, масштабированием или зашумлением изображений.
17	Неполное тестирование	Система машинного обучения не тестируется в реальных условиях, для работы в которых она предназначена.

Подробные сведения об умышленно вызванных сбоях

Номер сценария	Класс атаки	Description	Тип нарушения	Сценарий
1	Атаки пертурбации	При атаках стиля пертурбации злоумышленник незаметно изменяет запрос, чтобы получить нужный ответ.	Целостность	Изображение: шум добавляется к изображению рентгеновских лучей, что делает прогнозы переходят от нормального сканирования к ненормальным [1][Blackbox] Перевод текста: определенные символы обрабатываются, чтобы привести к неправильному переводу. В ходе атаки конкретное слово может заглушаться или даже полностью удаляться[2]["черный ящик" и "белый ящик"] Речь: Исследователи показали, как дано волны речи, другая волновая форма может быть именно реплика, но транскрибирование в совершенно другой текст[3][Белое поле], но может быть расширено до черного ящика]
2	Нападения на отравление	Цель злоумышленника заключается в том, чтобы загрязнить модель компьютера, созданную на этапе обучения, чтобы прогнозы на новых данных были изменены на этапе тестирования. Целевой: в целевых атаках на отравление злоумышленник хочет неправильно классифицировать конкретные примеры Неизбирательный: цель заключается в том, чтобы вызвать doS, как эффект, который делает систему недоступной.	Целостность	В медицинском наборе данных, где цель заключается в прогнозировании дозы антикоагулантного препарата Варфарин с помощью демографических данных и т. д. Исследователи представили вредоносные образцы на уровне 8% от отравлений, которые изменили дозу на 75,06% для половины пациентов[4][Blackbox] В чат-боте Тай будущие беседы были запятнано, потому что часть прошлых разговоров использовалась для обучения системы с помощью обратной связи[5] [Blackbox]
3	Инверсия модели	Секретные возможности, используемые в моделях машинного обучения, можно восстановить	Конфиденциальность;	Исследователи смогли восстановить частные обучающие данные, используемые для обучения алгоритма[6] Авторы смогли восстановить лица, просто именем и доступом к модели до точки, где механические турки могли использовать фотографию для идентификации человека из линии с 95% точностью. Авторы также смогли извлечь конкретные сведения. [Whitebox и Blackbox] [12]
4	Атака определения членства	Злоумышленник может определить, является ли указанная запись данных частью обучающего набора данных модели	Конфиденциальность	Исследователи смогли предсказать основную процедуру пациента (например, хирургия пациента прошла) на основе атрибутов (например, возраст, пол, больница)[7][Blackbox]
5	Кража модели	Злоумышленники воссоздают базовую модель с помощью подлинных запросов к модели. Новая модель по своим функциональным возможностям аналогична базовой модели.	Конфиденциальность	Исследователи успешно имитировали базовый алгоритм Amazon, BigML. Например, в случае BigML исследователи смогли восстановить модель, которая использовалась для прогнозирования хорошего или плохого кредитного риска человека (набор данных о немецких кредитных картах) с помощью 1150 запросов за 10 минут[8]
6	Перепрограммирование глубоких нейронных сетей	С помощью специально созданного запроса злоумышленник может перепрограммировать системы машинного обучения на выполнение задач, не предусмотренных их создателем	Целостность, доступность	Продемонстрировано, как ImageNet, система, используемая для классификации изображений по нескольким категориям, была перепрофилирована для подсчета квадратов. Авторы заканчивают документ гипотетическим сценарием: злоумышленник отправляет изображения Captcha классификатору компьютерного зрения в облачной службе фотографий, чтобы решить капча изображения для создания учетных записей нежелательной почты[9]
7	Состязательный пример в физическом домене	Состязательный пример — это ввод или запрос от вредоносной сущности, отправленной с единственной целью ввода в заблуждение системы машинного обучения, которые могут проявляться в физическом домене.	Целостность	Исследователи 3D печатает винтовку с пользовательской текстурой, которая обманывает систему распознавания изображений в думать, что это черепаха[10] Исследователи создали солнцезащитные очки, конструкция которых позволяет обмануть системы распознавания изображений, что мешает им правильно распознавать лица[11]
8	Поставщики вредоносных услуг машинного обучения, которые могут восстанавливать обучающие данные	Поставщик вредоносных услуг машинного обучения может отправлять запросы модели, которую использует клиент, и восстановить обучающие данные клиента	Конфиденциальность	Исследователи показали, как поставщик вредоносных услуг задействует алгоритм-лазутчик, позволяющий реконструировать частные обучающие данные. Он может воссоздать лица и тексты, используя только модель. [12]
9	Атака цепочки поставок услуг машинного обучения[13]	Из-за больших ресурсов (данных и вычислений), необходимых для обучения алгоритмов, текущая практика заключается в повторном использованию моделей, обученных крупными корпорациями, и немного изменять их для задач (например, ResNet является популярной моделью распознавания изображений от Майкрософт). Эти модели размещаются в галерее Model Zoo (на платформе Caffe можно найти популярные модели распознавания изображений). Атака нацелена на модели, размещенные в Caffe, в результате пользователи платформы имеют все шансы получить искаженную модель.	Целостность	Исследователи показали, как злоумышленник может внедрить вредоносный код в одну из популярных моделей. Ничего не подозревающий разработчик решений машинного обучения скачивает такую модель и использует ее как часть системы распознавания образов в своем коде[14]. Авторы показали, что в Caffe существует модель, хэш-код алгоритма SHA1 которой НЕ соответствует хэш-коду автора, что указывает на ее незаконное изменение. На указанной платформе существует 22 модели, для которых вообще не указан хэш-код алгоритма SHA-1, позволяющий проверить целостность.
10	Лазейка в машинном обучении	Как и в случае атаки цепочки поставок услуг машинного обучения, в этом сценарии для полного или частичного обучения используются услуги внешней вредоносной стороны, которая хочет предоставить пользователю обученную модель с лазейкой. Модель с лазейкой будет давать хороший результат почти для всех входных данных (в том числе входных данных, которые конечный пользователь будет использовать в качестве набора для проверки), но для входных данных, которые соответствуют некоторому секретному критерию, выбранному злоумышленником свойству,которое мы будем называть триггером лазейки, модель будет выдавать неправильную целевую классификацию или демонстрировать низкую точность	Конфиденциальность, целостность	Исследователи создали классификатор дорожных знаков США с лазейкой, который идентифицировал знаки остановки как знаки ограничения скорости, только если на знаке была специальная наклейка (триггер лазейки)[20]. Сейчас они перешли к изучению систем обработки текста, где определенные слова заменяются триггером, соответствующим акценту говорящего[15]
11	Эксплуатация зависимостей программного обеспечения в системе машинного обучения	В этой атаке злоумышленник НЕ управляет алгоритмами. Он использует традиционные уязвимости программного обеспечения, например переполнение буфера.	Конфиденциальность, целостность, доступность,	Злоумышленник отправляет поврежденные входные данные в систему распознавания образов, что приводит к неправильному распознаванию из-за использования ошибки программного обеспечения в одной из зависимостей.

Подробные сведения о непреднамеренных сбоях

Номер сценария	Класс атаки	Description	Тип нарушения	Сценарий
12	Взлом поощрения	Системы обучения с подкреплением действуют непредусмотренным образом из-за разницы между указанным поощрением и действительным предусмотренным поощрением.	Сейф сти системы	Большая база примеров для искусственного интеллекта в игровой индустрии собрана в статье [1]
13	Побочные эффекты	Система RL нарушает среду, когда она пытается достичь своей цели	Сейф сти системы	Сценарий описывается авторами статьи [2] так: «представьте, что проектировщику требуется агент обучения с подкреплением (например, наш чистящий робот) для достижения некоторой цели, например перемещения коробки из одной части комнаты в другую. Иногда для самого эффективного достижения цели требуется сделать что-то постороннее и разрушительное для всей остальной среды, например уронить вазу с водой, через которую пролегает путь. Если агенту предоставляется поощрение только за перемещение коробки, он скорее всего уронит вазу».
14	Изменения при распространении	Система тестируется в одной среде, но не может адаптироваться к изменениям в других типах среды.	Безопасность системы	Исследователи обучили два современных агента обучения с подкреплением, Rainbow DQN и A2C, в смоделированной ситуации, где необходимо избегать лаву. Во время обучения агенту обучения с подкреплением удавалось успешно избегать лаву и достигать цель. Во время тестирования позиция лавы была немного изменена, и агент обучения с подкреплением не смог избежать ее[3]
15	Естественные состязательные примеры	Система неправильно распознает входные данные, обнаруженные с использованием жесткого отрицательного интеллектуального анализа данных	Безопасность системы	В статье [4] авторы показывают, как простой процесс интеллектуального анализа отрицательных образцов с жесткими условиями может запутать систему машинного обучения путем ретрансляции примера.
16	Общее повреждение	Система не способна справиться с общими повреждениями и искажениями, например наклоном, масштабированием или зашумлением изображений.	Безопасность системы	Авторы[5] показывают, как распространенные повреждения, такие как изменения яркости, контрастности, тумана или шума, добавленных к изображениям, имеют значительное снижение метрик в распознавании изображений
17	Неполное тестирование в реальных условиях	Система машинного обучения не тестируется в реалистичных условиях, в которых она должна работать в	Безопасность системы	Авторы в статье [25] подчеркивают, что защитники такого подхода обычно в качестве обоснования приводят надежность алгоритма машинного обучения, но они не учитывают реалистичные условия. Например, они скорее поверят в то, что злоумышленник попытается исказить входные данные системы, чем в то, что знак остановки мог снести ветер (что является более реалистичным).

Благодарности

Мы хотели бы поблагодарить Эндрю Маршалла (Andrew Marshall), Магнуса Нистрома (Magnus Nystrom), Джона Уолтона (John Walton), Джона Ламберта (John Lambert), Шэрон Си (Sharon Xia), Энди Комиссонеру (Andi Comissoneru), Емре Кисимана (Emre Kiciman), Джугала Парикх (Jugal Parikh), Шэрон Джиллет (Sharon Gillet), специалистов по рабочему потоку обеспечения безопасности комитета Майкрософт по искусственному интеллекту и этике в сфере проектирования и исследования, Амара Ашара (Amar Ashar), Самуэля Клейна (Samuel Klein), Джонатана Зиттрейна (Jonathan Zittrain), участников рабочей группы по безопасности искусственного интеллекта в компании Berkman Klein за предоставление полезных отзывов. Мы также хотели поблагодарить рецензентов, представляющих 23 внешних партнера, организацию по стандартизации и правительственные учреждения, за формирование классификации.

Список литературы

[1] Ли, Гуфу и т. д. "Вопросы безопасности: Опрос по состязательному Машинное обучение". arXiv preprint arXiv:1810.07339 (2018).

[2] Chakraborty, Anirban, et al. "Состязательные атаки и обороны: опрос". arXiv preprint arXiv:1810.00069 (2018).

3. Ortega, Pedro, and Vishal Maini. "Создание безопасного искусственного интеллекта: спецификация, надежность и уверенность". Блог deepMind Сейф ty Research (2018).

[4] Amodei, Dario, et al. "Конкретные проблемы в безопасности ИИ". arXiv preprint arXiv:1606.06565 (2016).

[5] Шанкар Сива Кумар, Рам и т. д. "Закон и состязательный Машинное обучение". arXiv preprint arXiv:1810.10731 (2018).

[6] Кало, Райан, и т. д. "Обманывает робот взлома?" Университет Вашингтонской школы научных исследований 2018-05 (2018).

[7] Paschali, Magdalini, et al. "Обобщение и надежность: состязательные примеры для медицинской визуализации". arXiv preprint arXiv:1804.00504 (2018).

8. Ebrahimi, Javid, Daniel Lowd, and Dejing Dou. "В состязательные примеры для перевода нейронных машин на уровне символов". arXiv preprint arXiv:1806.09030 (2018)

9. Carlini, Nicholas, and David Wagner. "Звуковые состязательные примеры: целевые атаки на речь в тексте". ArXiv preprint arXiv:1801.01944 (2018).

[10] Jagielski, Мэтью, и др. "Управление машинным обучением: отравление атак и контрмер для регрессии обучения". arXiv preprint arXiv:1804.00308 (2018)

11. [https://blogs.microsoft.com/blog/2016/03/25/learning-tays-introduction/]

[12] Фредриксон М, Jha S, Ristenpart T. 2015. Model inversion attacks that exploit confidence information and basic countermeasures

[13] Шокри R, Стронати М, Песня C, Шматиков V. 2017. Membership inference attacks against machine learning models. In Proc. of the 2017 IEEE Symp. on Security and Privacy (SP), San Jose, CA, 22–24 May 2017, pp. 3–18. Нью-йорк, нью-йорк: IEEE.

[14] Трамер, Флориан и др. "Кража Машинное обучение моделей с помощью API прогнозирования". Семинар по безопасности USENIX. 2016 г.

15. Elsayed, Gamaleldin F., Ian Goodfellow, and Jascha Sohl-Dickstein. "Состязательный перепрограммирование нейронных сетей". arXiv preprint arXiv:1806.11146 (2018).

16. Athalye, Anish, and Ilya Sutskever. "Синтезирование надежных состязательные примеры". arXiv preprint arXiv:1707.07397(2017)

[17] Шариф, Махмуд и т. д. "Состязательные генеривные сети: атаки нейронной сети на распознавание лиц ".arXiv preprint arXiv:1801.00349 (2017).

[19] Сяо, Киксуэ и др. "Риски безопасности в глубоких Обучение реализации". arXiv preprint arXiv:1711.11008 (2017).

20. Gu, Tianyu, Brendan Dolan-Gavitt, and Siddharth Garg. "Badnets: выявление уязвимостей в цепочке поставок модели машинного обучения". arXiv preprint arXiv:1708.06733 ( 2017)

21. [https://www.wired.com/story/machine-learning-backdoors/]

22. [https://docs.google.com/spreadsheets/d/e/2PACX-1vRPiprOaC3HsCf5Tuum8bRfzYUiKLRqJmbOoC-32JorNdfyTiRRsR7Ea5eWtvsWzuxo8bjOxCG84dAg/pubhtml]

[23] Amodei, Dario и др. "Конкретные проблемы в безопасности ИИ". arXiv preprint arXiv:1606.06565 (2016).

[24] Лейк, Ян, и т. д. "AI safety gridworlds". arXiv preprint arXiv:1711.09883 (2017).

[25] Гилмер, Джастин и др. "Мотивируя правила игры для состязательного примера исследования". arXiv preprint arXiv:1807.06732 (2018).

26. Hendrycks, Dan, and Thomas Dietterich. "Тестирование надежности нейронной сети для распространенных повреждений и возмущений". arXiv preprint arXiv:1903.12261 (2019).