Сводки по решениям ИИ и машинного обучения: дополнение к шкале ошибок жизненного цикла разработки решений для обеспечения безопасности

Авторы: Эндрю Маршалл (Andrew Marshall), Джугал Парикх (Jugal Parikh), Емре Кисиман (Emre Kiciman) и Рам Шанкар Шива Кумар (Ram Shankar Siva Kumar)

Ноябрь 2019 г.

Этот документ получен в результате применения инженерных методик, разработанных консультативным советом AETHER Майкрософт для рабочей группы по технологиям ИИ. Он играет роль дополнения к существующей шкале ошибок жизненного цикла разработки решений для обеспечения безопасности, используемой для рассмотрения традиционных уязвимостей системы безопасности. Документ предлагается использовать в качестве справочного пособия при рассмотрении проблем безопасности, связанных с ИИ и машинным обучением. Более подробные сведения об анализе угроз и их устранении см. в статье Моделирование угроз для решений ИИ и машинного обучения: системы и зависимости.

В этом руководстве широко используется таксономия угроз состязательного машинного обучения под названием Режимы сбоев в машинном обучении, разработанная Рамом Шанкаром Шивой Кумаром (Ram Shankar Siva Kumar), Дэвидом О’Брайеном (David O’Brien), Кендрой Альберт (Kendra Albert), Саломе Фильюн (Salome Viljoen) и Джеффри Сновером (Jeffrey Snover). Обратите внимание: в исследовании, на основе которого создан этот документ, анализируются не только намеренные либо вредоносные действия, но и случайные вмешательства, вызывающие сбои машинного обучения, однако в настоящем дополнении к шкале ошибок рассматриваются только намеренные или вредоносные действия, способные привести к инциденту безопасности и/или развертыванию исправления.

Угроза Важность Описание, риски для бизнеса и примеры
Подделка данных От важного до критического

Повреждение обучающих данных. Конечная цель злоумышленника — испортить машинную модель, созданную на этапе обучения, чтобы на этапе тестирования изменились прогнозы, основанные на новых данных.

При целевых атаках с отравлением данных злоумышленник стремится изменить классификационную принадлежность определенных примеров, чтобы заставить систему выполнять или пропускать определенные действия.

Антивирусное программное обеспечение преподносится как вредоносное, что позволяет включить его в категорию вредоносного ПО и запретить его использование в клиентских системах.

Компания привлекает хорошо известный и надежный веб-сайт с фьючерсными данными для обучения своих моделей. После этого веб-сайт поставщика данных подвергается атаке путем внедрения кода SQL. Злоумышленник может исказить набор данных в соответствии со своими целями, но обучаемая модель не будет знать о том, что данные подделаны.

Захват модели От важного до критического

Воссоздание базовой модели с помощью подлинного запроса. Новая модель по своим функциональным возможностям аналогична базовой модели. По воссозданной модели путем инверсии можно восстановить сведения о признаках или получить представление о данных для обучения.

Решение уравнений. Злоумышленник может создать запросы, позволяющие определить неизвестные переменные в модели, возвращающей вероятности класса через выходные данные API.

Нахождение пути. Эта атака использует особенности API для извлечения "решений", принятых деревом при классификации входных данных.

Атака с переносом. Злоумышленник может обучить локальную модель (например, отправляя прогнозирующие запросы к целевой модели) и использовать ее для создания состязательных примеров, которые передаются в целевую модель. Получив копию вашей модели и обнаружив ее уязвимость к определенному типу состязательных входных данных, злоумышленник может в автономном режиме разрабатывать новые атаки на модель, развернутую в вашей рабочей среде.

В системах, где модель машинного обучения служит для обнаружения вредоносного поведения, например для идентификации спама, классификации вредоносных программ и обнаружения аномалий в сети, извлечение моделей может облегчить атаки с обходом.

Инверсия модели От важного до критического

Секретные механизмы используемые в моделях машинного обучения, можно восстановить. В частности, возможна реконструкция частных данных, которые использовались для обучения и к которым у злоумышленника нет доступа. Атака осуществляется путем поиска входных данных, максимально увеличивающих возвращаемый доверительный уровень, с учетом классификации, соответствующей целевой модели.

Пример: восстановление данных распознавания лиц из угаданных или известных имен и доступа к API для запроса модели.

Состязательный пример в материальном мире Критически важно Состязательные примеры способны воздействовать на материальный мир. Например, они могут заставить беспилотный автомобиль проехать на стоп-сигнал светофора, потому что на нем загорелся цвет (вредоносные входные данные), который система распознавания изображений больше не воспринимает как знак обязательной остановки.
Атака на цепочку поставок машинного обучения Критически важно

Из-за больших ресурсов (данных и вычислений), необходимых для обучения алгоритмов, текущая практика заключается в повторном использованию моделей, обученных крупными корпорациями, и немного изменять их для задач (например, ResNet является популярной моделью распознавания изображений от Майкрософт).

Эти модели размещаются в галерее Model Zoo (на платформе Caffe можно найти популярные модели распознавания изображений).

Атака нацелена на модели, размещенные в Caffe, в результате пользователи платформы имеют все шансы получить искаженную модель.

Алгоритм-лазутчик от злонамеренного поставщика машинного обучения Критически важно

Компрометация базового алгоритма

Злонамеренный поставщик машинного обучения как услуги задействует алгоритм-лазутчик, позволяющий реконструировать закрытые обучающие данные. Благодаря этому злоумышленник может воссоздать конфиденциальные данные, такие как лица и тексты, используя только модель.

Перепрограммирование нейронной сети От важного до критического

С помощью специально созданного запроса злоумышленник может перепрограммировать системы машинного обучения на выполнение задач, не предусмотренных их создателями.

Неэффективные элементы управления доступом в API распознавания лиц, позволяющие сторонним лицам встраивать приложения, предназначенные для причинения вреда пользователям, например, генератор наложенных изображений (дипфейков).

Такой сценарий призван оскорбить или унизить человека.

Состязательное искажение От важного до критического

При искажающих атаках злоумышленник незаметно изменяет запрос, чтобы получить нужный ответ от модели, развернутой в рабочей среде. Это нарушает целостность входных данных модели, что приводит к атакам методом фаззинга, которые не обязательно нацелены на нарушение прав доступа или завершение работы программы. Вместо этого они нарушают способность модели выполнять классификацию.

Это могут быть интернет-тролли, применяющие определенные слова таким образом, чтобы ИИ запрещал их использование. Такой прием позволяет эффективно отказывать в обслуживании законному пользователю, имя которого совпадает с запрещенным словом.

Принудительная классификация полезных сообщений как спама или предотвращение обнаружения вредоносного примера. Эта уловка также известна, как искажение модели или имитационные атаки.

Злоумышленник может создать входные данные, позволяющие уменьшить доверительный уровень правильной классификации, особенно в сценариях, влекущих серьезные последствия. Атака также может осуществляться в виде потока ложных срабатываний, призванных перегрузить администраторов или системы мониторинга сфальсифицированными оповещениями, которые невозможно отличить от истинных.

Определение членства От умеренного до критического

Позволяет сделать заключение о принадлежности конкретного элемента к группе, используемой для обучения модели

Пример: прогнозирование хирургических операций на основе данных о возрасте, поле и больнице