Сводки по решениям ИИ и машинного обучения: дополнение к шкале ошибок жизненного цикла разработки решений для обеспечения безопасности

Авторы: Эндрю Маршалл (Andrew Marshall), Джугал Парикх (Jugal Parikh), Емре Кисиман (Emre Kiciman) и Рам Шанкар Шива Кумар (Ram Shankar Siva Kumar)

Ноябрь 2019 г.

Этот документ получен в результате применения инженерных методик, разработанных консультативным советом AETHER Майкрософт для рабочей группы по технологиям ИИ. Он играет роль дополнения к существующей шкале ошибок жизненного цикла разработки решений для обеспечения безопасности, используемой для рассмотрения традиционных уязвимостей системы безопасности. Документ предлагается использовать в качестве справочного пособия при рассмотрении проблем безопасности, связанных с ИИ и машинным обучением. Более подробные сведения об анализе угроз и их устранении см. в статье Моделирование угроз для решений ИИ и машинного обучения: системы и зависимости.

В этом руководстве широко используется таксономия угроз состязательного машинного обучения под названием Режимы сбоев в машинном обучении, разработанная Рамом Шанкаром Шивой Кумаром (Ram Shankar Siva Kumar), Дэвидом О’Брайеном (David O’Brien), Кендрой Альберт (Kendra Albert), Саломе Фильюн (Salome Viljoen) и Джеффри Сновером (Jeffrey Snover). Обратите внимание: в исследовании, на основе которого создан этот документ, анализируются не только намеренные либо вредоносные действия, но и случайные вмешательства, вызывающие сбои машинного обучения, однако в настоящем дополнении к шкале ошибок рассматриваются только намеренные или вредоносные действия, способные привести к инциденту безопасности и/или развертыванию исправления.

Threat Severity Описание, риски для бизнеса и примеры
Подделка данных От важного до критического

Повреждение обучающих данных. Конечная цель злоумышленника — испортить машинную модель, созданную на этапе обучения, чтобы на этапе тестирования изменились прогнозы, основанные на новых данных.

При целевых "отравляющих" атаках злоумышленник стремится изменить классификационную принадлежность определенных примеров, чтобы заставить систему выполнять или пропускать определенные действия.

Антивирусное программное обеспечение преподносится как вредоносное, что позволяет включить его в категорию вредоносного ПО и запретить его использование в клиентских системах.

Компания привлекает хорошо известный и надежный веб-сайт с фьючерсными данными для обучения своих моделей. После этого веб-сайт поставщика данных подвергается атаке путем внедрения кода SQL. Злоумышленник может исказить набор данных в соответствии со своими целями, но обучаемая модель не будет знать о том, что данные подделаны.

Захват модели От важного до критического

Воссоздание базовой модели с помощью подлинного запроса. Новая модель по своим функциональным возможностям аналогична базовой модели. По воссозданной модели путем инверсии можно восстановить сведения о признаках или получить представление о данных для обучения.

Решение уравнения. Злоумышленник может создать запросы, позволяющие определить неизвестные переменные в модели, возвращающей вероятности класса через выходные данные API.

Нахождение пути. Эта атака использует особенности API для извлечения "решений", принятых деревом при классификации входных данных.

Атака с переносом. Злоумышленник может обучить локальную модель (например, отправляя прогнозирующие запросы к целевой модели) и использовать ее для создания состязательных примеров, которые передаются в целевую модель. Получив копию вашей модели и обнаружив ее уязвимость к определенному типу входных состязательных данных, злоумышленник может в автономном режиме разрабатывать новые атаки на модель, развернутую в вашей рабочей среде.

В системах, где модель машинного обучения служит для обнаружения вредоносного поведения, например для идентификации спама, классификации вредоносных программ и обнаружения аномалий в сети, извлечение моделей может облегчить атаки с обходом.

Инверсия модели От важного до критического

Секретные механизмы используемые в моделях машинного обучения, можно восстановить. К этим методам относится, в частности, реконструкция закрытых обучающих данных, к которым у злоумышленника нет доступа. Атака осуществляется путем поиска входных данных, максимально увеличивающих возвращаемый доверительный уровень, с учетом классификации, соответствующей целевой модели.

Пример Реконструкция данных распознавания лиц, связанных с предполагаемыми или известными именами, при наличии доступа к API для отправки запроса к модели.

Состязательный пример в материальном мире Critical Состязательные примеры способны воздействовать на материальный мир. Например, они могут заставить беспилотный автомобиль проехать на стоп-сигнал светофора, потому что на нем загорелся цвет (вредоносные входные данные), который система распознавания изображений больше не воспринимает как знак обязательной остановки.
Атака на цепочку поставок машинного обучения Critical

Для обучения алгоритмов требуется много ресурсов (данных и вычислений), поэтому сейчас популярно использование моделей, обученных крупными корпорациями, которые адаптируются для требуемых задач (например, ResNet — это популярная модель распознавания изображений от Майкрософт).

Эти модели размещаются в галерее Model Zoo (на платформе Caffe можно найти популярные модели распознавания изображений).

Атака нацелена на модели, размещенные в Caffe, в результате пользователи платформы имеют все шансы получить искаженную модель.

Алгоритм-лазутчик от злонамеренного поставщика машинного обучения Critical

Компрометация базового алгоритма

Злонамеренный поставщик машинного обучения как услуги задействует алгоритм-лазутчик, позволяющий реконструировать закрытые обучающие данные.  Благодаря этому злоумышленник может воссоздать конфиденциальные данные, такие как лица и тексты, используя только модель.

Перепрограммирование нейронной сети От важного до критического

С помощью специально созданного запроса злоумышленник может перепрограммировать системы машинного обучения на выполнение задач, не предусмотренных их создателями.

Неэффективные элементы управления доступом в API распознавания лиц, позволяющие сторонним лицам встраивать приложения, предназначенные для причинения вреда пользователям, например, генератор наложенных изображений (дипфейков).

Такой сценарий призван оскорбить или унизить человека.

Состязательное искажение От важного до критического

При искажающих атаках злоумышленник незаметно изменяет запрос, чтобы получить нужный ответ от модели, развернутой в рабочей среде. Это нарушает целостность входных данных модели, что приводит к атакам методом фаззинга, которые не обязательно нацелены на нарушение прав доступа или завершение работы программы. Вместо этого они нарушают способность модели к классификации.

Это могут быть интернет-тролли, применяющие определенные слова таким образом, чтобы ИИ запрещал их использование. Такой прием позволяет эффективно отказывать в обслуживании законному пользователю, имя которого совпадает с запрещенным словом.

Принудительная классификация полезных сообщений как спама или предотвращение обнаружения состязательного примера. Эта уловка также известна как обход модели или подражательные атаки.

Злоумышленник может создать входные данные, позволяющие уменьшить доверительный уровень правильной классификации, особенно в сценариях, влекущих серьезные последствия. Атака также может осуществляться в виде потока ложных срабатываний, призванных перегрузить администраторов или системы мониторинга сфальсифицированными оповещениями, которые невозможно отличить от истинных.

Определение членства От умеренного до критического

Позволяет сделать заключение о принадлежности конкретного элемента к группе, используемой для обучения модели

Пример: прогнозирование хирургических операций на основе данных о возрасте, поле и больнице