Сводки по решениям ИИ и машинного обучения: дополнение к шкале ошибок жизненного цикла разработки решений для обеспечения безопасности

Эндрю Маршалл, Джугал Парих, Эмре Кичиман, и Рам Шанкар Сива Кумар

Ноябрь 2019 г.

Эта статья является результатом применения инженерных практик Microsoft AETHER для рабочей группы по ИИ. Эта статья служит дополнением к существующей панели ошибок SDL, используемой для обработки традиционных уязвимостей безопасности. Он предназначен для использования в качестве ссылки для рассмотрения проблем безопасности, связанных с искусственным интеллектом и машинным обучением. Классификация серьезности уязвимостей для систем ИИ (опубликованная Центром реагирования майкрософт) определяет распространенные типы уязвимостей и уровни серьезности для систем с использованием ИИ.

Это руководство организовано вокруг таксономии угроз состязательного машинного обучения, созданной Рамом Шанкаром Сива Кумаром, Дэвидом О'Брайеном, Кендрой Альберт, Саломе Вильхоеном и Джеффри Сновером, а также называется Режимы сбоев в машинном обучении. Хотя исследование этого содержимого охватывает как намеренное/злонамеренное, так и случайное поведение в режимах сбоев машинного обучения, это дополнение к уровню ошибок полностью ориентировано на намеренное/злонамеренное поведение, которое может привести к инциденту безопасности и/или развертыванию исправления.

Угроза Описание, риски для бизнеса и примеры
Отравление данных

Повреждение обучающих данных — конечная цель злоумышленника заключается в том, чтобы загрязнить модель компьютера, созданную на этапе обучения, чтобы прогнозы на новых данных были изменены на этапе тестирования.

При целевых атаках с отравлением данных злоумышленник стремится изменить классификационную принадлежность определенных примеров, чтобы заставить систему выполнять или пропускать определенные действия.

Представление антивирусного программного обеспечения как вредоносного с целью его ошибочной классификации как зловредного и устранения его использования в клиентских системах.

Компания собирает данные с известных и надёжных веб-сайтов, содержащих информацию о фьючерсах, для обучения своих моделей. Затем веб-сайт поставщика данных скомпрометирован с помощью атаки SQL-инъекции. Злоумышленник может отравить набор данных, а обученная модель не имеет понятия о том, что данные запятнаются.

Кража модели

Воссоздание базовой модели с помощью легитимного запроса. Новая модель по своим функциональным возможностям аналогична базовой модели. После воссоздания модель можно инвертировать, чтобы восстановить информацию о признаках или делать выводы о данных для обучения.

Решение уравнений. Злоумышленник может создать запросы, позволяющие определить неизвестные переменные в модели, возвращающей вероятности класса через выходные данные API.

Поиск пути — атака, которая использует особенности API для извлечения "решений", принятых деревом при классификации входных данных.

Атака с переносом. Злоумышленник может обучить локальную модель (например, отправляя прогнозирующие запросы к целевой модели) и использовать ее для создания состязательных примеров, которые передаются в целевую модель. Если ваша модель извлечена и обнаружена как уязвимая к определенному типу враждебного входа, злоумышленник, получивший копию вашей модели, может разрабатывать новые атаки на развернутую в вашей производственной среде модель полностью в автономном режиме.

В системах, где модель машинного обучения служит для обнаружения вредоносного поведения, например для идентификации спама, классификации вредоносных программ и обнаружения аномалий в сети, извлечение моделей может облегчить атаки с обходом.

Инверсия модели

Секретные механизмы используемые в моделях машинного обучения, можно восстановить. Это включает в себя восстановление частных обучающих данных, к которым злоумышленник не имеет доступа. Это достигается путем поиска входных данных, которые максимально увеличивают вероятность, при условии, что классификация совпадает с соответствующей целью.

Пример: восстановление данных распознавания лиц из угаданных или известных имен и доступа к API для запроса модели.

Пример атаки в физической области Эти примеры могут проявляться в физическом мире, как в случае самоуправляемого автомобиля, который обманули, заставив проехать знак остановки из-за определенного цвета света (состязательный вход), направленного на знак остановки, что заставляет систему распознавания изображений перестать видеть его как знак остановки.
Атака на цепочку поставок машинного обучения

Из-за больших ресурсов (данных и вычислений), необходимых для обучения алгоритмов, текущая практика заключается в повторном использованию моделей, обученных крупными корпорациями, и немного изменять их для задач (например, ResNet является популярной моделью распознавания изображений от Майкрософт).

Эти модели размещаются в галерее Model Zoo (на платформе Caffe можно найти популярные модели распознавания изображений).

В этой атаке противник атакует модели, размещенные в Caffe, тем самым отравляя источник для всех остальных.

Алгоритм с задней дверью от злонамеренного поставщика машинного обучения

Компрометация базового алгоритма

Злонамеренный провайдер машинного обучения как услуги (MLaaS) представляет алгоритм с бекдором, позволяющий восстановить приватные обучающие данные. Благодаря этому злоумышленник может воссоздать конфиденциальные данные, такие как лица и тексты, используя только модель.

Перепрограммирование нейронной сети

С помощью специально созданного запроса от злоумышленника системы машинного обучения можно перепрограммировать в задачу, которая отклоняется от первоначального намерения создателя.

Неэффективные элементы управления доступом в API распознавания лиц, позволяющие сторонним лицам интегрировать в приложения, предназначенные для причинения вреда пользователям, например, генератор дипфейков.

Это сценарий удаления аккаунта из-за злоупотреблений.

Враждебное воздействие

При искажающих атаках злоумышленник незаметно изменяет запрос, чтобы получить нужный ответ от модели, развернутой в рабочей среде. Это нарушение целостности входных данных модели, что приводит к атакам фаззинг-стиля, где конечный результат не обязательно является нарушением доступа или EOP. Вместо этого она компрометирует производительность классификации модели.

Это может выражаться в том, что тролли используют определенные целевые слова таким образом, что искусственный интеллект блокирует их, фактически лишая доступа к сервису законных пользователей, чьи имена совпадают с "запрещенными" словами.

Принудительная классификация полезных сообщений как спама или предотвращение обнаружения вредоносного примера. Эта уловка также известна, как искажение модели или имитационные атаки.

Злоумышленник может создать входные данные, позволяющие уменьшить доверительный уровень правильной классификации, особенно в сценариях, влекущих серьезные последствия. Атака также может осуществляться в виде потока ложных срабатываний, призванных перегрузить администраторов или системы мониторинга сфальсифицированными оповещениями, которые невозможно отличить от истинных.

Определение членства

Позволяет сделать заключение о принадлежности конкретного элемента к группе, используемой для обучения модели

Пример: прогнозирование хирургических операций на основе данных о возрасте, поле и больнице