Поделиться через


Сводки по решениям ИИ и машинного обучения: дополнение к шкале ошибок жизненного цикла разработки решений для обеспечения безопасности

Эндрю Маршалл, Джугал Парих, Эмре Кичиман, и Рам Шанкар Сива Кумар

Ноябрь 2019 г.

Эта статья представляет собой доставить рекомендации по проектированию Microsoft AETHER для рабочей группы ИИ. Эта статья служит дополнением к существующей панели ошибок SDL, используемой для обработки традиционных уязвимостей безопасности. Он предназначен для использования в качестве ссылки для рассмотрения проблем безопасности, связанных с искусственным интеллектом и машинным обучением. Классификация серьезности уязвимостей для систем ИИ (опубликованная Центром реагирования майкрософт) определяет распространенные типы уязвимостей и уровни серьезности для систем с использованием ИИ.

Это руководство организовано вокруг состязательной Машинное обучение таксономии угроз, созданной Рамом Шенкаром Кумаром, Дэвидом О'Брайен, Кендра Альбертом, Саломом Вильхоэном и Джеффри Snover, а также называется режимами сбоя в Машинное обучение. Хотя исследование этого содержимого основано на адресах как преднамеренного, так и вредоносного и случайного поведения в режимах сбоя машинного обучения, эта панель ошибок полностью ориентирована на преднамеренное/вредоносное поведение, которое приведет к инциденту безопасности и /или развертыванию исправления.

Угроза Описание, риски для бизнеса и примеры
Подделка данных

Повреждение обучающих данных — конечная цель злоумышленника заключается в том, чтобы загрязнить модель компьютера, созданную на этапе обучения, чтобы прогнозы на новых данных были изменены на этапе тестирования.

При целевых атаках с отравлением данных злоумышленник стремится изменить классификационную принадлежность определенных примеров, чтобы заставить систему выполнять или пропускать определенные действия.

Антивирусное программное обеспечение преподносится как вредоносное, что позволяет включить его в категорию вредоносного ПО и запретить его использование в клиентских системах.

Компания привлекает хорошо известный и надежный веб-сайт с фьючерсными данными для обучения своих моделей. Затем веб-сайт поставщика данных скомпрометирован с помощью атаки внедрения SQL. Злоумышленник может отравить набор данных, а обученная модель не имеет понятия о том, что данные запятнаются.

Захват модели

Воссоздание базовой модели с помощью подлинного запроса. Новая модель по своим функциональным возможностям аналогична базовой модели. По воссозданной модели путем инверсии можно восстановить сведения о признаках или получить представление о данных для обучения.

Решение уравнений. Злоумышленник может создать запросы, позволяющие определить неизвестные переменные в модели, возвращающей вероятности класса через выходные данные API.

Поиск пути — атака, которая использует особенности API для извлечения "решений", принятых деревом при классификации входных данных.

Атака с переносом. Злоумышленник может обучить локальную модель (например, отправляя прогнозирующие запросы к целевой модели) и использовать ее для создания состязательных примеров, которые передаются в целевую модель. Получив копию вашей модели и обнаружив ее уязвимость к определенному типу состязательных входных данных, злоумышленник может в автономном режиме разрабатывать новые атаки на модель, развернутую в вашей рабочей среде.

В системах, где модель машинного обучения служит для обнаружения вредоносного поведения, например для идентификации спама, классификации вредоносных программ и обнаружения аномалий в сети, извлечение моделей может облегчить атаки с обходом.

Инверсия модели

Секретные механизмы используемые в моделях машинного обучения, можно восстановить. Это включает в себя восстановление частных обучающих данных, к которым злоумышленник не имеет доступа. Атака осуществляется путем поиска входных данных, максимально увеличивающих возвращаемый доверительный уровень, с учетом классификации, соответствующей целевой модели.

Пример: восстановление данных распознавания лиц из угаданных или известных имен и доступа к API для запроса модели.

Состязательный пример в материальном мире Эти примеры могут проявляться в физическом домене, как самоуправляемый автомобиль, обманутый в выполнении знака остановки из-за определенного цвета света (состязательный вход), который сияет на знак остановки, заставляя систему распознавания изображений больше не видеть знак остановки как знак остановки.
Атака на цепочку поставок машинного обучения

Из-за больших ресурсов (данных и вычислений), необходимых для обучения алгоритмов, текущая практика заключается в повторном использованию моделей, обученных крупными корпорациями, и немного изменять их для задач (например, ResNet является популярной моделью распознавания изображений от Майкрософт).

Эти модели размещаются в галерее Model Zoo (на платформе Caffe можно найти популярные модели распознавания изображений).

Атака нацелена на модели, размещенные в Caffe, в результате пользователи платформы имеют все шансы получить искаженную модель.

Алгоритм-лазутчик от злонамеренного поставщика машинного обучения

Компрометация базового алгоритма

Злонамеренный поставщик машинного обучения как услуги задействует алгоритм-лазутчик, позволяющий реконструировать закрытые обучающие данные. Благодаря этому злоумышленник может воссоздать конфиденциальные данные, такие как лица и тексты, используя только модель.

Перепрограммирование нейронной сети

С помощью специально созданного запроса от злоумышленника системы машинного обучения можно перепрограммировать в задачу, которая отклоняется от первоначального намерения создателя.

Неэффективные элементы управления доступом в API распознавания лиц, позволяющие сторонним лицам встраивать приложения, предназначенные для причинения вреда пользователям, например, генератор наложенных изображений (дипфейков).

Такой сценарий призван оскорбить или унизить человека.

Состязательное искажение

При искажающих атаках злоумышленник незаметно изменяет запрос, чтобы получить нужный ответ от модели, развернутой в рабочей среде. Это нарушение целостности входных данных модели, что приводит к нечетким атакам стиля, когда конечный результат не обязательно является нарушением доступа или EOP. Вместо этого она компрометирует производительность классификации модели.

Это может быть манифестировано троллями с помощью определенных целевых слов таким образом, что ИИ запрещает им, эффективно запрещая службе законным пользователям имя, соответствующее "запрещенному" слову.

Принудительная классификация полезных сообщений как спама или предотвращение обнаружения вредоносного примера. Эта уловка также известна, как искажение модели или имитационные атаки.

Злоумышленник может создать входные данные, позволяющие уменьшить доверительный уровень правильной классификации, особенно в сценариях, влекущих серьезные последствия. Атака также может осуществляться в виде потока ложных срабатываний, призванных перегрузить администраторов или системы мониторинга сфальсифицированными оповещениями, которые невозможно отличить от истинных.

Определение членства

Позволяет сделать заключение о принадлежности конкретного элемента к группе, используемой для обучения модели

Пример: прогнозирование хирургических операций на основе данных о возрасте, поле и больнице