Поделиться через


Разработка ответственных приложений и функций ИИ в Windows

В этом документе представлен обзор рекомендуемых рекомендаций по разработке, используемых при создании приложений и функций в Windows с генерируемым искусственным интеллектом.

Генеративные модели ИИ на устройстве Windows AI Foundry могут помочь вам внедрить функции безопасности локального контента, такие как подсистемы классификации на устройстве для вредного содержимого и список блокировок по умолчанию. Корпорация Майкрософт определяет приоритеты, поддерживающие разработчиков для создания безопасных и надежных возможностей искусственного интеллекта с локальными моделями в Windows.

Рекомендации по ответственной разработке созданных приложений и функций ИИ в Windows

Каждая команда корпорации Майкрософт следует основным принципам и методикам ответственного создания и отправки ИИ, включая Windows. Дополнительные сведения о подходе Корпорации Майкрософт к ответственной разработке см. в отчете о прозрачности ответственного искусственного интеллекта Майкрософт. Windows следует базовым основам разработки RAI — управление, сопоставление, измерение и управление ими , которые выровнены с Национальным институтом стандартов и технологий (NIST) AI Risk Management Framework.

Управление — политики, практики и процессы

Стандарты являются основой процессов управления и соответствия требованиям. Корпорация Майкрософт разработала свой собственный стандарт ответственного ИИ, включая шесть принципов , которые можно использовать в качестве отправной точки для разработки рекомендаций по ответственному ИИ. Мы рекомендуем создать принципы ИИ в конце жизненного цикла разработки, а также в процессы и рабочие процессы для соответствия законам и нормативным требованиям в области конфиденциальности, безопасности и ответственного ИИ. Это касается ранней оценки каждой функции ИИ, используя такие инструменты, как контрольный список ИИ и рекомендации по Human-AI взаимодействию — Microsoft Research, для мониторинга и проверки эталонов ИИ, тестирования и процессов с помощью таких средств, как системы показателей ответственного ИИ, для общедоступной документации в возможности и ограничения функций ИИ, а также раскрытия и контроля пользователей, обратите внимание, согласие, сбор и обработка информации и т. д. в соответствии с применимыми законами о конфиденциальности, нормативными требованиями и политиками.

Карта — определение риска

Ниже приведены рекомендации по выявлению рисков.

Сквозное тестирование

Сквозное тестирование оценивает всю систему искусственного интеллекта от начала до завершения, чтобы гарантировать, что она работает в соответствии с установленными стандартами. Такой комплексный подход может включать:

Красная команда

Термин red teaming исторически описывает систематические противоборствующие атаки для тестирования уязвимостей безопасности. В последнее время термин расширялся за рамки традиционной кибербезопасности и развивался в общем использовании, чтобы описать множество видов проверки, тестирования и атаки систем искусственного интеллекта.

При использовании больших языковых моделей (LLMs) и небольших языковых моделей (SLM) как доброкачественное, так и состязательное использование могут создавать потенциально вредные выходные данные, которые могут принимать множество форм, включая ненавистнические речи, подстрекательство или славение насилия, или сексуального содержимого. Тщательный ред тиминг дает возможность протестировать вашу систему и уточнить стратегию контента, чтобы уменьшить вероятность того, что ваша система может нанести вред.

Все системы ИИ, в зависимости от их функций и целей, должны проходить тестирование силами независимой команды: как системы с высоким уровнем риска, использующие генерирующий ИИ, так и системы низкого риска, использующие негенерирующий ИИ.

  • Официальный ред-тиминг: независимый ред-тиминг должен быть проведен для всех систем с высоким риском, использующих генеративный ИИ с помощью больших языковых моделей (LLM). Формальное участие в "red teaming" включает привлечение специалистов извне вашей организации для участия в подобных мероприятиях.

  • Внутренняя команда красных: по крайней мере запланируйте внутреннюю командную группу для всех систем с низким риском, не генерирующих ИИ. Это можно сделать пользователями в вашей организации.

Узнайте больше о красной команде и о том, как оценить потребности в красной команде вашей системы: Microsoft AI Red Team

Оценка модели

В рамках комплексного тестирования важно оценить саму модель.

  • Карточка модели. Для общедоступных моделей, таких как huggingFace, вы можете проверить карточку модели каждой модели в качестве удобной ссылки, чтобы понять, подходит ли модель для вашего варианта использования. Дополнительные сведения о карточках моделей.

  • Ручное тестирование: люди, выполняющие пошаговые тесты без сценариев, являются важным компонентом оценки модели, которая поддерживает...

    • Измерение хода выполнения по небольшому набору приоритетных вопросов. При устранении конкретных последствий наиболее продуктивно проверять ход выполнения вручную с небольшим набором данных до тех пор, пока вред больше не будет наблюдаться перед переходом к автоматическому измерению.

    • Определение и создание отчетов метрик до тех пор, пока автоматическое измерение не будет достаточно надежным для использования только.

    • Периодически проверяйте качество автоматического измерения.

  • Автоматическое тестирование: автоматическое тестирование также является важным компонентом оценки модели, которая поддерживает...

    • Измерение в большом масштабе с увеличением охвата, чтобы обеспечить более полные результаты.

    • Текущее измерение для отслеживания любой регрессии по мере развития системы, использования и устранения рисков.

  • Выбор модели: Выберите модель, которая подходит для вашей цели и обучать себя, чтобы понять его возможности, ограничения и потенциальные проблемы безопасности. При тестировании модели убедитесь, что она создает результаты, соответствующие вашему использованию. Чтобы приступить к работе, источники моделей Майкрософт (и не microsoft/открытый код) включают:

Мера. Оценка рисков и устранение рисков

Рекомендуемые методики:

  • Назначьте Content Moderator: Content Moderator проверяет текст, изображение и видеоматериалы для материалов, которые потенциально оскорбительны, рискованные или нежелательные в содержимом. Дополнительные сведения: введение в Content Moderator (Обучение Microsoft Learn).

    • Используйте фильтры безопасности содержимого: этот ансамбль моделей классификации с несколькими классами обнаруживает четыре категории вредного содержимого (насилие, ненависть, сексуальное и самообредение) на различных уровнях серьезности (низкий, средний и высокий). Дополнительные сведения. Настройка фильтров содержимого с помощью Службы Azure OpenAI.

    • Примените мета-запрос: Мета-запрос — это системное сообщение, включенное в начало запроса и используется для создания модели с контекстом, инструкциями или другими сведениями, соответствующими вашему варианту использования. Эти инструкции используются для руководства по поведению модели. Дополнительные сведения: создание эффективных направляющих по безопасности с помощью метапромптов и системной проработки сообщений.

    • Используйте блок-списки: Это блокирует использование определенных терминов или шаблонов в запросе. Дополнительные сведения. Использование списка блокировок в Azure OpenAI.

    • Знакомство с происхождением модели: Происхождение — это история владения моделью, или кто-что-где-когда, и очень важно понимать. Кто собрал данные в модели? Кто относится к данным? Какой тип данных используется? Где были собраны данные? Когда были собраны данные? Зная, откуда пришли данные модели, вы можете оценить его качество, надежность и избежать любого неэтичного, несправедливого, предвзятого или неточного использования данных.

    • Используйте стандартный конвейер: используйте один конвейер модерации содержимого, а не собирайте части по отдельности. Дополнительные сведения. Что такое конвейеры машинного обучения Azure?.

  • Применениесмягчений пользовательского интерфейса: Это обеспечивает важную ясность для пользователя о возможностях и ограничения функции на основе искусственного интеллекта. Чтобы помочь пользователям и обеспечить прозрачность вашей функции, вы можете:

    • Поощряйте пользователей изменять выходные данные перед принятием их

    • Выделение потенциальных неточностей в выходных данных искусственного интеллекта

    • Раскрытие роли ИИ в взаимодействии

    • Ссылки и источники на Cite

    • Ограничение длины входных и выходных данных при необходимости

    • Предоставление структуры входных или выходных данных— запросы должны соответствовать стандартному формату

    • Подготовьте предварительно определенные ответы для спорных запросов.

  • Реализуйте циклы отзывов клиентов: Поощряйте пользователей активно участвовать в циклах отзывов:

    • Попросите отзыв непосредственно в приложении или продукте с помощью простого механизма обратной связи, доступного в контексте в рамках взаимодействия с пользователем.

    • Применяйте методы социального мониторинга на каналах, которые используют ваши клиенты для начальных обсуждений вопросов, связанных с функциями, беспокойством и возможным ущербом.

Управление — устранение рисков ИИ

Рекомендации по устранению рисков искусственного интеллекта:

  • Мониторинг злоупотреблений: Эта методология обнаруживает и устраняет экземпляры повторяющегося содержимого и (или) поведения, которые предполагают, что служба была использована таким образом, что может нарушить кодекс поведения или другие применимые условия продукта. Дополнительные сведения: мониторинг злоупотреблений.

  • Поэтапная доставка: медленно внедряйте решение ИИ для обработки входящих отчётов и замечаний.

  • План реагирования на инциденты: для каждого риска с высоким приоритетом оцените, что произойдет и сколько времени потребуется для реагирования на инцидент, и как будет выглядеть процесс реагирования.

  • Возможность отключить функцию или систему: предоставьте возможность отключить функцию, если инцидент произошел или может произойти, что требует приостановки действия, чтобы избежать дальнейшего ущерба.

  • Управление доступом пользователей или блокировка: разработка способа блокировки пользователей, которые неправильно используют систему.

  • Отзывы пользователей: используйте механизмы для обнаружения проблем на стороне пользователя.

    • Попросите отзыв непосредственно в продукте с простым механизмом обратной связи, доступным в контексте типичного рабочего процесса.

    • Применяйте методы социального мониторинга на каналах, которые используют ваши клиенты для начальных обсуждений вопросов, связанных с функциями, беспокойством и возможным ущербом.

  • Ответственное развертывание данных телеметрии: определение, сбор и мониторинг сигналов, указывающих на удовлетворенность пользователей или их способность использовать систему в соответствии с соответствующими законами о конфиденциальности, политиками и обязательствами. Используйте данные телеметрии для выявления пробелов и улучшения системы.

Инструменты и ресурсы