Примечание о прозрачности для оценки безопасности Azure AI Studio

Статья
10/16/2024

Внимание

Элементы, обозначенные в этой статье как (предварительная версия), сейчас предлагаются в общедоступной предварительной версии. Эта предварительная версия предоставляется без соглашения об уровне обслуживания, и мы не рекомендуем ее для рабочих нагрузок. Некоторые функции могут не поддерживаться или их возможности могут быть ограничены. Дополнительные сведения см. в статье Дополнительные условия использования Предварительных версий Microsoft Azure.

Что такое примечание о прозрачности

Система ИИ включает не только технологии, но и людей, которые будут ею пользоваться и которых она затронет, а также среду, в которой она будет развернута. Создание системы, которая подходит для ее целевой цели, требует понимания того, как работает технология, какие возможности и ограничения существуют, а также как достичь оптимальной производительности. Заметки о прозрачности Корпорации Майкрософт предназначены для понимания того, как работает наша технология ИИ, владельцы системы выбора могут сделать это влияние на производительность и поведение системы, а также важность мышления о всей системе, включая технологию, людей и окружающую среду. Вы можете использовать информационные статьи при разработке или развертывании собственной системы, а также предоставить к ним доступ пользователям, которые будут использовать вашу систему или которых она затрагивает.

Заметки о прозрачности Майкрософт являются частью более широких усилий корпорации Майкрософт по внедрению принципов искусственного интеллекта на практике. Дополнительные сведения см. в принципах ИИ Майкрософт.

Основы оценки безопасности Azure AI Studio

Введение

Оценки безопасности Azure AI Studio позволяют пользователям оценивать выходные данные их созданного приложения ИИ для рисков текстового содержимого: ненавистное и несправедливое содержимое, сексуальное содержимое, насильственное содержимое, содержимое, связанное с самоповреждения, уязвимость в тюрьме. Оценки безопасности также могут помочь создать состязательные наборы данных, чтобы ускорить и расширить операцию red-teaming. Оценки безопасности Azure AI Studio отражают обязательства Корпорации Майкрософт по обеспечению безопасной и ответственной сборки систем ИИ, эксплуатации наших принципов ответственного искусственного интеллекта.

Ключевые термины

Ненавистное и несправедливое содержание относится к любому языку, относящегося к ненависти к или несправедливому представлению отдельных лиц и социальных групп вместе с факторами, включая, но не ограничивается расой, этнической принадлежности, национальностью, полом, сексуальной ориентацией, религией, иммиграционным статусом, способностью, личным видом и размером тела. Несправедливость возникает, когда системы ИИ обрабатывают или представляют социальные группы несправедливо, создавая или способствуя социальному неравенствам.
Сексуальное содержание включает язык, относящийся к анатомическим органам и гениталиям, романтические отношения, действия, изображаемые в эротических терминах, беременности, физических сексуальных актов (включая насилие или сексуальное насилие), проституцию, порнографию и сексуальное насилие.
Насильственное содержимое включает язык, относящийся к физическим действиям, предназначенным для того, чтобы повредить, ранить, повредить или убить кого-то или что-то. Она также содержит описания оружия и оружия (и связанных сущностей, таких как производители и ассоциации).
Содержимое , связанное с самообслуживанием, включает язык, относящийся к действиям, предназначенным для того, чтобы повредить, ранить или повредить тело человека или убить себя.
Атака на ввод в тюрьму, прямая атака запроса или атаки на внедрение запросов пользователей см. в запросах пользователей на внедрение вредных входных данных в LLM для искажания действий и выходных данных. Пример команды джейл-брейк является атакой "DAN" (Do Anything Now), которая может обмануть LLM в неуместное создание контента или игнорировать ограничения, введенные системой.
Частота дефектов (риск содержимого) определяется как процент экземпляров в тестовом наборе данных, превышающий пороговое значение шкалы серьезности по всему размеру набора данных.
Red-teaming исторически описал систематические атаки состязательности для тестирования уязвимостей безопасности. С ростом крупных языковых моделей (LLM) термин расширился за рамки традиционной кибербезопасности и развивался в общем использовании, чтобы описать множество видов проверки, тестирования и атаки систем искусственного интеллекта. При использовании LLM как доброкачественное, так и состязательное использование может создавать потенциально вредные выходные данные, которые могут принимать множество форм, включая вредное содержимое, например ненавистное речь, подстрекательство или славение насилия, ссылка на содержимое, связанное с самоповредением, или сексуальное содержимое.

Возможности

Системное поведение

Azure AI Studio подготавливает модель Azure OpenAI GPT-4 и оркестрирует состязательные атаки против приложения для создания высококачественного тестового набора данных. Затем она подготавливает другую модель GPT-4 для анимации тестового набора данных для содержимого и безопасности. Пользователи предоставляют конечную точку приложения искусственного интеллекта, которую они хотят протестировать, и оценки безопасности будут выводить статический набор данных теста для этой конечной точки вместе с меткой риска содержимого (очень низкая, низкая, средняя, высокая) и обоснованием метки, созданной ИИ.

Случаи использования

Предполагаемое использование

Оценки безопасности не предназначены для каких-либо целей, кроме оценки рисков содержимого и уязвимостей в взломах создаваемого приложения ИИ:

Оценка предварительного развертывания создаваемого приложения ИИ. Использование мастера оценки в Azure AI Studio или пакета SDK для Python для Azure, оценки безопасности могут оцениваться автоматически, чтобы оценить потенциальные риски содержимого или безопасности.
Расширение операций red-teaming: использование состязательного симулятора оценки безопасности может имитировать состязательные взаимодействия с созданным приложением ИИ, чтобы попытаться выявить риски содержимого и безопасности.
Обмен информацией о рисках содержимого и безопасности заинтересованным лицам: с помощью Azure AI Studio вы можете предоставить доступ к проекту Azure AI Studio с результатами оценки безопасности с аудиторами или заинтересованными лицами соответствия требованиям.

Технические ограничения, операционные факторы и диапазоны

Поле больших языковых моделей (LLM) продолжает развиваться в быстром темпе, требуя непрерывного улучшения методов оценки для обеспечения безопасного и надежного развертывания системы искусственного интеллекта. Оценки безопасности Azure AI Studio отражают приверженность Майкрософт продолжению инноваций в области оценки LLM. Мы стремимся предоставить лучшие средства, которые помогут вам оценить безопасность создаваемых приложений ИИ, но распознать эффективную оценку — это непрерывная работа.
Настройка оценки безопасности Azure AI Studio в настоящее время ограничена. Мы ожидаем, что пользователи будут предоставлять входную конечную точку приложения ИИ, и наша служба выводит статический набор данных, помеченный для риска содержимого.
Наконец, следует отметить, что эта система не автоматизирует какие-либо действия или задачи, она предоставляет только оценку выходных данных приложения для создания ИИ, которые должны проверяться человеком в цикле перед развертыванием созданного приложения ИИ в рабочей среде для конечных пользователей.

Производительность системы

Оценка оценки безопасности Azure AI Studio

Методы оценки

Для всех поддерживаемых типов рисков содержимого мы внутренне проверили качество, сравнивая частоту приблизительных совпадений между человеческими метками с помощью шкалы серьезности 0-7 и автоматического аннотатора оценки безопасности также с использованием шкалы серьезности 0-7 в одном наборе данных. Для каждой области риска у нас были как человеческие метки, так и автоматизированная метка аннотатора 500 английских, одноключечных текстов. Человеческие метки и автоматический аннотатор не использовали точно те же версии рекомендаций по заметкам; в то время как правила автоматизированного аннотатора были связаны с рекомендациями для людей, они с тех пор разошлись в различные степени (с ненавидимыми и несправедливыми рекомендациями, которые разошлись больше всего). Несмотря на эти незначительные и умеренные различия, мы считаем, что по-прежнему полезно поделиться общими тенденциями и аналитическими сведениями из нашего сравнения приблизительных совпадений. В наших сравнениях мы искали совпадения с 2-уровней терпимости (где метка человека соответствовала автоматической метке аннотатора точно или находилась в пределах 2 уровней выше или ниже в серьезности), соответствует 1 уровню терпимости и соответствует 0-уровню терпимости.

Результаты оценки

В целом, мы видели высокий уровень приблизительных совпадений по отношению к себе и сексуальному контенту рисков на всех уровнях терпимости. Для насилия и для ненависти и несправедливости приблизительная частота совпадений на уровне терпимости была ниже. Эти результаты были частично обусловлены увеличением расхождения в содержимом руководства по заметкам для пользователей и автоматических меток, а также частично из-за увеличения объема содержимого и сложности в конкретных рекомендациях.

Хотя наши сравнения между сущностями, которые немного используются для умеренно разных рекомендаций по заметкам (и, таким образом, не являются стандартными сравнениями с моделью человека), эти сравнения обеспечивают оценку качества, которое мы можем ожидать от оценки безопасности Azure AI Studio с учетом параметров этих сравнений. В частности, мы рассмотрели только английские примеры, поэтому наши выводы могут не обобщать другие языки. Кроме того, каждый образец набора данных состоит только из одного поворота, и поэтому для проверки обобщенности результатов оценки в сценариях с несколькими поворотами (например, обратной и вперед беседы, включая запросы пользователей и системные ответы). Типы примеров, используемых в этих наборах данных оценки, также могут значительно повлиять на приблизительную частоту совпадений между метками человека и автоматическим аннотатором— если примеры проще пометить (например, если все образцы не подвержены рискам содержимого), мы можем ожидать, что приблизительная скорость сопоставления будет выше. Качество человеческих меток для оценки может также повлиять на обобщение наших результатов.

Оценка и интеграция оценки безопасности Azure AI Studio для использования

Измерение и оценка создаваемого приложения ИИ являются важной частью комплексного подхода к управлению рисками искусственного интеллекта. Оценки безопасности Azure AI Studio дополняются и должны использоваться в тандеме с другими методами управления рисками искусственного интеллекта. Эксперты домена и рецензенты в цикле должны обеспечить надлежащий надзор при использовании оценки безопасности с поддержкой ИИ в процессе разработки, разработки и развертывания с помощью искусственного интеллекта. Вы должны понимать ограничения и предполагаемое использование оценки безопасности, не будьте осторожны, чтобы не полагаться на выходные данные, полученные с помощью ИИ Azure AI, оценки безопасности в изоляции.

Из-за недетерминированного характера LLM может возникнуть ложный отрицательный или положительный результат, например высокий уровень серьезности насильственного содержимого, оцененный как "очень низкий" или "низкий". Кроме того, результаты оценки могут иметь разные значения для разных аудиторий. Например, оценки безопасности могут создать метку для "низкой" серьезности насильственного содержимого, которое может не соответствовать определению рецензента человека о том, насколько сильно это конкретное насильственное содержимое может быть. В Azure AI Studio мы предоставляем столбец отзывов человека с большими пальцами вверх и пальцем вниз при просмотре результатов оценки на поверхность, какие экземпляры были утверждены или помечены как неверные рецензентом человека. Рассмотрим контекст интерпретации результатов для принятия решений другими пользователями, с которыми можно поделиться оценкой и проверить результаты оценки с соответствующим уровнем контроля на уровне риска в среде, в которой работает каждое созданное приложение ИИ.

Поделиться через