Обзор обучаемых классификаторов

Завершено

Организации классифицируют и помечают содержимое, чтобы обеспечить его защиту и правильную обработку. Классификация и маркировка содержимого — это отправная точка в области защиты информации. В Microsoft 365 есть три способа классификации содержимого:

  • Вручную. Для классификации вручную требуются человеческие суждения и действия. Пользователи и администраторы применяют их к содержимому, когда они сталкиваются с ним. Вы можете использовать либо существующие метки и типы конфиденциальной информации, либо созданные самостоятельно. Затем вы можете защитить содержимое и управлять его ликвидацией.

  • Автоматическое сопоставление шаблонов. Эта категория механизмов классификации включает поиск содержимого с помощью следующих элементов.

    • Ключевые слова или значения метаданных (Keyword Query Language).
    • Использование ранее выявленных шаблонов конфиденциальной информации, например номеров социального страхования, кредитных карт или банковских счетов.
    • Распознавание элемента, так как он является разновидностью шаблона (создание отпечатка документа, которое рассматривается в следующем уроке этого учебного курса).
    • Использование имеющихся точных строк с точным соответствием данных.
  • Обучаемые классификаторы. Обучаемый классификатор Microsoft 365 — это средство, которое организация может "обучить" распознавать различные типы содержимого. Microsoft 365 включает обширный список предопределенных классификаторов. Организации также могут создавать собственные настраиваемые классификаторы. Вы можете обучать классификаторы, предоставляя им примеры для просмотра. После обучения классификатора организация может использовать его с целью идентификации элементов для применения меток конфиденциальности Office, политик соответствия требованиям к обмену данными и политик меток хранения.

В этом уроке рассматривается использование обучаемых классификаторов.

Обучаемые классификаторы

Чтобы начать использовать обучаемые классификаторы в Microsoft Purview, вы можете сначала запустить процесс сканирования. Этот процесс анализирует данные вашей компании и выявляет шаблоны, которые система может использовать для обучения классификатора. После сканирования данных система определяет общие темы и шаблоны. Затем система может создать правила для обучаемого классификатора, используя эти сведения. Этот процесс помогает обеспечить точность и эффективность обучаемого классификатора при идентификации и классификации данных. После завершения сканирования вы можете обучить классификатор с помощью выявленных шаблонов и правил. Завершив обучение классификатора, его можно применять к новым данным, чтобы автоматически классифицировать их.

Предупреждение

Сканирование может занять от 7 до 14 дней. Если вы не хотите запускать сканирование с целью создания настраиваемого обучаемого классификатора для своей организации, можно использовать встроенные классификаторы Microsoft Purview.

При первом доступе к странице Обучаемые классификаторы на Портале соответствия требованиям Microsoft Purview отображается следующий снимок экрана.

Снимок экрана: диалоговое окно, которое появляется при первом доступе к странице обучаемых классификаторов на Портале соответствия требованиям Microsoft Purview.

При создании настраиваемого обучаемого классификатора сначала необходимо предоставить ему выбранные вручную примеры, которые соответствуют нужной категории. Затем, после того как обучаемый классификатор обработает эти примеры, вы проверите способность классификаторов к прогнозированию, предоставляя ему сочетание положительных и отрицательных примеров. В этом уроке рассматривается создание и обучение настраиваемого классификатора. В нем также рассматривается, как повысить производительность настраиваемых обучаемых классификаторов и предварительно обученных классификаторов в течение их жизненного цикла путем повторного обучения.

Метод классификации хорошо подходит для содержимого, которое невозможно определить с помощью автоматических или ручных методов сопоставления шаблонов. Этот метод классификации заключается, по сути, в следующем: классификатор используется для распознавания элемента на основе того, что этот элемент собой представляет, а не на основе его компонентов (сопоставление шаблонов). Классификатор обучается идентифицировать тип контента, просматривая сотни примеров этого типа контента.

Примечание.

Обучаемые классификаторы можно просмотреть в средстве "Обозреватель содержимого", развернув раздел "Обучаемые классификаторы" на панели фильтров. Обучаемые классификаторы автоматически отображают количество инцидентов, обнаруженных в SharePoint, Teams и OneDrive, без необходимости присвоения меток. Если вы не хотите использовать эту функцию, необходимо отправить запрос в службу поддержки Майкрософт, чтобы отключить стандартную классификацию. Это отключает сканирование конфиденциального содержимого и содержимого с метками перед созданием политик применения меток.

Классификаторы можно использовать в качестве условия для следующих задач.

  • Автоматическая маркировка Office с помощью меток конфиденциальности
  • Автоматическое применение политики меток хранения на основе условия
  • Соответствие требованиям к обмену данными

Примечание.

Классификаторы работают только с элементами, которые не зашифрованы.

Существует два типа обучаемых классификаторов:

  • Предварительно обученные классификаторы. Корпорация Майкрософт создала и предварительно обучила несколько классификаторов, которые можно начать использовать, не обучая их. Эти классификаторы отображаются с состоянием Готов к работе.
  • Настраиваемые обучаемые классификаторы. Если у организации есть потребности в классификации, выходящие за рамки предварительно обученных классификаторов, она может создавать и обучать собственные классификаторы.

Эти типы классификаторов рассматриваются в следующих разделах.

Предварительно обученные классификаторы

Microsoft 365 поставляется с несколькими предварительно обученными классификаторами:

  • Содержимое для взрослых, неприличное и жестокое содержимое. Обнаруживает изображения этих типов. Размер изображений должен составлять от 50 килобайт (КБ) до 4 МБ. Их измерения также должны быть больше 50 x 50 пикселей (высота x ширина). Система поддерживает сканирование и обнаружение сообщений электронной почты Exchange Online, а также каналов и чатов Microsoft Teams.

  • Соглашения. Этот классификатор обнаруживает содержимое, связанное с юридическими соглашениями. Например, технические задания, соглашения о кредитах и аренде, а также соглашения о найме и отказа от конкуренции.

  • Жалобы клиентов. Классификатор жалоб клиентов обнаруживает отзывы и жалобы о продуктах или услугах вашей организации. Этот классификатор помогает выполнять нормативные требования по обнаружению и рассмотрению жалоб, например требования Бюро финансовой защиты потребителей и Управления по надзору за качеством пищевых продуктов и медикаментов.

  • Дискриминация. Этот классификатор обнаруживает явные дискриминационные выражения и учитывает дискриминационные выражения в отношении афро-американских/чернокожих сообществ при сравнении с другими сообществами.

  • Финансы. Этот классификатор обнаруживает содержимое из категорий корпоративных финансов, бухгалтерского учета, экономики, банковского дела и инвестиций.

  • Домогательства. Этот классификатор обнаруживает конкретную категорию оскорбительных текстовых элементов. Эти элементы должны быть связаны с оскорбительным поведением, нацеленным на одного или нескольких людей на основе следующих признаков: раса, этническая принадлежность, религия, национальность, пол, сексуальная ориентация, возраст, специальные потребности.

  • Здравоохранение. Этот классификатор обнаруживает содержимое из категорий здравоохранения и медицинского администрирования. Например, медицинские услуги, диагнозы, лечение, утверждения и т. д.

  • Управление персоналом (HR). Этот классификатор обнаруживает содержимое из категорий, связанных с управлением персоналом. Например, набор, собеседование, найм, обучение, оценка, предупреждение и увольнение.

  • Интеллектуальная собственность (IP). Этот классификатор обнаруживает содержимое в категориях, связанных с интеллектуальной собственностью, например с коммерческой тайной и аналогичной конфиденциальной информацией.

  • Информационные технологии (ИТ). Этот классификатор обнаруживает содержимое из категорий информационных технологий и кибербезопасности. Например, параметры сети, информационная безопасность, оборудование и программное обеспечение.

  • Юридические вопросы. Этот классификатор обнаруживает содержимое из категорий, связанных с юридическими вопросами. Например, судебное разбирательство, юридический процесс, юридическое обязательство, юридическая терминология, право и законодательство.

  • Закупки. Этот классификатор обнаруживает содержимое из категорий торгов, ценовых заявок, приобретения и оплаты за поставку товаров и услуг.

  • Ненормативная лексика. Этот классификатор обнаруживает конкретную категорию оскорбительных текстовых элементов, содержащих выражения, которые смущают большинство людей.

  • Резюме. Этот классификатор обнаруживает файлы PDF, RTF и TXT, которые являются текстовым представлением личной информации, образования, профессиональной квалификации, опыта работы и других личных сведений претендента.

  • Исходный код. Этот классификатор обнаруживает элементы, содержащие набор инструкций и операторов, написанных на 25 основных языках компьютерного программирования, используемых в GitHub: ActionScript, C, C#, C++, Clojure, CoffeeScript, Go, Haskell, Java, JavaScript, Lua, MATLAB, Objective-C, Perl, PHP, Python, R, Ruby, Scala, Shell, Swift, TeX, Vim Script.

    Примечание.

    Классификатор исходного кода определяет, когда основная часть текста является исходным кодом. Он не обнаруживает текст исходного кода, перемежающийся с обычным текстом.

  • Налог. Этот классификатор обнаруживает содержимое, связанное с налогами, например налоговое планирование, налоговые формы, налоговая документация, налоговые правила.

  • Угроза. Этот классификатор обнаруживает конкретную категорию оскорбительных текстовых элементов, связанных с угрозами насилия, физического вреда, нанесения травм человеку или повреждения имущества.

Эти обучаемые классификаторы отображаются на портале соответствия требованиям Microsoft Purview. В области навигации выберите Классификация данных. На странице Классификация данных выберите вкладку Обучаемые классификаторы. Просмотрите классификаторы с состоянием Готов к работе.

Настраиваемые классификаторы

В некоторых организациях предварительно обученные классификаторы не соответствуют потребностям в классификации данных. В такой ситуации организация может создавать и обучать собственные классификаторы. Создание настраиваемого классификатора связано с дополнительными действиями, но организация может лучше адаптировать их под свои потребности. Ниже приведены общие шаги, связанные с созданием настраиваемого классификатора.

  1. Вы начинаете создание настраиваемого обучаемого классификатора с предоставления ему примеров, которые определенно относятся к нужной категории.
  2. После того как классификатор обработает эти примеры, вы выполняете тестирование, предоставляя ему сочетание как соответствующих, так и несоответствующих примеров.
  3. Затем классификатор делает прогнозы о том, относится ли каждый указанный элемент к категории, которую вы создаете.
  4. Затем вы подтверждаете его результаты, сортируя истинноположительные, истинные отрицательные, ложноположительные и ложные отрицательные результаты, чтобы повысить точность прогнозов.
  5. Когда вы будете удовлетворены результатами теста, вы развернете классификатор, опубликовав его.

При публикации классификатора он сортирует элементы в таких расположениях, как SharePoint Online, Exchange и OneDrive, и классифицирует содержимое. После публикации классификатора вы можете продолжить обучение с помощью процесса отзывов, аналогичного начальному процессу обучения.

Например, вы можете создать обучаемые классификаторы для следующих категорий.

  • Юридические документы. Например, адвокатская тайна, завершающие комплекты документов и описание работ.
  • Стратегические бизнес-документы. Например, пресс-релизы, слияния и приобретения, сделки, маркетинговые или бизнес-планы, интеллектуальная собственность, патенты и документация по дизайну.
  • Сведения о ценах. Например, счета, ценовые предложения, заказы на работу и документы для торгов.
  • Финансовые сведения. Например, инвестиции организации, квартальные или годовые результаты.

Подготовка для настраиваемого обучаемого классификатора

Перед подробным рассмотрением полезно разобраться в компонентах, связанных с созданием настраиваемого обучаемого классификатора. В следующих разделах рассматривается каждый из этих компонентов.

Временная шкала

На следующей схеме показана временная шкала, отражающая пример развертывания обучаемых классификаторов.

Схема с временной шкалой создания примера развертывания обучаемых классификаторов.

Совет

Системе требуется только первое согласие для обучаемых классификаторов. Microsoft 365 необходимо 12 дней, чтобы завершить базовую оценку содержимого организации. Глобальный администратор Microsoft 365 должен запустить процесс согласия.

Общий рабочий процесс

Дополнительные сведения об общем рабочем процессе создания настраиваемых обучаемых классификаторов см. в разделе Процесс создания настраиваемых обучаемых классификаторов.

Начальный контент

Microsoft Purview использует обучаемые классификаторы для независимой и точной идентификации того, что элемент относится к определенной категории содержимого. Чтобы создать обучаемый классификатор, организация должна сначала предоставить ему множество примеров типа контента, относящегося к категории. Предоставление начальных значений — это процесс предоставления примеров обучаемому классификатору. Организация должна выбрать начальный контент, который она хочет использовать для представления категории содержимого.

Совет

Необходимо использовать не менее 50 положительных примеров. Максимальное значение: 500 примеров. Обучаемый классификатор обрабатывает до 500 последних созданных примеров (по метке даты и времени создания файла). Чем больше примеров вы предоставляете, тем точнее прогнозы классификатора.

Тестирование содержимого

После того как обучаемый классификатор обработает достаточно положительных примеров для создания модели прогнозирования, организация должна протестировать прогнозы, которые делает классификатор. Следует выполнить тестирование с данными, отличными от первоначально предоставленных данных. Тестирование должно подтвердить, может ли классификатор правильно различать элементы, соответствующие категории, и элементы, не соответствующие ей. Тестирование должно начинаться с выбора другого набора содержимого (по возможности большего размера), выбранного вручную. Он называется тестовым примером. Он должен состоять из примеров, которые относятся к категории, и примеров, которые не относятся к ней.

После того как классификатор обработает этот тестовый пример, необходимо вручную проверить результаты. При этом вам необходимо подтвердить, что каждый прогноз является правильным, неправильным или что вы не уверены. Обучаемый классификатор использует эту обратную связь для улучшения модели прогнозирования.

Совет

Для достижения наилучших результатов в тестовом примере необходимо наличие по крайней мере 200 элементов. Он должен включать равномерное распределение положительных и отрицательных совпадений.