Дополнительные сведения о типах конфиденциальной информации

Определение и классификация конфиденциальных элементов, которые находятся под управлением вашей организации, является первым шагом в Information Protection дисциплине. Microsoft Purview предоставляет три способа идентификации элементов, чтобы их можно было классифицировать:

  • вручную пользователями;
  • автоматическое распознавание шаблонов, например типы конфиденциальной информации
  • машинное обучение

Типы конфиденциальной информации (SIT) являются классификаторами на основе шаблонов. Они обнаруживают конфиденциальную информацию, например номера социального страхования, кредитной карты или банковского счета для идентификации конфиденциальных элементов. Полный список всех siT см. в определениях сущностей типов конфиденциальной информации.

Корпорация Майкрософт предоставляет большое количество предварительно настроенных SIT, или вы можете создать собственные.

Типы конфиденциальной информации используются в

Категории типов конфиденциальной информации

Встроенные типы конфиденциальной информации

Эти SIT создаются корпорацией Майкрософт и отображаются в консоли соответствия требованиям по умолчанию. Эти SIT нельзя изменить, но их можно использовать в качестве шаблонов и скопировать для создания настраиваемых типов конфиденциальной информации. Полный список всех SIT см. в описании определений сущностей типов конфиденциальной информации.

Типы конфиденциальной информации именованных сущностей

По умолчанию ВИТ именованных сущностей также отображаются в консоли соответствия требованиям. Они обнаруживают имена людей, физические адреса, медицинские термины и условия. Их нельзя изменить или скопировать. Дополнительные сведения см. в разделе "Сведения об именованных сущностях ". Именованные SIT сущностей бывают двух типов:

un-bundled

Эти именованные siT сущности имеют более узкий фокус, например одна страна или один класс терминов. Используйте их, когда требуется политика защиты от потери данных с более узкой областью обнаружения. См. примеры именованных SIT сущностей.

Комплекте

В пакете именованных SIT сущностей обнаруживаются все возможные совпадения в классе, например все физические адреса. Используйте их в качестве общих критериев в политиках защиты от потери данных для обнаружения конфиденциальных элементов. См. примеры именованных SIT сущностей.

Пользовательские типы конфиденциальной информации

Если предварительно настроенные типы конфиденциальной информации не соответствуют вашим потребностям, можно создать собственные настраиваемые типы конфиденциальной информации, которые вы полностью определили, или скопировать один из встроенных типов и изменить их. Дополнительные сведения см. в статье "Создание настраиваемого типа конфиденциальной информации" в Центре соответствия требованиям.

Точные данные соответствуют типам конфиденциальной информации

Все siT на основе EDM создаются с нуля. Они используются для обнаружения элементов с точными значениями, определенными в базе данных конфиденциальной информации. Дополнительные сведения см. в статье о типах конфиденциальной информации, основанных на точном совпадении данных.

Основные части типа конфиденциальной информации

Каждая сущность типа конфиденциальной информации определяется следующими полями:

  • name: как называется тип конфиденциальной информации
  • описание: описывает, что ищет тип конфиденциальной информации
  • шаблон: шаблон определяет, что обнаруживает тип конфиденциальной информации. Он состоит из следующих компонентов.
    • Первичный элемент — основной элемент, который ищет тип конфиденциальной информации. Это может быть регулярное выражение с проверкой контрольной суммы или без нее, список ключевых слов, словарь ключевых слов или функция.
    • Вспомогательный элемент — элементы, которые выступают в качестве вспомогательного свидетельства, которые помогают увеличить достоверность соответствия. Например, ключевое слово "SSN" близко к номеру SSN. Это может быть регулярное выражение с проверкой контрольной суммы, списком ключевых слов и словарем ключевых слов или без него.
    • Уровень достоверности — уровни достоверности (высокий, средний, низкий) отражают, сколько вспомогательного свидетельства было обнаружено вместе с основным элементом. Чем больше вспомогательное свидетельство содержит элемент, тем выше уверенность в том, что соответствующий элемент содержит конфиденциальную информацию, которую вы ищете.
    • Близкое расположение — количество символов между основным и вспомогательным элементом.

Схема сопротивативного свидетельства и окна близкого взаимодействия.

Дополнительные сведения об уровнях достоверности см. в этом коротком видео.

Пример типа конфиденциальной информации

Номер внутреннего удостоверения личности для Аргентины (DNI)

Формат

Восемь цифр, разделенных точками.

Шаблон

Восемь цифр:

  • две цифры
  • точка
  • три цифры
  • точка
  • три цифры

Контрольная сумма

Нет

Определение

Политика защиты от потери данных со средним доверительным уровнем обнаружила этот тип конфиденциальной информации, если в пределах 300 символов:

  • регулярное выражение Regex_argentina_national_id находит содержимое, которое соответствует шаблону;
  • находится ключевое слово из Keyword_argentina_national_id.
<!-- Argentina National Identity (DNI) Number -->
<Entity id="eefbb00e-8282-433c-8620-8f1da3bffdb2" recommendedConfidence="75" patternsProximity="300">
   <Pattern confidenceLevel="75">
      <IdMatch idRef="Regex_argentina_national_id"/>
      <Match idRef="Keyword_argentina_national_id"/>
  </Pattern>
</Entity>

Ключевые слова

Keyword_argentina_national_id

  • Argentina National Identity number
  • Удостоверение
  • Идентификация национального удостоверения
  • Dni
  • NIC National Registry of Persons
  • Documento Nacional de Identidad
  • Registro Nacional de las Personas
  • Identidad
  • Identificación

Дополнительные сведения об уровнях достоверности

В определении сущности типа конфиденциальной информации уровень достоверности отражает объем вспомогательного свидетельства, обнаруженного в дополнение к основному элементу. Чем больше вспомогательное свидетельство содержит элемент, тем выше уверенность в том, что соответствующий элемент содержит конфиденциальную информацию, которую вы ищете. Например, совпадения с высоким уровнем достоверности будут содержать больше вспомогательных признаков в непосредственной близости к основному элементу, тогда как совпадения с низким уровнем достоверности будут содержать практически отсутствующие вспомогательные признаки в непосредственной близости.

Высокий уровень достоверности возвращает меньше ложных срабатываний, но может привести к большему числу ложноотрицательных результатов. Низкий или средний уровень достоверности возвращает больше ложных срабатываний, но от нескольких до нуля ложных отрицательных результатов.

  • низкая достоверность: сопоставленные элементы будут содержать меньше ложноотрицательных результатов, но больше всего ложных срабатываний. Низкая достоверность возвращает все совпадения с низкой, средней и высокой достоверностью. Низкий уровень достоверности имеет значение 65.
  • средняя достоверность: сопоставленные элементы будут содержать среднее количество ложных срабатываний и ложноотрицательных результатов. Средняя достоверность возвращает все совпадения среднего и высокого уровня достоверности. Средний уровень достоверности имеет значение 75.
  • высокая достоверность: сопоставленные элементы будут содержать меньше ложных срабатываний, но больше всего ложных отрицательных результатов. Высокая достоверность возвращает только совпадения с высокой достоверностью и имеет значение 85.

Следует использовать шаблоны высокого уровня достоверности с низким числом, например от пяти до десяти, и шаблонами низкой достоверности с более высоким числом, например 20 или более.

Примечание

Если у вас есть существующие политики или пользовательские типы конфиденциальной информации (SIT), определенные с помощью числовых уровней достоверности (также известной как точность), они автоматически сопоставляются с тремя дискретными уровнями достоверности; низкая достоверность, средняя достоверность и высокая достоверность в пользовательском интерфейсе Центра безопасности и соответствия требованиям.

  • Все политики с минимальной точностью или пользовательские шаблоны SIT с уровнем достоверности от 76 до 100 будут сопоставлены с высокой достоверностью.
  • Все политики с минимальной точностью или пользовательские шаблоны SIT с уровнем достоверности от 66 до 75 будут сопоставляться со средним уровнем достоверности.
  • Все политики с минимальной точностью или пользовательские шаблоны SIT с уровнем достоверности меньше или равным 65 будут сопоставлены с низкой достоверностью.

Создание пользовательских типов конфиденциальной информации

Вы можете выбрать один из нескольких вариантов создания настраиваемых типов конфиденциальной информации в Центре соответствия требованиям.

  • Используйте пользовательский интерфейс . Настраиваемый тип конфиденциальной информации можно настроить с помощью пользовательского интерфейса Центра соответствия требованиям. В этом методе можно использовать регулярные выражения, ключевые слова и словари ключевых слов. Дополнительные сведения см. в статье Создание пользовательского типа конфиденциальной информации.

  • Использование EDM . Настраиваемые типы конфиденциальной информации можно настроить с помощью классификации на основе точного соответствия данных (EDM). Этот метод позволяет создать динамический тип конфиденциальной информации с помощью защищенной базы данных, которую можно периодически обновлять. Дополнительные сведения о типах конфиденциальной информации, основанных на точном совпадении данных.

  • Использование PowerShell . Настраиваемые типы конфиденциальной информации можно настроить с помощью PowerShell. Хотя этот метод сложнее, чем использование пользовательского интерфейса, он предоставляет дополнительные параметры конфигурации. См . раздел "Создание настраиваемого типа конфиденциальной информации" в PowerShell & безопасности.

Примечание

Улучшенные уровни достоверности доступны для немедленного использования в службах защиты от потери данных Microsoft Purview, защиты информации, соответствия требованиям к обмену данными, управления жизненным циклом данных и управления записями. Information Protection теперь поддерживает языки двухбайтового набора символов для:

  • Китайский (упрощенное письмо)
  • Китайский (традиционное письмо)
  • Корейский
  • Японский

Эта поддержка доступна для конфиденциальных типов информации. См. дополнительные сведения о поддержке Information Protection для заметок о выпуске двухбайтового набора символов.

Совет

Для выявления шаблонов, содержащих символы китайского или японского языков и однобайтовые символы, или шаблонов, содержащих элементы китайского/японского и английского языков, определите два варианта ключевого слова или регулярного выражения.

  • Например, для выявления такого ключевого слова, как "机密的document", используйте два варианта ключевого слова: один с пробелом между японским и английским текстом, а другой без пробела между японским и английским текстом. Поэтому в SIT следует добавить ключевые слова "机密的 document" и "机密的document". Аналогично, для выявления фразы "東京オリンピック2020" следует использовать два варианта: "東京オリンピック 2020" и "東京オリンピック2020".

Наряду с символами китайского, японского и двухбайтового байтов, если список ключевых слов и фраз также содержит слова, отличные от китайского или японского (например, только на английском языке), необходимо создать два словаря или списки ключевых слов. Один — для ключевых слов, содержащих символы китайского языка, японского языка или двухбайтовой кодировки, а другой — только для английского языка.

  • Например, если вы хотите создать словарь или список ключевых слов с тремя фразами "Строго конфиденциально", "機密性が高" и "机密的document", необходимо создать два списка ключевых слов.
    1. Строго конфиденциально
    2. 機密性が高い, 机密的документ и 机密的 документ

При создании регулярного выражения с использованием двухбайтового дефиса или двухбайтовой точки необходимо исключить оба этих символа точно так же, как из регулярных выражений исключаются дефис и точка. Пример регулярного выражения:

(?<!\d)([4][0-9]{3}[\-?\-\t]*[0-9]{4}

Рекомендуется использовать строковое совпадение вместо слов в списке ключевых слов.

Предоставление отзывов о точности соответствия в типах конфиденциальной информации

Вы можете просмотреть количество совпадений в SIT в типах конфиденциальной информации и обозревателе содержимого. Вы также можете оставить отзыв о том, является ли элемент фактически совпадением или не использует механизм обратной связи Match, Not a Match и использовать этот отзыв для настройки siT. Дополнительные сведения см. в разделе "Повышение точности классификатора (предварительная версия)".

Дополнительные сведения

Сведения о том, как использовать типы конфиденциальной информации для соблюдения нормативных требований к конфиденциальности данных, см. в статье "Развертывание защиты информации в соответствии с правилами конфиденциальности данных в Microsoft 365 (aka.ms/m365dataprivacy)".