Тестирование типа конфиденциальной информации с точным соответствием данных

Совет

Если вы не являетесь клиентом E5, используйте 90-дневную пробную версию решений Microsoft Purview, чтобы узнать, как дополнительные возможности Purview могут помочь вашей организации управлять безопасностью данных и соответствием требованиям. Начните сейчас, перейдя в центр пробных версий на портале соответствия требованиям Microsoft Purview. Сведения о регистрации и условиях пробной версии.

Сфера применения

После создания типа конфиденциальной информации (SIT) точного сопоставления данных (EDM) и через час после проверки завершения отправки и индексации таблицы конфиденциальной информации можно проверить, обнаруживает ли она информацию, которую нужно защитить, с помощью функции Тест в разделе Типы конфиденциальной информации на портале соответствия требованиям Microsoft Purview.

Примечание.

Изменения в существующем EDM SIT могут занять некоторое время, чтобы распространиться по всей системе. Если вы вносите изменения в EDM SIT для устранения проблем с обнаружением, обязательно подождите по крайней мере один час после внесения этих изменений, прежде чем использовать функцию Test для проверки их влияния.

Независимо от метода, используемого для тестирования, результаты теста будут содержать совпадения как для конкретного EDM SIT, так и для основных элементов, настроенных для этого EDM SIT.

Методы тестирования EDM SIT

Существует два метода, которые можно использовать для тестирования EDM SIT.

Метод Доступно в новом интерфейсе EDM Доступно в новых и классических интерфейсах EDM
Метод типа конфиденциальной информации (SIT) Да Да
Метод классификаторов EDM Да Нет

Примечание.

Если вы используете классический интерфейс EDM, необходимо использовать метод SIT.

Тестирование EDM SIT с помощью метода "Типы конфиденциальной информации"

Чтобы протестировать EDM SIT с помощью метода Типов конфиденциальной информации , выполните следующие действия.

Выберите соответствующую вкладку для используемого портала. Дополнительные сведения о портале Microsoft Purview см. на портале Microsoft Purview. Дополнительные сведения о портале соответствия требованиям см. в разделе Портал соответствия требованиям Microsoft Purview.

  1. Войдите на портал >Microsoft Purview Information Protection > Типы конфиденциальных>сведений.

  2. Выберите EDM SIT в списке, а затем щелкните значок Тест .

  3. Во всплывающей области отправьте файл, содержащий данные, которые нужно обнаружить. Например, создайте файл, содержащий подмножество строк в таблице конфиденциальной информации. Если вы использовали функцию настраиваемого сопоставления в схеме для определения игнорируемых разделителей, убедитесь, что пример файла содержит примеры с этими разделителями и без них.

  4. Выберите Тест.

  5. После отправки и проверки файла проверка на наличие совпадений в EDM SIT.

  6. Если функция Test в SIT обнаруживает совпадение, убедитесь, что SIT не обрезает его или не извлекает соответствующий элемент неправильно. К распространенным проблемам относятся sit, которые:

    • Извлечение только подстроки полной строки, которая должна быть обнаружена
    • Выбор только первого слова в строке с несколькими словами
    • Включение дополнительных символов или символов в извлечение

Дополнительные сведения об использовании регулярных выражений см. в кратком справочнике по языку регулярных выражений.

Тестирование EDM SIT с помощью метода классификатора EDM

Выберите соответствующую вкладку для используемого портала. Дополнительные сведения о портале Microsoft Purview см. на портале Microsoft Purview. Дополнительные сведения о портале соответствия требованиям см. в разделе Портал соответствия требованиям Microsoft Purview.

  1. Войдите на портал >Microsoft Purview Information Protection >Классификаторы>EDM.

  2. Убедитесь, что для переключателя Новый интерфейс EDM установлено значение Включено.

  3. Выберите EDM SIT в списке, а затем щелкните значок Тест .

  4. Отправьте файл, содержащий данные, которые требуется обнаружить. Например, создайте файл, содержащий подмножество строк в таблице конфиденциальной информации. Если вы использовали функцию настраиваемого соответствия в схеме для определения игнорируемых разделителей, убедитесь, что файл примера содержит примеры с этими разделителями и без них.

  5. После отправки и проверки файла проверка на наличие совпадений в EDM SIT.

  6. Если функция Test в SIT обнаруживает совпадение, убедитесь, что SIT не обрезает его или не извлекает соответствующий элемент неправильно. К распространенным проблемам относятся sit, которые:

    • Извлечение только подстроки полной строки, которая должна быть обнаружена
    • Выбор только первого слова в строке с несколькими словами
    • Включение дополнительных символов или символов в извлечение

Тестирование EDM SIT с помощью PowerShell

Чтобы протестировать с помощью PowerShell, используйте следующий командлет PowerShell:

Test-DataClassification  -ClassificationNames “[Your EDM sensitive info type]” -TexttoClassify “[your own text to scan for matches]” 

Независимо от метода, используемого для тестирования, результаты теста будут содержать совпадения как для конкретного EDM SIT, так и для основных элементов, настроенных для этого EDM SIT.

Примечание.

При создании или изменении типа конфиденциальной информации EDM или основного sit, на котором основан тип EDM, все новое содержимое (а также содержимое, измененное после внесения изменений в SIT) будет выполняться обход контента, соответствующего новым определениям. Однако уже существующее содержимое не будет обходиться, пока не будет изменено или переиндексировано.

Чтобы принудительно повторно сканировать существующее содержимое на сайте, в библиотеке SharePoint или в OneDrive, следуйте инструкциям в разделе Запрос обхода контента и повторного индексирования сайта, библиотеки или списка вручную.

Тестирование EDM SIT с помощью политик защиты информации

Вы можете увидеть, где используется EDM SIT и насколько точным он является в рабочей среде, используя его в политиках:

  1. Создайте политику автоматической маркировки и запустите ее в разделе Общие сведения об моделировании.

  2. Добавьте содержимое, которое будет активировать EDM SIT, а также содержимое, которое не будет активировать EDM SIT, в расположение, отслеживаемое политикой.

  3. Откройте вкладку Элементы для проверки, чтобы проверка совпадений.

  4. Настройте политики соответствующим образом.

После того как вы будете удовлетворены результатами тестирования и настройки, настраиваемый SIT на основе EDM будет готов к использованию в политиках защиты информации, например:

Советы по устранению неполадок

Если EDM SIT не обнаруживает совпадений в данных, следующие советы помогут вам диагностировать проблему.

Проблема Совет по устранению неполадки
Совпадений не найдено Убедитесь, что конфиденциальные данные были отправлены правильно, используя команды, описанные в разделе Хэш, и отправьте таблицу источников конфиденциальной информации для точного сопоставления типов конфиденциальной информации.
Совпадений не найдено Протестируйте sit, который вы использовали при настройке первичного элемента в каждом из шаблонов. Этот тест проверяет, может ли sit соответствовать примерам в элементе. Использование неправильно определенного SIT в качестве элемента классификации EDM SIT является наиболее распространенной причиной сбоев обнаружения в EDM.
Sit, выбранный для основного элемента в типе EDM, не находит совпадения в элементе или находит меньше совпадений, чем ожидалось. Убедитесь, что SIT поддерживает разделители и разделители, которые находятся в содержимом. Обязательно включите в схему игнорируемые разделители.
SIT, связанный с основным элементом, находит совпадения в содержимом, но EDM SIT — нет.
  • Проверьте, перехватывают ли инструкции REGEX разделители пробелов в начале или конце элемента, который вы хотите обнаружить. Например, найдите инструкции, включающие разделитель \s . Если включены разделители пробелов, пробелы не будут соответствовать хэшированного значения в таблице данных. Вместо этого используйте разделитель слов, например \b.
  • Проверьте инструкции REGEX, чтобы убедиться, что они фиксируют всю строку, которую вы хотите обнаружить, а не только подстроку. Например, рассмотрим следующий шаблон для адресов электронной почты: \b[a-zA-Z]{2,30}@[a-zA-Z]{2,20}.[a-zA-Z]{2,3}\b. Этот шаблон будет правильно соответствовать user@contoso.com, но будет записываться user@contoso.co.jp только в неполной форме.
EDM SIT с первичными элементами, но без определенных вторичных элементов, обнаруживает элементы, но не обнаруживает совпадений (или обнаруживает меньше совпадений, чем ожидалось), когда требуются как первичные, так и вторичные элементы. Если значения в столбце, используемом для вторичного доказательства, не состоят из одного слова или строк, не содержащих пробелы, запятые или другие разделители слов, существует два способа проверки:
  1. Выберите параметр сопоставления с несколькими токенами .
  2. Свяжите значения с sit, который использует либо REGEX, предназначенный для обнаружения строк из нескольких слов, которые соответствуют нужному шаблону (например, фиксированное число последовательных слов, начинающихся с символа в верхнем регистре), либо словарь ключевое слово, в котором перечислены все уникальные значения в этом столбце. Например, если есть дополнительный столбец доказательств для города или места жительства пользователя, можно создать список со всеми уникальными названиями городов из таблицы, а затем использовать его для создания типа конфиденциальной информации на основе словаря.

Используйте этот sit в качестве элемента классификации для соответствующего столбца в EDM SIT путем экспорта и изменения определения EDM SIT в XML. Дополнительные сведения см. в статье Создание пакета правил вручную.
Функция теста SIT вообще не обнаруживает совпадений. Убедитесь, что выбранный параметр SIT содержит требования для дополнительных ключевых слов или других проверок. Встроенные sit см. в разделе Определения сущностей типов конфиденциальной информации , чтобы определить минимальные требования для сопоставления каждого типа.
Функция тестирования работает, но элементы SharePoint или OneDrive не обнаруживаются в правилах защиты от потери данных или автоматических меток. Убедитесь, что документы, в которые вы ожидаете найти, совпадают, на самом деле отображаются в обозревателе содержимого. Совпадения обнаруживаются только в содержимом, созданном после применения изменений в SIT. Таким образом, если ожидаемые совпадения не отображаются, повторно выполните обход сайтов и библиотек для всех ранее существующих элементов. Дополнительные сведения о повторном обходе SharePoint и OneDrive см. в статье Обход и повторное индексирование сайта, библиотеки или списка вручную.
Правила защиты от потери данных или автоматической маркировки, для которых требуется несколько совпадений, не активируются Убедитесь, что требования к близкому расположению как для EDM SIT, так и для базовых SIT выполнены. Например, если максимальное расстояние между основным элементом и вспомогательными ключевыми словами составляет 300 символов, но ключевые слова присутствуют только в первой строке длинной таблицы, то только первые несколько строк совпадающих значений, скорее всего, соответствуют требованиям к близости. Измените определения SIT для поддержки более строгих правил близкого взаимодействия или используйте параметр В любом месте в документе для дополнительных условий доказательства.
Обнаружение EDM SIT является несогласованным или неустойчивым Убедитесь, что sit, используемый в качестве основы для основного элемента в EDM SIT, не обнаруживает ненужное содержимое. Использование sit, соответствующего слишком большому количеству несвязанного содержимого, такого как любое слово, любое число или все адреса электронной почты, может привести к тому, что служба проигнорирует соответствующие совпадения. Проверьте количество фрагментов содержимого, соответствующих конфиденциальному типу, используемому для основных элементов в обозревателе содержимого.

Чтобы оценить, соответствует ли SIT слишком много содержимого, выполните следующие действия:
  1. Разделите количество элементов содержимого в Обозреватель содержимого Microsoft Purview на количество дней с момента создания конфиденциального типа.
  2. Если количество совпадений в день находится в диапазоне сотен тысяч или более, возможно, что основной СИТ слишком широк.

Рекомендации и рекомендации по выбору подходящего типа конфиденциальной информации для EDM SIT см. в статье Сведения о типах конфиденциальной информации на основе точного сопоставления данных.