Создание типа конфиденциальной информации с точным соответствием данных/пакета правил
Совет
Если вы не являетесь клиентом E5, используйте 90-дневную пробную версию решений Microsoft Purview, чтобы узнать, как дополнительные возможности Purview могут помочь вашей организации управлять безопасностью данных и соответствием требованиям. Начните сейчас в центре пробных версий Microsoft Purview. Сведения о регистрации и условиях пробной версии.
Вы можете создать точное совпадение данных (EDM) SIT (SIT) с помощью средства Использовать схему точного сопоставления данных и шаблон SIT на портале соответствия требованиям Microsoft Purview или создать пакет правил вручную в виде XML-файла. Вы также можете объединить два метода, используя один метод для создания схемы, а затем с помощью другого метода для ее изменения.
Если вы не знакомы с SITS на основе EDM или их реализацией, ознакомьтесь со следующими сведениями:
- Сведения о типах конфиденциальной информации
- Подробнее о пользовательских типах конфиденциальной информации с точным совпадением данных
- Начало работы с пользовательскими типами конфиденциальной информации с точным соответствием данных
Выполните действия, описанные в следующих статьях:
- Экспорт исходных данных для точного сопоставления типов конфиденциальной информации на основе данных
- Создание схемы для типа конфиденциальной информации с точным соответствием данных
- Хэширование и отправка исходной таблицы конфиденциальной информации для типов конфиденциальной информации с точным соответствием данных
- Независимо от того, будете ли вы создавать EDM SIT с помощью средства или XML-файла пакета правил с помощью PowerShell, у вас должны быть разрешения глобального администратора или администратора соответствия требованиям для создания, тестирования и развертывания пользовательского sit с помощью пользовательского интерфейса. См. сведения о ролях администраторов в Office 365.
Важно!
Microsoft рекомендует использовать роли с наименьшим количеством разрешений. Это помогает повысить безопасность вашей организации. Глобальный администратор — это роль с высоким уровнем привилегий, которую следует использовать только в тех случаях, когда нельзя использовать более привилегированную роль.
- Определите один из встроенных SIT для использования в качестве основных элементов SIT.
- Если ни один из встроенных SIT не будет соответствовать данным в выбранном столбце, вам потребуется создать настраиваемый sit, который делает.
- Если вы выбрали параметр Игнорируемые разделители для столбца первичного элемента в схеме, убедитесь, что создаваемый пользовательский sit будет соответствовать данным с выбранными разделителями и без нее.
- Если вы используете встроенную функцию SIT, убедитесь, что она будет обнаруживать именно строки, которые нужно выбрать, и не включать в себя окружающие символы или исключить любую допустимую часть строки, хранящуюся в таблице конфиденциальной информации.
См. статьи Определения сущностей типа конфиденциальной информации и Создание пользовательских типов конфиденциальной информации.
С помощью этого средства можно создать файлы SIT, чтобы упростить процесс.
EDM SIT состоит из одного или нескольких шаблонов. Каждый шаблон описывает сочетание полей из схемы, которые будут использоваться для идентификации конфиденциального содержимого в документе или сообщении электронной почты (свидетельство).
Выберите соответствующую вкладку для используемого портала. В зависимости от плана Microsoft 365 Портал соответствия требованиям Microsoft Purview будет прекращена или будет прекращена в ближайшее время.
Дополнительные сведения о портале Microsoft Purview см. на портале Microsoft Purview. Дополнительные сведения о портале соответствия требованиям см. в разделе Портал соответствия требованиям Microsoft Purview.
Войдите на портал >Microsoft Purview Information Protection >Классификаторы>EDM.
-
- Установите для переключателя Новый интерфейс EDM значение Выкл.
Выберите Типы конфиденциальной информации EDM и Создать тип конфиденциальной информации EDM , чтобы открыть средство настройки типа конфиденциальной информации.
Выберите Выбрать существующую схему EDM и выберите схему, созданную в разделе Создание схемы, для типов конфиденциальной информации на основе точного сопоставления данных. Нажмите Добавить.
Нажмите Далее и выберите Создать шаблон.
Выберите элемент Уровень достоверности и Основной элемент. Дополнительные сведения об уровнях достоверности см. в статье Сведения о типах конфиденциальной информации.
Выберите тип конфиденциальной информации основного элемента , с которым он будет связан, чтобы определить, какой текст в документе будет сравниваться со всеми значениями в поле первичного элемента. Дополнительные сведения о доступных типах конфиденциальной информации см. в разделе Определения сущностей SIT .
Важно!
Выберите sit, который точно соответствует формату содержимого, которое вы хотите найти. Выбор sit, соответствующего ненужному содержимому, например , который соответствует всем текстовым строкам или всем числам, может привести к чрезмерной нагрузке в системе, что может привести к тому, что конфиденциальная информация останется незамеченной.
Выберите вспомогательные элементы и параметры сопоставления.
Нажмите кнопку Готово.
Выберите Создать шаблон , если вы хотите создать дополнительные шаблоны для EDM SIT.
Нажмите кнопку Далее.
Выберите нужный рекомендуемый уровень доверия и расположение символов. Это будет значение по умолчанию для всего EDM SIT. (Сведения о близком расположении символов см. в разделе Общие сведения о близком расположении. Нажмите кнопку Далее.
Нажмите Далее, введите Имя и Описание для администраторов.
При создании файла схемы заголовки столбцов (поля данных) должны соответствовать следующим требованиям к именованию:
— должен начинаться с буквы и состоять по крайней мере из трех буквенно-цифровых символов.
— должен содержать только буквенно-цифровые символы.Проверьте информацию и нажмите Отправить.
Выберите соответствующую вкладку для используемого портала. В зависимости от плана Microsoft 365 Портал соответствия требованиям Microsoft Purview будет прекращена или будет прекращена в ближайшее время.
Дополнительные сведения о портале Microsoft Purview см. на портале Microsoft Purview. Дополнительные сведения о портале соответствия требованиям см. в разделе Портал соответствия требованиям Microsoft Purview.
Войдите на портал >Microsoft Purview Information Protection >Классификаторы>EDM.
-
- Установите для переключателя Новый интерфейс EDM значение Выкл.
Выберите типы конфиденциальной информации EDM.
Выберите EDM SIT, который нужно изменить.
Выберите Изменить тип конфиденциальной информации EDM или Удалить тип конфиденциальной информации EDM из всплывающего меню.
См . статью Использование схемы точного сопоставления данных и шаблона SIT для процедур редактирования.
По соображениям производительности очень важно использовать шаблоны, которые сводят к минимуму количество ненужных совпадений. Например, можно использовать sit на основе регулярного выражения.
\b\w*\b
Это будет соответствовать каждому отдельному слову или номеру в любом документе или сообщении электронной почты. Это приведет к тому, что служба будет перегружена совпадениями и пропустит обнаружение истинных совпадений. Использование более точных шаблонов может избежать этой ситуации. Ниже приведены некоторые рекомендации по определению правильной конфигурации для некоторых распространенных типов данных.
Email адреса: Email адреса легко определить, но поскольку они настолько распространены в конфиденциальном содержимом, они могут привести к значительной нагрузке в системе при использовании в качестве основного поля. Используйте надстройки электронной почты только в качестве дополнительного доказательства. Если они должны использоваться в качестве основного доказательства, при определении пользовательской логики SIT используйте логику для исключения элементов, в которых адреса электронной почты используются в качестве From
или To
в полях электронной почты. Кроме того, используйте логику, чтобы исключить адреса электронной почты из домена вашей компании, чтобы уменьшить количество ненужных строк, которые должны быть сопоставлены.
Номера телефонов. Номера телефонов могут быть разных форматов, включая или за исключением префиксов страны или региона, кодов регионов и разделителей. Чтобы уменьшить ложные отрицательные значения при сохранении нагрузки до минимума, используйте их только в качестве дополнительных элементов, исключите все вероятные разделители, такие как круглые скобки и дефисы, и включите в таблицу конфиденциальных данных только ту часть, которая всегда будет присутствовать в номере телефона.
имена Люди. Не используйте имена людей в качестве основных элементов, если в качестве элемента классификации для этого типа EDM используется sit на основе регулярного выражения, так как их трудно отличить от распространенных слов.
Если необходимо использовать первичный элемент, который трудно определить с помощью определенного шаблона (например, имени кода проекта), который может создать большой объем обрабатываемых совпадений, убедитесь, что вы включили ключевые слова в sit, используемый в качестве элемента классификации для типа EDM. Например, если используются имена кода проекта, которые также являются обычными словами, можно использовать слово project
как необходимое дополнительное свидетельство в непосредственной близости к шаблону на основе регулярных выражений имени проекта в sit, используемом в качестве элемента классификации для типа EDM. Вы также можете использовать SIT на основе обычного словаря в качестве элемента классификации для EDM SIT.
При попытке сопоставить числовые строки укажите допустимые диапазоны чисел, такие как число цифр или начальные цифры, если они известны. Если вам нужно сопоставить относительно гибкий диапазон чисел, можно использовать ключевые слова в базовом SIT, чтобы уменьшить количество совпадений. Например, если вы пытаетесь сопоставить номера счетов, состоящие из 7–11 цифр, добавьте слова account
, customer
, acct.
в sit как необходимые дополнительные доказательства. Это снижает вероятность ненужных совпадений, которые могут привести к превышению ограничений для обрабатываемых совпадений EDM.
Если поле, которое необходимо использовать в качестве основного элемента, соответствует простому шаблону, который может привести к большому количеству совпадений, и вы не можете добавить наличие ключевых слов в качестве дополнительных доказательств в SIT, вместо этого можно требовать минимальное количество вхождений этого шаблона. Например, можно использовать пользовательский код SIT, определенный следующим образом, чтобы обнаружить по крайней мере 29 других пятизначных чисел, окружающих потенциальное пятизначное число, с соответствующим в конфиденциальном содержимом:
<Entity id="98703510-18b3-43d4-961f-15317594beb7"
patternsProximity="300"
recommendedConfidence="85"
relaxProximity="false">
<Pattern confidenceLevel="85"
proximity="300">
<IdMatch idRef="MRN"/>
<Match idRef="30 AccountNrs"
minCount="30"
proximity="3000"
uniqueResults="true"/>
</Pattern>
</Entity>
<Regex id="30 AccountNrs">\d{5}</Regex>
В некоторых случаях может потребоваться определить определенные учетные данные или номера учетных записей, которые по историческим причинам не соответствуют стандартизированной схеме. Например, Medical Record Numbers
может состоять из множества различных перестановок букв и цифр в одной организации. Несмотря на то, что сначала может быть трудно определить шаблон, более тщательное изучение часто позволяет сузить шаблон, который описывает все допустимые значения, не вызывая чрезмерное количество недопустимых совпадений. Например, может быть обнаружено, что "все MRN имеют длину не менее семи символов, имеют по крайней мере две числовые цифры, а если в них есть буквы, они начинаются с одной". Создание регулярного выражения на основе таких критериев должно позволить свести к минимуму ненужные совпадения при записи всех нужных значений, а дальнейший анализ может повысить точность путем определения отдельных шаблонов, описывающих различные форматы.
В этой процедуре показано, как создать файл в формате XML, который называется пакетом правил (с кодировкой Юникода), а затем передать его в Microsoft Purview с помощью командлетов PowerShell для обеспечения безопасности & соответствия требованиям.
Примечание
Если код SIT, с которым вы сопоставляете, может обнаруживать подтверждающие доказательства из нескольких слов, то вторичные элементы, определенные в пакете правил, созданном вручную, можно сопоставить с SIT. Например, имя John Smith
не будет соответствовать в качестве дополнительного элемента, так как мы бы сравнили John
и Smith
нашли в содержимом отдельно с термином John Smith
, переданным в одном из полей, если это поле подтверждения доказательства не было сопоставлено с sit, который может обнаружить этот шаблон.
Существует ограничение в 10 пакетов правил в клиенте Microsoft 365. Так как пакет правил может содержать произвольное количество типов конфиденциальной информации, вы можете не создавать новый пакет правил каждый раз, когда вы хотите определить новый sit с помощью этого метода, а вместо этого экспортировать существующий пакет правил и добавить типы конфиденциальной информации в XML-файл перед повторной отправкой.
Создайте пакет правил в формате XML (в кодировке Юникод), как показано в примере ниже. (Вы можете скопировать, изменить и использовать наш пример.)
При настройке пакета правил убедитесь, что вы правильно ссылаетесь на файл исходной таблицы .csv, TSV или канал (|) с разделителями конфиденциальной информации и edm.xml файл схемы. Вы можете скопировать, изменить и использовать наш пример. В этом примере xml необходимо настроить следующие поля, чтобы создать конфиденциальный тип EDM:
Идентификаторы RulePack и ExactMatch. Используйте командлетNew-GUID для создания GUID.
Datastore. В этом поле указывается, какое хранилище данных подстановки EDM будет использоваться. Укажите имя источника данных для настроенной схемы EDM.
idMatch. Это поле указывает на основной элемент EDM.
Соответствует: указывает поле для точного поиска. Вы указываете имя поля для поиска в схеме EDM для DataStore.
Классификация. В этом поле указывается совпадение SIT, которое активирует поиск EDM. Можно использовать имя или GUID существующего встроенного или пользовательского SIT.
Примечание
Имейте в виду, что любая строка, соответствующая предоставленному sit, будет хэширована и сравнивается с каждой записью в таблице источника конфиденциальной информации. Чтобы избежать проблем с производительностью при выборе пользовательского sit для элемента классификации, не используйте тот, который будет соответствовать большому проценту содержимого. Например, тот, который соответствует "любому числу" или "любому пятибуквенному слову". Ее можно отличить, добавив вспомогательные ключевые слова или включив форматирование в определение пользовательской классификации SIT.
Соответствие. Это поле указывает на дополнительные доказательства, обнаруженные в непосредственной близости от idMatch.
Соответствует. Вы указываете любое имя поля в схеме EDM для хранилища данных.
Ресурс idRef: В этом разделе указываются имя и описание конфиденциального типа в нескольких языковых стандартах.
- Вы указываете GUID для ExactMatch ID.
- Имя & описание: настройте по мере необходимости.
<RulePackage xmlns="http://schemas.microsoft.com/office/2018/edm"> <RulePack id="fd098e03-1796-41a5-8ab6-198c93c62b11"> <Version build="0" major="2" minor="0" revision="0" /> <Publisher id="eb553734-8306-44b4-9ad5-c388ad970528" /> <Details defaultLangCode="en-us"> <LocalizedDetails langcode="en-us"> <PublisherName>IP DLP</PublisherName> <Name>Health Care EDM Rulepack</Name> <Description>This rule package contains the EDM sensitive type for health care sensitive types.</Description> </LocalizedDetails> </Details> </RulePack> <Rules> <ExactMatch id = "E1CC861E-3FE9-4A58-82DF-4BD259EAB371" patternsProximity = "300" dataStore ="PatientRecords" recommendedConfidence = "65" > <Pattern confidenceLevel="65"> <idMatch matches = "SSN" classification = "U.S. Social Security Number (SSN)" /> </Pattern> <Pattern confidenceLevel="75"> <idMatch matches = "SSN" classification = "U.S. Social Security Number (SSN)" /> <Any minMatches ="3" maxMatches ="6"> <match matches="PatientID" /> <match matches="MRN"/> <match matches="FirstName"/> <match matches="LastName"/> <match matches="Phone"/> <match matches="DOB"/> </Any> </Pattern> </ExactMatch> <LocalizedStrings> <Resource idRef="E1CC861E-3FE9-4A58-82DF-4BD259EAB371"> <Name default="true" langcode="en-us">Patient SSN Exact Match.</Name> <Description default="true" langcode="en-us">EDM Sensitive type for detecting Patient SSN.</Description> </Resource> </LocalizedStrings> </Rules> </RulePackage>
Отправьте пакет правил, выполнив следующую команду PowerShell:
New-DlpSensitiveInformationTypeRulePackage -FileData ([System.IO.File]::ReadAllBytes('.\\rulepack.xml'))
Примечание
Синтаксис файла пакета правил аналогичен синтаксису для других типов конфиденциальной информации. Полные сведения о синтаксисе файла пакета правил и дополнительных параметрах конфигурации, а также инструкции по изменению и удалению типов конфиденциальной информации с помощью PowerShell см. в статье Создание настраиваемого sit с помощью PowerShell.
- Для классического интерфейса: проверка точного соответствия данных SIT