创建 EDM SIT 示例文件(新体验)

(基于 EDM) 的敏感信息类型 (SIT) 创建和完全匹配是一个多阶段过程。 它们可用于 Microsoft Purview 数据丢失防护策略、电子数据展示和某些内容治理任务。

提示

如果你不是 E5 客户,请使用为期 90 天的 Microsoft Purview 解决方案试用版来探索其他 Purview 功能如何帮助组织管理数据安全性和合规性需求。 立即从Microsoft Purview 合规门户试用中心开始。 了解有关 注册和试用条款的详细信息。

适用对象

  • 新体验

如果要使用经典体验创建 EDM SIT,请参阅 创建 EDM SIT 经典体验

开始之前

设置示例文件的格式

系统将从示例文件中提取列名以创建架构,并将建议将示例字段数据映射到的基本 SIT。 它的格式必须与源敏感信息表文件的格式相同,并且应包含代表实际数据的合成值。 该文件可以保存在 .csv (逗号分隔值) 、 .tsv (制表符分隔值) 或管道分隔 (|) 格式,但应与实际源敏感信息表文件相同。 如果数据值包含逗号(例如街道地址),建议使用 .tsv 格式。

  • 使用大约 10-20 行数据,以确保系统有足够的示例来处理。
  • 包含逗号的字段值必须用引号 “括起来。
  • 第一行必须是标题行并包含列名。
  • 该文件必须至少包含一行数据。
  • 每行数据必须包含与标头对应的正确数量的字段。
  • 示例文件最多可以包含 32 列。
  • 示例文件的大小不能超过 2.5 MB。
  • 列 (字段) 名称必须以字母开头,长度至少为 3 个字符,并且仅包含字母数字字符 (A-Z、a-z、0-9) ,不能包含空格、下划线或其他特殊字符。

例如,如果实际数据使用制表符分隔 (.tsv) 格式,如下所示:

显示制表符分隔表的图像,其中包含四列和三行人工真实数据

然后,示例文件必须具有相同的列标题,但对行使用合成值,如下所示

FirstName LastName PatientNumber CreditCardNumber
埃里克 所 罗 门 987-65-4321 9000000000000000
丽莎 泰勒 123-45-6789 500000000000000
安德烈 劳森 234-56-7890 200000000000000

如何使用示例文件模板

如果你位于美国医疗保健、美国金融服务或美国保险行业垂直行业,则可以从以下示例文件模板开始,以加快示例文件创建过程。 这些文件包含各行业最常用的列标题以及字段中的合成值。

若要使用这些模板,请执行以下操作:

  1. 下载行业的示例文件模板。
  2. 将模板中的列标题与实际源数据进行比较,然后选择要在自定义示例文件中用作主字段的列标题。
  3. 将实际源数据的格式与合成值的格式进行比较。 更改合成值的格式以匹配源数据值的格式。
  4. 保存自定义示例文件,以 在创建 EDM SIT 架构和规则包时使用。

提示

在新体验中工作时,可以选择上传示例文件或手动输入示例文件值。 建议创建示例文件。

后续步骤