为基于精确数据匹配的敏感信息类型哈希并上传敏感信息源表

本文介绍如何对敏感信息源表进行哈希处理和上传。

提示

如果你不是 E5 客户,请使用为期 90 天的 Microsoft Purview 解决方案试用版来探索其他 Purview 功能如何帮助组织管理数据安全性和合规性需求。 立即从Microsoft Purview 合规门户试用中心开始。 了解有关 注册和试用条款的详细信息。

适用对象

哈希和上传敏感信息源表

在此阶段中,你将:

  1. 设置自定义安全组和用户帐户。
  2. 设置 EDM 上传代理工具。
  3. 使用 EDM 上传代理工具以盐值对敏感信息源表进行哈希处理并上传。

哈希和上传可以使用一台计算机完成,也可以将哈希步骤与上传步骤分开,以提高安全性。

如果想要在一台计算机上创建哈希并上传,则需要在可直接连接到 Microsoft 365 租户的计算机上执行此操作。 这要求明文敏感信息源表文件位于该计算机上,以便进行哈希处理。

如果不想在直接访问计算机上公开明文敏感信息源表文件,可以在位于安全位置的计算机上对其进行哈希处理。 然后,可以将哈希文件和 salt 文件复制到可直接连接到 Microsoft 365 租户进行上传的计算机。 在分离的哈希和上传方案中,需要在两台计算机上使用 EDMUploadAgent。

重要

如果使用精确数据匹配架构和敏感信息类型向导来创建架构文件 ,则必须下载 此过程的架构(如果尚未下载)。 请参阅 以 XML 格式导出 EDM 架构文件

注意

如果你的组织已在 租户级别为 Microsoft 365 设置了客户密钥,则完全数据匹配将自动使用加密功能。 这仅适用于商业云中 E5 许可的租户。

最佳做法

分离哈希和上传敏感数据的过程,以便更轻松地隔离过程中的任何问题。

进入生产环境后,在大多数情况下将这两个步骤分开。 在独立计算机上执行哈希过程,然后将文件传输到面向 Internet 的计算机,可确保实际数据永远不会在由于连接到 Internet 而遭到入侵的计算机上以明文形式提供。

确保敏感数据表没有格式设置问题

在对敏感数据进行哈希处理和上传之前,请执行搜索以验证是否存在可能导致分析内容出现问题的特殊字符。 可以通过使用以下语法使用 EDM 上传代理来验证表的格式是否适合用于 EDM:

EdmUploadAgent.exe /ValidateData /DataFile [data file] /Schema [schema file]

如果该工具指示列数不匹配,则可能是由于表中的值中存在逗号或引号字符,这些逗号或引号与列分隔符混淆。 除非它们围绕整个值,否则单引号和双引号可能会导致工具错误地说明单个列的开始或结束位置。

如果发现完整值周围的单引号或双引号字符:可以保留原样。

如果在值内发现单引号字符或逗号:例如,人员姓名 Tom O'Neil 或以撇号字符开头的城市 s-Gravenhage,则需要修改用于生成敏感信息表的数据导出过程,并使用双引号将此类列括起来。

如果在值内找到双引号字符,则最好对表使用制表符分隔格式,这不太容易出现此类问题。

先决条件

  • 要添加到 EDM_DataUploaders 安全组的 Microsoft 365 的工作或学校帐户
  • Windows 10、具有 .NET 版本 4.6.2 的Windows Server 2016,或用于运行 EDMUploadAgent 的 Windows Server 2019 计算机
  • 上传计算机上的目录,用于以下各项:
    • EDM 上传代理
    • .csv、.tsv 或管道 (中的敏感项文件 |) 格式, 示例中PatientRecords.csv
    • 在此过程中创建的输出哈希和盐文件
    • 来自 edm .xml 文件的数据存储名称,在本示例中为 PatientRecords

重要

  1. 如果使用 Windows Server 2016 或之前,还必须在安装 EDM 上传代理之前安装 Visual C++

  2. 在自定义文件夹中安装 EDM 上传代理 ,因此不需要管理员权限。 如果将它安装到默认 (Program Files) ,则需要管理员权限。

设置安全组和用户帐户

  1. 作为全局管理员,请使用订阅的相应 链接 转到管理中心, 并创建 名为 EDM_DataUploaders 的安全组。

  2. 将一个或多个用户添加到 EDM_DataUploaders 安全组。 (这些用户管理敏感信息的数据库。)

从一台计算机上创建哈希并上传

此计算机必须对你的 Microsoft 365 租户拥有直接访问权限。

注意

在开始此过程之前,请确保你是 EDM_DataUploaders 安全组的成员。

提示

(可选)可以针对敏感信息源表文件运行验证,以在上传之前通过运行以下命令来检查错误:

EdmUploadAgent.exe /ValidateData /DataFile [data file] /Schema [schema file]

有关所有 EdmUploadAgent.exe 支持的参数的详细信息,请运行

EdmUploadAgent.exe /?

  1. 创建 EDMUploadAgent 要使用的工作目录。 例如,C:\EDM\Data。 将 PatientRecords .csv 文件放入该目录中。

  2. 下载并将适合你的订阅的 EDM 上传代理安装到步骤 1 创建的目录中。

    • 商业 + GCC - 大多数商业客户应使用此选项。
    • GCC-High - 此选项专用于高安全性的政府云订阅者。
    • DoD - 此选项专用于美国国防部云客户。

    注意

    上述链接中的 EDMUploadAgent 已更新,可自动将随机混淆值添加到哈希数据。 或者,你可以提供自己的随机混淆值。 使用此版本后,你将不能使用 EDMUploadAgent 的先前版本。

    可以使用 EDMUploadAgent 将数据上传到任何给定数据存储,每天最多五次。

  3. 授权 EDM 上传代理,以管理员身份打开命令提示符窗口,切换到 C:\EDM\Data 目录,然后运行以下命令:

    EdmUploadAgent.exe /Authorize

    重要

    必须从安装 EdmUploadAgent 的文件夹运行它,并指示数据文件的完整路径。

  4. 使用添加到 EDM_DataUploaders 安全组的 Microsoft 365 工作或学校帐户登录。 将从用户帐户提取你的租户信息以建立连接。

    重要说明:如果使用了“完全数据匹配”架构和敏感信息类型向导来创建架构, 则必须 下载该架构以供在此过程中使用(如果尚未下载)。 在命令提示符窗口中运行此命令:

    EdmUploadAgent.exe /SaveSchema /DataStoreName <schema name> /OutputDir <path to output folder>
    
  5. 若要为敏感数据创建哈希并上传,请在命令提示符窗口中运行以下命令:

    EdmUploadAgent.exe /UploadData /DataStoreName [DS Name] /DataFile [data file] /HashLocation [hash file location] /Schema [Schema file] /ColumnSeparator ["{Tab}"|"|"] /AllowedBadLinesPercentage [value]
    

    注意

    敏感数据文件的默认格式是逗号分隔值。 可以通过使用 /ColumnSeparator 参数指示“{Tab}”选项来指定制表符分隔的文件,也可以通过指示“|”选项指定管道分隔的文件。

    例如:EdmUploadAgent.exe /UploadData /DataStoreName PatientRecords /DataFile C:\Edm\Hash\PatientRecords.csv /HashLocation C:\Edm\Hash /Schema edm.xml /AllowedBadLinesPercentage 5

EDM 和双字节字符集语言

精确数据匹配支持双字节字符,例如中文、日语和韩语中使用的字符。 但是,它不支持编码为双字节字符的确证证据的字符串匹配。 它也不与在分类内容中检测到的多标记 CJK 文本匹配,除非已按如下所述启用了 EDM 的全球化。 在所有情况下,SIT 必须映射到任何多标记文本,无论是主字段还是对于确凿证据字段。

重要

若要调用双字节字符的确切数据匹配,需要执行以下步骤:

  1. 创建旨在与双字节字符集语言(如日语汉字)匹配的 EDM 敏感信息类型 (SIT) 。

  2. 确保已下载并安装版本 17.01.0495.0 (或更高版本的 EDM 上传代理)

  3. EDMUploadAgent.exe.config 文件的全球化参数更新为 true: <add key=" IsGlobalizationEnabled" value="true">

  4. 使用要匹配的数据对源表进行哈希处理和上传。

将哈希与上传分开操作

在处于安全环境中的计算机上执行哈希。 必须在两台计算机上安装 EDMUploadAgent

可选:如果使用了精确数据匹配架构和敏感信息类型向导来创建架构,但尚未下载该架构,请在命令提示符窗口中运行以下命令以下载 XML 格式的文件:

EdmUploadAgent.exe /SaveSchema /DataStoreName <schema name> /OutputDir <path to output folder>
  1. 在安全环境中的计算机上,在命令提示符窗口中运行以下命令:

    EdmUploadAgent.exe /CreateHash /DataFile [data file] /HashLocation [hash file location] /Schema [Schema file] /AllowedBadLinesPercentage [value]
    

    例如:

    EdmUploadAgent.exe /CreateHash /DataFile C:\Edm\Data\PatientRecords.csv /HashLocation C:\Edm\Hash /Schema edm.xml /AllowedBadLinesPercentage 5
    

    注意

    敏感数据文件的默认格式是逗号分隔值。 可以通过使用 /ColumnSeparator 参数指示“{Tab}”选项来指定制表符分隔的文件,也可以通过指示“|”选项指定管道分隔的文件。

    如果未指定 /Salt <saltvalue> 选项,这将输出具有以下扩展名的哈希文件和 salt 文件:

    • .EdmHash
    • .EdmSalt
  2. 以安全的方式将这些文件复制到用于将敏感信息源表文件 (PatientRecords) 上传到租户的计算机。

  3. 授权 EDM 上传代理,以管理员身份打开命令提示符窗口,切换到 C:\EDM\Data 目录,然后运行以下命令:

    EdmUploadAgent.exe /Authorize
    

    重要

    必须从安装 EdmUploadAgent 的文件夹运行它,并指示数据文件的完整路径。

  4. 使用添加到 EDM_DataUploaders 安全组的 Microsoft 365 工作或学校帐户登录。 将从用户帐户提取你的租户信息以建立连接。

  5. 若要上传哈希数据,请在 Windows 命令提示符中运行以下命令:

    EdmUploadAgent.exe /UploadHash /DataStoreName \<DataStoreName\> /HashFile \<HashedSourceFilePath\ /ColumnSeparator ["{Tab}"|"|"]
    

    例如:

    EdmUploadAgent.exe /UploadHash /DataStoreName PatientRecords /HashFile C:\\Edm\\Hash\\**PatientRecords.EdmHash**
    
  6. 若要验证是否已上传敏感数据,请在命令提示符窗口中运行以下命令:

    EdmUploadAgent.exe /GetDataStore
    

    你将看到数据存储的列表以及它们上次更新的时间。

  7. 如果要查看所有上传到特定存储区的数据,请在命令提示符窗口中运行以下命令,查看所有数据存储的列表及其更新时间:

    EdmUploadAgent.exe /GetSession /DataStoreName <DataStoreName>
    

注意

若要在首次创建哈希后自动执行哈希和上传过程,请参阅 刷新完全数据匹配敏感信息源表文件

后续步骤