为基于精确数据匹配的敏感信息类型哈希并上传敏感信息源表

本文介绍如何对敏感信息源表进行哈希处理和上传。

提示

如果你不是 E5 客户,请使用为期 90 天的 Microsoft Purview 解决方案试用版来探索其他 Purview 功能如何帮助组织管理数据安全性和合规性需求。 立即从Microsoft Purview 合规门户试用中心开始。 了解有关 注册和试用条款的详细信息。

适用对象

哈希和上传敏感信息源表

在此阶段中,你将:

  1. 设置自定义安全组和用户帐户。
  2. 设置 EDM 上传代理工具。
  3. 使用 EDM 上传代理工具以盐值对敏感信息源表进行哈希处理并上传。

哈希和上传可以使用一台计算机完成,也可以将哈希步骤与上传步骤分开,以提高安全性。

如果想要在一台计算机上创建哈希并上传,则需要在可直接连接到 Microsoft 365 租户的计算机上执行此操作。 这要求明文敏感信息源表文件位于该计算机上,以便进行哈希处理。

如果不想在直接访问计算机上公开明文敏感信息源表文件,可以在位于安全位置的计算机上对其进行哈希处理。 在这种情况下, 必须在两台计算机上安装相同版本的 EDM 上传代理。 然后,可以将哈希文件和 salt 文件从安全计算机复制到可直接连接到 Microsoft 365 租户的计算机。

重要

如果使用精确数据匹配架构和敏感信息类型工具创建架构文件 ,则必须下载 此过程的架构(如果尚未下载)。 请参阅 导出 XML 格式的 EDM 架构文件

注意

如果你的组织已在 租户级别为 Microsoft 365 设置了客户密钥,则完全数据匹配将自动使用加密功能。 这仅适用于商业云中 E5 许可的租户。

最佳做法

分离哈希和上传敏感数据的过程,以便更轻松地隔离过程中的任何问题。

进入生产环境后,在大多数情况下将这两个步骤分开。 若要确保实际数据永远不会在由于连接到 Internet 而遭到入侵的计算机上以明文形式提供,请在独立的计算机上运行哈希过程。 然后,将文件传输到面向 Internet 的计算机以上传该文件。

确保敏感数据表没有格式设置问题

在对敏感数据进行哈希处理和上传之前,请进行搜索以验证是否存在可能导致在分析内容时出现问题的特殊字符。

可以通过使用以下语法使用 EDM 上传代理来验证表的格式是否适合用于 EDM:

EdmUploadAgent.exe /ValidateData /DataFile [data file] /Schema [schema file]

如果该工具指示列数不匹配,则可能是由于表中的值中存在逗号或引号字符,这些逗号或引号与列分隔符混淆。 除非它们围绕整个值,否则单引号和双引号可能会导致工具错误地说明单个列的开始或结束位置。

如果发现完整值周围的单引号或双引号字符:可以保留原样。

如果在值内发现单引号字符或逗号:例如,人员姓名 Tom O'Neil 或以撇号字符开头的城市 s-Gravenhage,则需要修改用于生成敏感信息表的数据导出过程,并使用双引号将此类列括起来。

如果在值内找到双引号字符,则最好对表使用制表符分隔格式,这不太容易出现此类问题。

先决条件

  • 要添加到 EDM_DataUploaders 安全组的 Microsoft 365 的工作或学校帐户
  • Windows 10、具有 .NET 版本 4.6.2 的Windows Server 2016或用于运行 EDM 上传代理的 Windows Server 2019 计算机
  • 上传计算机上的目录,用于以下各项:
    • EDM 上传代理
    • .csv、.tsv 或管道 (中的敏感项文件 |) 格式, 示例中PatientRecords.csv
    • 完成此过程时创建的输出哈希和盐文件
    • 来自 edm .xml 文件的数据存储名称,在本示例中为 PatientRecords

重要

  1. 如果使用 Windows Server 2016 或 earler,还必须在安装 EDM 上传代理之前安装 Visual C++

设置安全组和用户帐户

  1. 作为全局管理员,请使用订阅的相应 链接 转到管理中心, 并创建 名为 EDM_DataUploaders 的安全组。

  2. 将一个或多个用户添加到 EDM_DataUploaders 安全组。 (这些用户管理敏感信息的数据库。)

从一台计算机上创建哈希并上传

此计算机必须对你的 Microsoft 365 租户拥有直接访问权限。

注意

在开始此过程之前,请确保你是 EDM_DataUploaders 安全组的成员。

提示

(可选)可以针对敏感信息源表文件运行验证,以在上传之前通过运行以下命令来检查错误:

EdmUploadAgent.exe /ValidateData /DataFile [data file] /Schema [schema file]

有关 EdmUploadAgent.exe支持的所有参数的详细信息,请运行

EdmUploadAgent.exe /?

注意

上述链接处的 EDM 上传代理已更新为自动向哈希数据添加盐值。 或者,你可以提供自己的随机混淆值。 使用此版本后,将无法使用以前版本的 EDM 上传代理。

可以使用 EDM 上传代理将数据上传到任何给定数据存储,每天最多五次。

  1. 授权 EDM 上传代理,以管理员身份打开命令提示符窗口,切换到 C:\EDM\Data 目录,然后运行以下命令:

    EDM Upload Agent.exe /Authorize

    重要

    必须从安装 EDM 上传代理 应用程序的文件夹运行该应用程序,并指示数据文件的完整路径。

  2. 使用添加到EDM_DataUploaders安全组的工作或学校帐户 登录 Microsoft 365。 将从用户帐户提取你的租户信息以建立连接。

    重要说明:如果使用精确数据匹配架构和敏感信息类型工具创建架构, 则必须 下载它供此过程使用(如果尚未下载)。 在命令提示符窗口中运行此命令:

    EdmUploadAgent.exe /SaveSchema /DataStoreName <schema name> /OutputDir <path to output folder>
    
  3. 若要为敏感数据创建哈希并上传,请在命令提示符窗口中运行以下命令:

    EdmUploadAgent.exe /UploadData /DataStoreName [DS Name] /DataFile [data file] /HashLocation [hash file location] /Schema [Schema file] /AllowedBadLinesPercentage [value]
    

    注意

    敏感数据文件的默认格式是逗号分隔值。 可以通过使用 /ColumnSeparator 参数指示“{Tab}”选项来指定制表符分隔的文件,也可以通过指示“|”选项指定管道分隔的文件。

    例如:EdmUploadAgent.exe /UploadData /DataStoreName PatientRecords /DataFile C:\Edm\Hash\PatientRecords.csv /HashLocation C:\Edm\Hash /Schema edm.xml /AllowedBadLinesPercentage 5

EDM 和双字节字符集语言

精确数据匹配支持双字节字符,例如中文、日语和韩语中使用的字符。 但是,它不支持编码为双字节字符的确证证据的字符串匹配。 它也不与在分类内容中检测到的多标记 CJK 文本匹配,除非已按如下所述启用了 EDM 的全球化。 在所有情况下,对于主字段和确凿证据字段,SIT 都必须映射到任何多标记文本。

重要

若要调用双字节字符的确切数据匹配,需要执行以下步骤:

  1. 创建旨在与双字节字符集语言(如日语汉字)匹配的 EDM 敏感信息类型 (SIT) 。

  2. 确保已下载并安装版本 17.01.0495.0 (或更高版本的 EDM 上传代理)

  3. EdmUploadAgent.exe.config 文件的全球化参数更新为 true: <add key=" IsGlobalizationEnabled" value="true">

  4. 使用要匹配的数据对源表进行哈希处理和上传。

将哈希与上传分开操作

在处于安全环境中的计算机上执行哈希。 必须在两台计算机上安装 相同版本的 EDM 上传代理。

可选:如果使用精确数据匹配架构和 SIT 工具创建了架构文件,请在命令提示符窗口中运行以下命令以下载 XML 格式的文件:

EdmUploadAgent.exe /SaveSchema /DataStoreName <schema name> /OutputDir <path to output folder>
  1. 在安全环境中的计算机上,在命令提示符窗口中运行以下命令:

    EdmUploadAgent.exe /CreateHash /DataFile [data file] /HashLocation [hash file location] /Schema [Schema file] /AllowedBadLinesPercentage [value]
    

    例如:

    EdmUploadAgent.exe /CreateHash /DataFile C:\Edm\Data\PatientRecords.csv /HashLocation C:\Edm\Hash /Schema edm.xml /AllowedBadLinesPercentage 5
    

    注意

    敏感数据文件的默认格式是逗号分隔值。 可以通过使用 /ColumnSeparator 参数指示“{Tab}”选项来指定制表符分隔的文件,也可以通过指示“|”选项指定管道分隔的文件。

    如果未指定 /Salt <saltvalue> 选项,这将输出具有以下扩展名的哈希文件和 salt 文件:

    • .EdmHash
    • .EdmSalt
  2. 以安全的方式将这些文件复制到用于将敏感信息源表文件 (PatientRecords) 上传到租户的计算机。

  3. 授权 EDM 上传代理,以管理员身份打开命令提示符窗口,切换到 C:\EDM\Data 目录,然后运行以下命令:

    EdmUploadAgent.exe /Authorize
    

    重要

    必须从安装 EDM 上传代理应用程序的文件夹运行该应用程序,并指示数据文件的完整路径。

  4. 使用添加到EDM_DataUploaders安全组的工作或学校帐户 登录 Microsoft 365。 将从用户帐户提取你的租户信息以建立连接。

  5. 若要上传哈希数据,请在 Windows 命令提示符中运行以下命令:

    EdmUploadAgent.exe /UploadHash /DataStoreName \<DataStoreName\> /HashFile \<HashedSourceFilePath\ /ColumnSeparator ["{Tab}"|"|"]
    

    例如:

    EdmUploadAgent.exe /UploadHash /DataStoreName PatientRecords /HashFile C:\\Edm\\Hash\\**PatientRecords.EdmHash**
    
  6. 若要验证敏感数据上传是否成功,请在命令提示符窗口中运行以下命令:

    EdmUploadAgent.exe /GetDataStore
    

    将显示数据存储的列表以及它们上次更新的时间。

  7. 若要显示上传到特定存储区的所有数据,并在更新这些数据时,请在命令提示符窗口中运行以下命令:

    EdmUploadAgent.exe /GetSession /DataStoreName <DataStoreName>
    

注意

若要在首次创建哈希后自动执行哈希和上传过程,请参阅 刷新完全数据匹配敏感信息源表文件

后续步骤