了解信息保护扫描程序

注意

现在处于预览阶段,有一个新版本的信息保护扫描程序。 有关详细信息,请参阅从 Azure 信息保护 客户端升级Microsoft Purview 信息保护扫描程序

使用本部分中的信息了解Microsoft Purview 信息保护扫描程序,以及如何成功安装、配置、运行,并在必要时对其进行故障排除。

此扫描程序在 Windows Server 上作为服务运行,可用于发现、分类和保护以下数据存储上的文件:

  • 使用 SMB 或 NFS (预览版) 协议的网络共享的 UNC 路径

  • 通过 SharePoint Server 2013 SharePoint Server 2019的 SharePoint 文档库和文件夹

为了对文件进行分类和保护,扫描程序使用 Microsoft Purview 门户或Microsoft Purview 合规门户中配置的敏感度标签

扫描程序概述

信息保护扫描程序可以检查 Windows 可以编制索引的任何文件。 如果将敏感度标签配置为应用自动分类,扫描程序可以标记发现的文件以应用该分类,并选择性地应用或删除保护。 有关信息保护扫描程序) 支持的敏感信息类型 (SCT 的信息,请参阅 Microsoft Purview 信息保护 扫描程序支持的敏感信息类型

下图显示了扫描程序体系结构,扫描程序可在本地和 SharePoint 服务器中发现文件。

Microsoft Purview 信息保护扫描程序体系结构

为了检查文件,扫描程序使用计算机上安装的 IFilters。 为了确定文件是否需要标记,扫描程序使用敏感信息类型和模式检测或正则表达式模式。

扫描程序使用 Azure 信息保护 客户端,并且可以对与客户端相同的文件类型进行分类和保护。 有关详细信息,请参阅 Azure 信息保护统一标记客户端支持的文件类型

根据需要执行以下任一操作来配置扫描:

  • 仅在发现模式下运行扫描程序,以创建检查查看标记文件时会发生什么情况的报表。
  • 运行扫描程序以发现包含敏感信息的文件,而无需配置应用自动分类的标签。
  • 自动运行扫描程序 以应用配置的标签。
  • 定义文件类型列表 以指定要扫描或排除的特定文件。

注意

扫描程序不会实时发现和标记。 它会系统地对指定的数据存储上的文件进行爬网。 将此周期配置为运行一次或重复运行。

提示

扫描程序支持具有多个节点的扫描程序群集,使组织能够横向扩展,实现更快的扫描时间和更广泛的范围。

从一开始就部署多个节点,或者从单节点群集开始,然后随着增长而添加其他节点。 为 Install-AIPScanner cmdlet 使用相同的群集名称和数据库部署多个节点。

扫描过程

扫描文件时,信息保护扫描程序将执行以下步骤:

1.确定是包含文件还是排除文件进行扫描

2. 检查并标记文件

3. 标签无法检查的文件

有关详细信息,请参阅 扫描程序未标记的文件

1.确定是包含还是排除文件进行扫描

扫描程序会自动跳过从分类和保护中排除的文件,例如可执行文件和系统文件。 有关详细信息,请参阅 从分类和保护中排除的文件类型

扫描程序还会考虑显式定义为扫描或从扫描中排除的任何文件列表。 默认情况下,文件列表适用于所有数据存储库,也可以仅针对特定存储库定义。

若要定义用于扫描或排除的文件列表,请使用内容扫描作业中的 “要扫描的文件类型 ”设置。 例如:

在 Purview 合规性门户中配置要扫描的文件类型

有关详细信息,请参阅 部署扫描程序以自动对文件进行分类和保护

2. 检查和标记文件

识别排除的文件后,信息保护扫描程序会再次筛选,以识别支持检查的文件。

这些筛选器与操作系统用于 Windows 搜索和索引的筛选器相同,无需额外配置。 Windows IFilter 还用于扫描 Word、Excel 和 PowerPoint 使用的文件类型,以及用于 PDF 文档和文本文件的文件类型。

有关支持检查的文件类型的完整列表,以及配置筛选器以包含 .zip 和.tiff文件的其他说明,请参阅 支持检查的文件类型

检查后,使用为标签指定的条件标记支持的文件类型。 如果使用发现模式,可以报告这些文件以包含为标签指定的条件,也可以报告为包含任何已知的敏感信息类型。

已停止的扫描程序进程

如果扫描程序在完成对存储库中大量文件的扫描之前停止,则可能需要增加托管文件的操作系统的动态端口数。

例如,SharePoint 的服务器强化是扫描程序超过允许的网络连接数并因此停止的原因之一。

若要检查 SharePoint 的服务器强化是否是扫描程序停止的原因,检查扫描程序日志中 %localappdata%\Microsoft\MSIP\Logs\MSIPScanner.iplog 中的以下错误消息, (多个日志被压缩为 zip 文件) :

Unable to connect to the remote server ---> System.Net.Sockets.SocketException: Only one usage of each socket address (protocol/network address/port) is normally permitted IP:port

有关如何查看当前端口范围并根据需要增加端口范围的详细信息,请参阅 可修改以改进网络性能的设置

提示

对于大型 SharePoint 场,可能需要增加列表视图阈值,默认值为 5,000

有关详细信息,请参阅 在 SharePoint 中管理大型列表和库

3. 标签无法检查的文件

对于无法检查的任何文件类型,扫描程序会应用其敏感度标签策略的默认标签或为扫描程序配置的默认标签。

扫描程序未标记的文件

在以下情况下,扫描程序无法标记文件:

  • 当标签应用分类但不应用保护,并且文件类型不支持客户端仅分类时。 有关详细信息,请参阅 仅分类支持的文件类型

  • 当标签应用分类和保护,但扫描程序不支持文件类型时。

    默认情况下,扫描程序仅保护 Office 文件类型,如果 PDF 文件使用用于 PDF 加密的 ISO 标准对其进行保护,则这些文件会受到保护。

    更改要保护的文件类型时,可以添加其他类型的 文件进行保护

示例:检查 .txt 文件后,扫描程序无法应用仅为分类配置的标签,因为 .txt 文件类型不支持仅分类。

但是,如果为分类 和保护 配置了标签,并且包括了要保护的扫描程序 .txt 文件类型,则扫描程序可以标记该文件。

后续步骤

有关部署扫描程序的详细信息,请参阅以下文章:

详细信息