信息保护扫描程序入门

备注

有一个新版本的信息保护扫描程序。 有关详细信息,请参阅升级Microsoft Purview 信息保护扫描程序

从 Microsoft Purview 信息保护 安装扫描程序之前,请确保系统符合基本的 Azure 信息保护要求

此外,以下要求特定于扫描程序:

如果无法满足扫描程序列出的所有要求,因为组织策略禁止这些要求,请参阅 备用配置 部分。

在生产环境中部署扫描程序或测试多个扫描程序的性能时,请参阅 SQL Server 的存储要求和容量规划

准备好开始安装和部署扫描程序时,请继续 配置和安装信息保护扫描程序

Windows Server 要求

必须具有 Windows Server 计算机才能运行扫描程序,该扫描程序具有以下系统规范:

规范 详细信息
处理器 4 核处理器
RAM 8 GB
磁盘空间 10 GB 可用空间 (临时文件的平均) 。

扫描程序需要足够的磁盘空间来为其扫描的每个文件创建临时文件,每个核心四个文件。

建议的磁盘空间为 10 GB,允许 4 个核心处理器扫描 16 个文件,每个文件的大小为 625 MB。
操作系统 的 64 位版本:

- Windows Server 2022
- Windows Server 2019
- Windows Server 2016
- Windows Server 2012 R2

注意:出于非生产环境中的测试或评估目的,还可以使用信息保护客户端支持的任何 Windows 操作系统。

不支持 Server Core 和 Nano Server。
- 网络连接 扫描程序计算机可以是物理计算机或虚拟计算机,与要扫描的数据存储具有快速可靠的网络连接。

如果由于组织策略而无法建立 Internet 连接,请参阅 使用备用配置部署扫描程序

否则,请确保此计算机具有 Internet 连接,允许以下 URL 通过 HTTPS (端口 443) :

- *.aadrm.com
- *.azurerms.com
- *.informationprotection.azure.com
- informationprotection.hosting.portal.azure.net
- *.aria.microsoft.com
- *.protection.outlook.com
NFS 共享 若要支持 NFS 共享上的扫描,必须在扫描程序计算机上部署 NFS 服务。

在计算机上,导航到 “Windows 功能 (打开或关闭 Windows 功能) 设置”对话框,然后选择以下项: NFS>管理工具 服务和 客户端 for NFS
Microsoft Office iFilter 在 Windows Server 计算机上安装扫描程序时,还必须安装 Microsoft Office iFilter,以便扫描 .zip 文件中的敏感信息类型。

有关详细信息,请参阅 Microsoft下载站点

服务帐户要求

你必须有一个服务帐户才能在 Windows Server 计算机上运行扫描程序服务,并且必须进行身份验证才能Microsoft Entra ID和下载扫描程序的策略。

服务帐户必须是 Active Directory 帐户并同步到Microsoft Entra ID。

如果由于组织策略而无法同步此帐户,请参阅 使用备用配置部署扫描程序

此服务帐户具有以下要求:

要求 详细信息
登录本地 用户权限分配 安装和配置扫描程序需要,但不需要运行扫描。

确认扫描程序可以发现、分类和保护文件后,可以从服务帐户中删除此权限。

如果由于组织策略的原因而无法在短时间内授予此权限,请参阅 使用备用配置部署扫描程序
以服务身份登录 用户权限分配。 此权限在扫描程序安装期间自动授予服务帐户,并且扫描程序的安装、配置和操作需要此权限。
对数据存储库的权限 - 文件共享或本地文件:授予 读取写入修改 权限,以便扫描文件,然后根据配置应用分类和保护。

- SharePoint:必须授予完全控制权限,以便扫描文件,然后对满足 Azure 信息保护 策略条件的文件应用分类和保护。

- 发现模式:若要仅在发现模式下运行扫描程序, 读取 权限就足够了。
对于重新保护或删除保护的标签 若要确保扫描程序始终有权访问加密文件,请将此帐户设为 Azure 信息保护的超级用户,并确保已启用超级用户功能。

此外,如果已为分阶段部署实现了 载入控制 ,请确保已配置的加入控件中包含服务帐户。
特定 URL 级别扫描 若要扫描和发现 特定 URL 下的网站和子网站,请向服务器场级别的扫描程序帐户授予 站点收集器审核员 权限。
信息保护许可证 需要向扫描程序服务帐户提供文件分类、标记或保护功能。

有关详细信息,请参阅 Microsoft 365 安全 & 合规性指南

SQL Server 要求

若要存储扫描程序配置数据,请使用具有以下要求的 SQL Server:

  • 本地或远程实例。

    建议在不同的计算机上托管 SQL Server 和扫描程序服务,除非使用小型部署。 此外,建议使用专用 SQL 实例,该实例仅为扫描程序数据库提供服务,并且不与其他应用程序共享。

    如果使用的是共享服务器,请确保 建议的内核数 可供扫描程序数据库使用。

    SQL Server 2016 是以下版本的最低版本:

    • SQL Server Enterprise

    • SQL Server Standard

    • SQL Server Express (建议仅用于测试环境)

  • 具有 Sysadmin 角色的帐户,用于安装扫描程序。

    Sysadmin 角色使安装过程能够自动创建扫描程序配置数据库,并将所需的 db_owner 角色授予运行扫描程序的服务帐户。

    如果无法授予 Sysadmin 角色或组织策略要求手动创建和配置数据库,请参阅 使用备用配置部署扫描程序

  • 能力。 有关容量指南,请参阅SQL Server的存储要求和容量规划

  • 不区分大小写的排序规则

备注

为扫描程序指定自定义群集名称或使用扫描程序的预览版本时,支持同一 SQL 服务器上的多个配置数据库。

SQL Server的存储要求和容量规划

扫描程序的配置数据库所需的磁盘空间量和运行SQL Server的计算机的规格因环境而异,因此我们建议你进行自己的测试。 使用以下指南作为起点。

有关详细信息,请参阅 优化扫描程序的性能

扫描程序配置数据库的磁盘大小因每个部署而异。 使用以下公式作为指导:

100 KB + <file count> *(1000 + 4* <average file name length>)

例如,若要扫描平均文件名长度为 250 字节的 100 万个文件,请分配 2 GB 磁盘空间。

对于多个扫描程序:

  • 最多 10 个扫描仪,请使用:

    • 4 核处理器
    • 建议使用 8 GB RAM
  • 超过 10 个扫描仪 (最多 40) ,请使用:

    • 8 个核心进程
    • 建议使用 16 GB RAM

信息保护客户端要求

对于生产网络,必须在 Windows Server 计算机上安装 Microsoft Purview 信息保护 客户端的当前正式发布版本

有关详细信息,请参阅 安装或升级信息保护客户端

重要

必须为扫描程序安装完整的客户端。 不要仅使用 PowerShell 模块安装客户端。

标签配置要求

必须在 Microsoft Purview 门户或扫描程序帐户的Microsoft Purview 合规门户中配置至少一个敏感度标签,才能应用分类和(可选)加密。

扫描程序帐户是在配置扫描程序时运行的 Set-Authentication cmdlet 的 DelegatedUser 参数中指定的帐户。

如果标签没有自动标记条件,请参阅下面的 备用配置说明

有关更多信息,请参阅:

SharePoint 要求

若要扫描 SharePoint 文档库和文件夹,请确保 SharePoint 服务器符合以下要求:

要求 说明
支持的版本 支持的版本包括:SharePoint 2019、SharePoint 2016 和 SharePoint 2013。
扫描程序不支持其他版本的 SharePoint。
版本控制 使用 版本控制时,扫描程序会检查和标记上次发布的版本。

如果扫描程序对文件进行标签,并且需要 内容审批 ,则必须批准该标记的文件才能可供用户使用。
大型 SharePoint 场 对于大型 SharePoint 场,检查默认情况下,是否需要增加列表视图阈值 (,扫描程序访问所有文件需要 5,000) 。

有关详细信息,请参阅 在 SharePoint 中管理大型列表和库
长文件路径 如果 SharePoint 中有长文件路径,请确保 SharePoint 服务器的 httpRuntime.maxUrlLength 值大于默认的 260 个字符。

有关详细信息,请参阅下一部分: 在 SharePoint 中避免扫描程序超时

避免 SharePoint 中的扫描程序超时

如果 SharePoint 版本 2013 或更高版本中有长文件路径,请确保 SharePoint 服务器的 httpRuntime.maxUrlLength 值大于默认的 260 个字符。

此值在配置的 HttpRuntimeSection 类中 ASP.NET 定义。

更新 HttpRuntimeSection 类

  1. 备份 web.config 配置。

  2. 根据需要更新 maxUrlLength 值。 例如:

    <httpRuntime maxRequestLength="51200" requestValidationMode="2.0" maxUrlLength="5000"  />
    
  3. 重启 SharePoint Web 服务器,并验证它是否正确加载。

    例如,在 Windows Internet 信息服务器 (IIS) 管理器中,选择站点,然后在 “管理网站”下,选择“ 重启”。

Microsoft Office 要求

若要扫描 Office 文档,文档必须具有以下格式之一:

  • Microsoft Office 97-2003
  • Word、Excel 和 PowerPoint 的 Office Open XML 格式

有关详细信息,请参阅 支持的文件类型

文件路径要求

默认情况下,若要扫描文件,文件路径必须最多包含 260 个字符。

若要扫描文件路径超过 260 个字符的文件,请在具有以下 Windows 版本之一的计算机上安装扫描程序,并根据需要配置计算机:

Windows 版本 说明
Windows 2016 或更高版本 将计算机配置为支持长路径
Windows 10或Windows Server 2016 定义以下 组策略设置本地计算机策略>计算机配置>管理模板>所有设置>启用 Win32 长路径

有关这些版本中的长文件路径支持的详细信息,请参阅Windows 10开发人员文档中的“最大路径长度限制”部分。
Windows 10版本 1607 或更高版本 选择加入更新的 MAX_PATH 功能。 有关详细信息,请参阅在 Windows 10 版本 1607 及更高版本中启用长路径

使用备用配置部署扫描程序

上面列出的先决条件是扫描程序部署的默认要求,建议满足这些要求,因为它们支持最简单的扫描程序配置。

默认要求应适用于初始测试,以便可以检查扫描程序的功能。

但是,在生产环境中,组织的策略可能与默认要求不同。 扫描程序可以通过其他配置来适应以下更改:

发现并扫描特定 URL 下的所有 SharePoint 网站和子网站

扫描程序可以使用以下配置发现和扫描特定 URL 下的所有 SharePoint 网站和子网站:

  1. 启动 SharePoint 管理中心

  2. SharePoint 管理中心 网站上的 “应用程序管理 ”部分中,单击“ 管理 Web 应用程序”。

  3. 单击以突出显示要管理其权限策略级别的 Web 应用程序。

  4. 选择相关的场,然后选择 “管理权限策略级别”。

  5. “网站集 权限”选项中选择“网站集审核员 ,然后在“权限”列表中授予 “查看应用程序页” ,最后将新策略级别命名为 “扫描程序网站集审核员”和“查看者”。

  6. 将扫描程序用户添加到新策略,并在“权限”列表中授予 网站集

  7. 添加托管需要扫描的网站或子网站的 SharePoint URL。 有关详细信息,请参阅 配置扫描程序设置

若要详细了解如何管理 SharePoint 策略级别,请参阅 管理 Web 应用程序的权限策略

限制:扫描程序服务器无法建立 Internet 连接

虽然信息保护客户端无法在没有 Internet 连接的情况下应用加密,但扫描程序仍可以根据导入的策略应用标签。

若要支持断开连接的计算机,请使用以下方法之一:

将 Microsoft Purview 门户或Microsoft Purview 合规门户与断开连接的计算机配合使用

若要支持无法连接到 Microsoft Purview 门户或Microsoft Purview 合规门户的计算机,请执行以下步骤:

  1. 在策略中配置标签,然后使用 过程支持断开连接的计算机 以启用脱机分类和标记。

  2. 为内容作业启用脱机管理,如下所示:

    为内容扫描作业启用脱机管理

    1. 使用 Set-ScannerConfiguration cmdlet 将扫描程序设置为在脱机模式下运行。

    2. 通过创建扫描程序群集在合规性门户中配置扫描程序。 有关详细信息,请参阅 配置扫描程序设置

    3. 使用“导出”选项从 “信息保护 - 内容扫描作业 ”窗格 导出 内容作业。

    4. 使用 Import-ScannerConfiguration cmdlet 导入策略。

    脱机内容扫描作业的结果位于: %localappdata%\Microsoft\MSIP\Scanner\Reports

对断开连接的计算机使用 PowerShell

执行以下过程,仅使用 PowerShell 支持断开连接的计算机。

重要

Azure 中国世纪互联扫描服务器的管理员必须使用此过程来管理其内容扫描作业。

仅使用 PowerShell 管理内容扫描作业

  1. 使用 Set-ScannerConfiguration cmdlet 将扫描程序设置为在脱机模式下运行。

  2. 使用 Set-ScannerContentScan cmdlet 创建新的内容扫描作业,确保使用必需 -Enforce On 参数。

  3. 使用 Add-ScannerRepository cmdlet 添加存储库,其中包含要添加的存储库的路径。

    提示

    若要防止存储库从内容扫描作业继承设置,请添加 OverrideContentScanJob On 参数以及其他设置的值。

    若要编辑现有存储库的详细信息,请使用 Set-ScannerRepository 命令。

  4. 使用 Get-ScannerContentScanGet-ScannerRepository cmdlet 返回有关内容扫描作业的当前设置的信息。

  5. 使用 Set-ScannerRepository 命令更新现有存储库的详细信息。

  6. 如果需要,使用 Start-Scan cmdlet 立即运行内容扫描作业。

    脱机内容扫描作业的结果位于: %localappdata%\Microsoft\MSIP\Scanner\Reports

  7. 如果需要删除存储库或整个内容扫描作业,请使用以下 cmdlet:

限制:无法授予 Sysadmin 或必须手动创建和配置数据库

使用以下过程手动创建数据库并根据需要授予 db_owner 角色。

如果可以 暂时 授予 Sysadmin 角色来安装扫描程序,则可以在扫描程序安装完成后删除此角色。

根据组织的要求执行以下操作之一:

限制 说明
可以暂时拥有 Sysadmin 角色 如果暂时具有 Sysadmin 角色,则会自动创建数据库,并且扫描程序的服务帐户会自动获得所需的权限。

但是,配置扫描程序的用户帐户仍然需要扫描程序配置数据库的 db_owner 角色。 如果在扫描程序安装完成之前只有 Sysadmin 角色,请手动向用户帐户授予 db_owner 角色。
你根本不能有 Sysadmin 角色 如果甚至暂时无法向你授予 Sysadmin 角色,则必须要求具有 Sysadmin 权限的用户在安装扫描程序之前手动创建数据库。

对于此配置,必须将 db_owner 角色分配给以下帐户:
- 扫描程序的服务帐户
- 扫描程序安装的用户帐户
- 用于扫描程序配置的用户帐户

通常,你将使用相同的用户帐户来安装和配置扫描程序。 如果使用不同的帐户,则它们都需要扫描程序配置数据库的 db_owner 角色。 根据需要创建此用户和权限。 如果指定自己的群集名称,则配置数据库名为 AIPScannerUL_<cluster_name>

此外:

  • 必须是将运行扫描程序的服务器上的本地管理员

  • 必须向将运行扫描程序的服务帐户授予对以下注册表项的“完全控制”权限:

    • HKEY_LOCAL_MACHINE\SOFTWARE\WOW6432Node\Microsoft\MSIPC\Server
    • HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\MSIPC\Server

如果在配置这些权限后,在安装扫描程序时看到错误,则可以忽略该错误,并且可以手动启动扫描程序服务。

手动为扫描程序创建数据库和用户,并授予db_owner权限

如果需要手动创建扫描程序数据库和/或创建用户并授予 对数据库db_owner 权限,请让 Sysadmin 执行以下步骤:

  1. 为扫描程序创建数据库:

    **CREATE DATABASE AIPScannerUL_[clustername]**
    
    **ALTER DATABASE AIPScannerUL_[clustername] SET TRUSTWORTHY ON**
    
  2. 向运行安装命令并用于运行扫描程序管理命令的用户授予权限。 使用以下脚本:

    if not exists(select * from master.sys.server_principals where sid = SUSER_SID('domain\user')) BEGIN declare @T nvarchar(500) Set @T = 'CREATE LOGIN ' + quotename('domain\user') + ' FROM WINDOWS ' exec(@T) END
    USE DBName IF NOT EXISTS (select * from sys.database_principals where sid = SUSER_SID('domain\user')) BEGIN declare @X nvarchar(500) Set @X = 'CREATE USER ' + quotename('domain\user') + ' FROM LOGIN ' + quotename('domain\user'); exec sp_addrolemember 'db_owner', 'domain\user' exec(@X) END
    
  3. 向扫描程序服务帐户授予权限。 使用以下脚本:

    if not exists(select * from master.sys.server_principals where sid = SUSER_SID('domain\user')) BEGIN declare @T nvarchar(500) Set @T = 'CREATE LOGIN ' + quotename('domain\user') + ' FROM WINDOWS ' exec(@T) END
    

限制:无法向扫描程序的服务帐户授予 “本地登录” 权限

如果组织策略禁止服务帐户 在本地登录 ,请将 OnBehalfOf 参数与 Set-Authentication 配合使用。

有关详细信息,请参阅 在无人参与的情况下运行信息保护标记 cmdlet

限制:扫描程序服务帐户无法同步到Microsoft Entra ID但服务器已建立 Internet 连接

可以使用一个帐户来运行扫描程序服务,并使用另一个帐户对Microsoft Entra ID进行身份验证:

  • 对于扫描程序服务帐户,请使用本地 Windows 帐户或 Active Directory 帐户。

  • 对于 Microsoft Entra 帐户,请在 Set-Authentication cmdlet 中的 DelegatedUser 参数中指定Microsoft Entra用户。

    如果在扫描程序帐户以外的任何用户下运行扫描,请确保也在 OnBehalfOf 参数中指定扫描程序帐户。

    有关详细信息,请参阅 在无人参与的情况下运行信息保护标记 cmdlet

限制:标签没有自动标记条件

如果标签没有任何自动标记条件,请在配置扫描程序时计划使用以下选项之一:

选项 说明
发现所有信息类型 内容扫描作业中,将 “要发现的信息类型” 选项设置为 “全部”。

此选项设置内容扫描作业以扫描内容以查找所有敏感信息类型。
使用建议的标记 内容扫描作业中,将“ 将建议的标签视为自动 ”选项设置为 “开”。

此设置将扫描程序配置为自动在内容上应用所有建议的标签。
定义默认标签 策略内容扫描作业存储库中定义默认标签。

在这种情况下,扫描程序会将默认标签应用于找到的所有文件。

后续步骤

确认系统符合扫描程序先决条件后,请继续 配置和安装信息保护扫描程序

有关扫描程序的概述,请参阅 了解信息保护扫描程序