使用爬网范围管理器

爬网范围管理器 (CSM) 是一组接口,这些接口提供通知 Windows 搜索引擎要爬网的容器以及这些容器下要包括在目录中或排除的项目的方法。 开发人员可以使用 CSM 以编程方式为新的数据存储或协议处理程序定义爬网范围。 管理员可以使用 CSM 查看所有用户的索引、搜索根和范围规则。

本部分的组织方式如下:

什么是爬网范围管理器?

若要了解爬网范围管理器,必须了解以下术语:

  • 爬网范围是一组指向数据存储或容器的 URL, (电子邮件数据存储、数据库、网络文件共享等,) 索引器爬网到索引项。 对于分层数据存储,爬网范围可以包含父 URL,但不包括子 URL,反之亦然。 对爬网范围内的项编制索引;将忽略爬网范围之外的项。
  • 搜索根是标识与特定协议处理程序关联的容器或数据存储的顶级 URL。 搜索根可以标识特定于用户、远程计算机上或与通配符模式匹配的位置。 添加新数据存储或协议处理程序时,还应将搜索根添加到爬网范围。
  • 范围规则是包含或排除搜索根目录中的 URL 进行爬网和索引的规则。 例如,假设你想要为 ProjectFiles 文件夹中除“原型”子文件夹之外的所有内容编制索引。 需要 file:///C:\WorkteamA\ProjectFiles\ 的包含规则和 file:///C:\WorkteamA\ProjectFiles\Prototypes\ 的排除规则。

爬网范围管理器 (CSM) 是一组 API,可用于添加、删除和枚举 Windows 搜索索引器的搜索根和范围规则。 如果希望索引器开始爬网新容器,可以使用 CSM 设置搜索根 () ,并为搜索根 () 内的路径设置范围规则。 例如,如果安装新的协议处理程序,则可以创建搜索根并添加一个或多个包含规则;然后索引器可以针对初始索引开始爬网。 CSM 提供以下接口来帮助你以编程方式执行此操作。

虽然可以使用 CSM API 以编程方式定义爬网范围,但 CSM 也旨在支持最终用户。 例如,假设你已为新的数据存储开发了协议处理程序,并且希望让用户或管理员管理应为哪些路径编制索引。 可以使用爬网范围管理器设置一个或多个搜索根 (例如,file:///C:\MyContainer\) ,用于设置索引选项的 Windows 搜索用户界面将显示每个搜索根检查框。 然后,用户可以包含或排除该路径或该路径的子级。

搜索根和范围规则

搜索根和范围规则共同定义组成索引器的爬网范围的一组工作 URL。

搜索根

设置搜索根不会指定应为此存储的哪些部分编制索引;它只是指示内容存储存在并与已注册的协议处理程序相关联。 搜索根的语法包括协议、站点或用户安全标识符,以及要爬网) (位置的路径。

在以下情况下,应创建新的搜索根:

  • 安装协议处理程序或
  • 想要为新数据存储编制索引

AND

  • 数据存储尚未在索引器的爬网范围内。

有关添加、删除和枚举 搜索根 的说明,请参阅管理搜索根。

范围规则

范围规则包括或排除搜索根目录中的 URL,无法进行爬网和索引。 范围规则可以由最终用户、组策略或第三方开发人员设置。 定义新的搜索根时,应以编程方式定义范围规则。 搜索根和范围规则包含数据存储和协议处理程序的默认爬网范围。

注意

有权访问 控制面板 的用户可以修改默认爬网范围。 因此,任何提供范围管理的应用程序都应始终使用枚举方法直接从 CSM 获取规则,而不是依赖其保存的用户规则副本。

 

有关添加、删除、还原和枚举 范围规则 的说明,请参阅管理范围规则。

爬网范围管理器支持的组策略

系统管理员可以使用组策略在其组织中定义爬网范围。 这些组策略规则还可以充当默认规则,用户可以替代这些规则。 例如,可以为一组用户索引一组目录,为另一组用户编制索引,从而允许用户取消选择这些默认值。 例如,组策略规则还可以充当用户无法替代的强制排除规则,从而阻止某些用户为某些网络共享编制索引。

管理搜索根

管理范围规则

索引编制过程