使用爬网范围管理器

爬网范围管理器 (CSM) 是一组接口,它提供方法来通知Windows搜索引擎要爬网的容器,以及这些容器下要包括或排除在目录中的项目。 开发人员可以使用 CSM 以编程方式为新的数据存储或协议处理程序定义爬网范围。 管理员可以使用 CSM 查看所有用户的索引、搜索根和范围规则。

本部分按如下所示进行组织:

什么是爬网范围管理器?

若要了解爬网范围管理器,必须了解以下术语:

  • 爬网范围是一组指向数据存储或容器的 URL, (电子邮件数据存储、数据库、网络文件共享等) 索引器对项进行爬网。 对于分层数据存储,爬网范围可以包含父 URL,但不包括子 URL,反之亦然。 对爬网范围中的项编制索引;爬网范围之外的项将被忽略。
  • 搜索根是标识与特定协议处理程序关联的容器或数据存储的顶级 URL。 搜索根可以标识特定于用户、远程计算机上的位置或匹配通配符模式的位置。 添加新数据存储或协议处理程序时,还应将搜索根添加到爬网范围。
  • 范围规则是一个规则,它包含或排除搜索根目录中的 URL 被爬网和索引。 例如,假设希望 ProjectFiles 文件夹中除子文件夹原型之外的所有内容编制索引。 需要包含 file:///C:\WorkteamA\ProjectFiles\ 和 file:///C:\WorkteamA\ProjectFiles\Prototypes\的排除规则。

爬网范围管理器 (CSM) 是一组 API,可用于添加、删除和枚举Windows搜索索引器的搜索根和范围规则。 当希望索引器开始爬网新容器时,可以使用 CSM 设置搜索根 (的) 和范围规则,以查找搜索根 (s) 中的路径。 例如,如果安装新的协议处理程序,则可以创建搜索根并添加一个或多个包含规则:然后,索引器可以针对初始索引启动爬网。 CSM 提供以下接口,帮助你以编程方式执行此操作。

虽然可以使用 CSM API 以编程方式定义爬网范围,但 CSM 也旨在支持最终用户。 例如,假设你已为新的数据存储开发了协议处理程序,并且希望让用户或管理员管理应编制索引的路径。 可以使用爬网范围管理器设置一个或多个搜索根 (,例如,file:///C:\MyContainer\) ,用于设置索引选项的Windows搜索用户界面将显示每个搜索根,其中包含一个复选框。 然后,用户可以包括或排除该路径的路径或子级。

搜索根和范围规则

搜索根规则和范围规则共同定义构成索引器的爬网范围的一组工作 URL。

搜索根

设置搜索根未指定应为此存储区的各个部分编制索引;它只是指示内容存储存在并与已注册的协议处理程序相关联。 搜索根的语法包括协议、站点或用户安全标识符,以及要爬网的位置 () 的路径。

应在以下情况下创建新的搜索根:

  • 安装协议处理程序 OR
  • 想要为新数据存储编制索引

AND

  • 该数据存储尚未位于索引器的爬网范围中。

有关添加、删除和枚举搜索根的说明,请参阅 管理搜索根

范围规则

范围规则包括或排除搜索根目录中的 URL,以爬网和编制索引。 范围规则可由最终用户、组策略或第三方开发人员设置。 定义新的搜索根时,应以编程方式定义范围规则。 搜索根和范围规则构成数据存储和协议处理程序的默认爬网范围。

注意

有权访问控制面板的用户可以修改默认爬网范围。 因此,提供范围管理的任何应用程序应始终使用枚举方法直接从 CSM 获取规则,而不是依赖其自己的用户规则副本。

 

有关添加、删除、还原和枚举范围规则的说明,请参阅 管理范围规则

爬网范围管理器支持的组策略

系统管理员可以使用组策略在其组织中定义爬网范围。 这些组策略规则还可以充当默认规则,用户可以替代这些规则。 例如,可以为一组用户编制索引的一组目录,并为另一组用户设置不同的目录,从而允许用户取消选择这些默认值。 例如,组策略规则还可以充当用户无法替代的强制排除规则,从而阻止某些用户为某些网络共享编制索引。

管理搜索根

管理范围规则

索引过程