定义爬网规则和文件类型

项目
06/15/2015

在 Microsoft Office SharePoint Server 2007 企业级搜索中，使用爬网规则和扩展名来定义应如何对来自内容源的特定内容集进行爬网。

爬网规则

当您要从特定路径爬网内容时，爬网规则使您能够设置企业级搜索索引引擎的行为。通过使用这些规则，您可以：

阻止对特定路径中的内容进行爬网。

例如在这样一种情形中：内容源指向一个 URL 路径（例如 https://www.microsoft.com/），但您要阻止对“downloads”子目录 https://www.microsoft.com/downloads/ 中的内容进行爬网，您可以为该 URL 设置一个规则，将行为设置为排除该子目录中的内容。
指示应对本来会从爬网中排除的特定路径进行爬网。

使用上一情形，如果 downloads 目录包含一个应包括在爬网中的名为“content”的目录，则您可以为以下 URL 创建一个爬网规则，将行为设置为包括“content”子目录 https://www.microsoft.com/downloads/content。

备注

这只适用于 HTTP 内容。

指定身份验证凭据。

您将在以下情形中使用此规则：要访问的内容所需的凭据与为默认内容访问帐户指定的凭据不同。

在爬网规则中，您可将星号 (*) 用作通配符，例如：

http://*.microsoft.com/*.html

备注

不要将规则用作定义内容源或提供范围的另一种方法。而使用规则来指定有关如何处理来自内容源的特定内容集的详细信息。

爬网规则顺序

规则顺序很重要，因为与特定内容集匹配的第一个规则是所应用的规则。因此，在前一个示例中，因为排除 .aspx 页的规则首先列出，所以无论何时爬网程序在 http://主机名称中遇到 .aspx 页，都会排除此页，即使此页与两个规则均匹配且未应用其他规则，也是如此。

爬网规则对象模型

单个爬网规则由 CrawlRule 类表示。完整一组爬网规则包含在 CrawlRuleCollection 类中。通过使用 CrawlRuleCollection 类，您可以使用 Create() 方法添加新爬网规则、使用 SetPriority() 方法设置现有爬网规则的优先级，及使用 Test() 方法针对所有爬网规则测试 URL 或路径以确定将应用哪个规则。

若要更新或测试单个爬网规则，请使用 CrawlRule 对象。您还可以使用该对象来指定要用于与该规则匹配的内容的内容访问凭据，或指定是否要删除该规则。

文件类型

文件类型包含/排除列表包含用于标识爬网程序应包括或从索引中排除哪些文件类型的扩展名列表。要使爬网程序提取特定类型的文件的内容和属性，必须将该文件类型的筛选器安装在索引服务在其上运行的服务器上。

您还可以使用此列表来排除特定文件类型，即使已安装了与该文件类型相关联的筛选器，也是如此。

文件类型对象模型

单个文件扩展名由 Extension 类表示。您可以使用该对象来移除文件扩展名。扩展名组合在 ExtensionCollection 对象中。使用 Create() 方法来指定新的文件扩展名。

通过