在 SharePoint Server 中管理连续爬网

适用于:yes-img-132013 yes-img-162016 yes-img-192019 yes-img-seSubscription Edition no-img-sopSharePoint in Microsoft 365

启用连续爬网 是爬网计划选项,是增量爬网的替代方法。 此选项是 SharePoint Server 中的新增功能,仅适用于 SharePoint 网站类型的内容源。

连续爬网经常对 SharePoint Server 网站进行爬网,以帮助使搜索结果保持最新。 与增量爬网一样,连续爬网的对象是继上一次爬网之后被添加、修改或删除的内容。 但是,与增量爬网有所不同的是,您可以在特定时间启动增量爬网,然后定期重复这一行为,而连续爬网按预设的时间间隔自动启动。 连续爬网的默认间隔时间为 15 分钟。 连续爬网有助于确保搜索结果的新鲜度,因为搜索索引会保持最新状态,因为 SharePoint Server 内容经常被爬网。 因此,连续爬网对于爬网快速变化的 SharePoint Server 内容特别有用。

单个连续爬网包括 Search Service 应用程序中启动了连续爬网的所有内容源。 同样,连续爬网间隔同时也适用于 搜索服务 应用程序中启用连续爬网的所有内容源。

您不能在同一时间同时运行多个完全爬网或增量爬网。 但是,多个连续爬网可以同时运行。 因此,即使一个连续爬网正在处理一个大型内容更新,另一个连续爬网页也可以在预设的时间间隔启动,并对其他内容更新进行爬网。 在完全爬网或增量爬网处理一个内容库的同时,连续爬网也可以对同一个内容库进行处理。

连续爬网不会处理或重试重复返回错误的项。 在“清理”增量爬网期间重试此类错误,该爬网每四小时自动针对启用了连续爬网的内容源运行一次。 在增量爬网期间继续返回错误的项将在将来的增量爬网中重试,但在错误解决之前,连续爬网不会选取这些项。

可以在 “Search_Service_Application_Name:添加/编辑内容源”页上设置增量爬网时间,但只能使用 Microsoft PowerShell 更改连续爬网的频率间隔。

对现有内容源启用连续爬网

  1. 确认执行此过程的用户帐户是 搜索服务 应用程序的管理员。

  2. In Central Administration, in the Application Management section, click Manage service applications.

  3. 单击 Search Service 应用程序。

  4. “Search_Service_Application_Name:搜索管理”页上的“快速启动”中,单击“ 爬网”下的“ 内容源”。

  5. “Search_Service_Application_Name:管理内容源”页上,单击要为其启用连续爬网的 SharePoint 内容源。

  6. 在"爬网计划"部分,选择"启用连续爬网"。

  7. 单击"确定"。

  8. Verification: On the Search_Service_Application_Name: Manage Content Sources page, verify that the Status column has the status Crawling Continuous.

对新内容源启用连续爬网

  1. 确认执行此过程的用户帐户是 搜索服务 应用程序的管理员。

  2. In Central Administration, in the Application Management section, click Manage service applications.

  3. 单击 Search Service 应用程序。

  4. “Search_Service_Application_Name:搜索管理”页上的“快速启动”中,单击“ 爬网”下的“ 内容源”。

  5. “Search_Service_Application_Name:管理内容源”页上,单击“ 新建内容源”。

  6. 创建类型为"SharePoint 网站"的内容源。

    • 在"名称"部分,在"名称"字段中键入名称。

    • 在"内容源类型"部分,选择"SharePoint 网站"。

    • 在"开始地址"部分,键入一个或多个开始地址。

    • 在"爬网设置"部分,选择所有开始地址的爬网行为。

    • 在"爬网计划"部分,选择"启用连续爬网"。

  7. 单击"确定"。

  8. Verification: On the Search_Service_Application_Name: Manage Content Sources page, verify that the newly added content source appears and that the Status column has the status Crawling Continuous.

对新内容源禁用连续爬网

  1. 确认执行此过程的用户帐户是 搜索服务 应用程序的管理员。

  2. In Central Administration, in the Application Management section, click Manage service applications.

  3. 单击 Search Service 应用程序。

  4. “Search_Service_Application_Name:搜索管理”页上的“快速启动”中,单击“ 爬网”下的“ 内容源”。

  5. “Search_Service_Application_Name:管理内容源”页上,单击要为其禁用连续爬网的 SharePoint 内容源。

  6. 在"爬网计划"部分,清除"启用增量爬网"。 这将禁用连续爬网。

  7. 要确认您希望禁用连续爬网,单击"确定"。

  8. 可选:单击"编辑计划"更改增量爬网的计划,然后单击"确定"。

  9. “Search_Service_Application_Name:编辑内容源”页上,单击“ 确定”。

  10. Verification: On the Search_Service_Application_Name: Manage Content Sources page, verify that the Status column has changed to Idle. This might take some time, because all URLs that remain in the crawl queue are still crawled after you disable continuous crawls.

对所有内容源禁用连续爬网

  1. 验证执行此过程的用户帐户是否为 搜索服务 应用程序的管理员。

  2. 在场中的服务器上启动 SharePoint 命令行管理程序。

  3. 在 Microsoft PowerShell 命令提示符处,键入以下命令:

    $SSA =  Get-SPEnterpriseSearchServiceApplication
    $SPContentSources = $SSA | Get-SPEnterpriseSearchCrawlContentSource | WHERE {$_.Type -eq "SharePoint"} 
    foreach ($cs in $SPContentSources) 
    { 
      $cs.EnableContinuousCrawls = $false 
      $cs.Update() 
    }
    
  4. Verification: On the Search_Service_Application_Name: Manage Content Sources page, verify that the Status column has changed to Idle for all content sources. This might take some time, because all URLs that remain in the crawl queue are still crawled after you disable continuous crawls.

更改连续爬网时间间隔

  1. 确认执行此过程的用户帐户是服务器场管理员组的成员。

  2. 启动 SharePoint 命令行管理程序。

  3. 在 Microsoft PowerShell 命令提示符处,键入以下命令:

    $ssa = Get-SPEnterpriseSearchServiceApplication
    $ssa.SetProperty("ContinuousCrawlInterval",n)
    

    其中:

    • n 是要启动的连续爬网的时间间隔(以分钟为单位)。 默认时间间隔设置为 15 分钟。 可以设置的最短时间间隔为 1 分钟。

    注意

    如果缩短间隔,则会增加 SharePoint Server 和爬网程序上的负载。 请确保规划该增加的资源消耗,并对其进行相应的扩展。

另请参阅

在 SharePoint Server 中规划爬网和联合

Set-SPEnterpriseSearchCrawlContentSource