管理爬网规则 (SharePoint Server 2010)
适用于: SharePoint Server 2010
上一次修改主题: 2011-11-11
您可以添加爬网规则以在对内容进行爬网时包含或排除特定路径。在包含某个路径时,可以选择提供备用帐户凭据以对该路径进行爬网。除创建或编辑爬网规则外,您还可以测试、删除或重新排序现有爬网规则。
本文内容:
创建或编辑爬网规则
对 URL 测试爬网规则
删除爬网规则
重新排序爬网规则
创建或编辑爬网规则
确保执行此过程的用户帐户是 Search Service 应用程序的服务应用程序管理员。
在管理中心的“应用程序管理”部分,单击“管理服务应用程序”。
在“管理服务应用程序”页上的服务应用程序列表中,单击“Search Service 应用程序”。
在“搜索管理”页上的“快速启动”中,单击“爬网规则”。即会显示“管理爬网规则”页。
若要创建新的爬网规则,请单击“新建爬网规则”。若要编辑现有爬网规则,请在爬网规则列表中,指向要编辑的爬网规则的名称,单击出现的箭头,然后单击“编辑”。
在“添加爬网规则”页上的“路径”部分:
在“路径”框中,键入将应用爬网规则的路径。可以在路径中使用标准通配符。
选中“与此规则匹配时遵循正则表达式语法”复选框,以使用正则表达式而不是通配符。
如果希望提供的路径中的大小写与实际路径中的大小写完全匹配,请选中“区分大小写”复选框。
在“爬网配置”部分,选择下列选项之一:
排除此路径中的所有项目。如果要从爬网中排除指定路径中的所有项目,请选择此选项。如果选择此选项,则可以通过选择以下项来细化所排除的内容:
- 排除复杂 URL(即包含问号(?)的 URL)。如果要排除的 URL 包含使用问号 (?) 符号的参数,请选择此选项。
包含此路径中的所有项目:如果要对路径中的所有项目进行爬网,请选择此选项。如果选择此选项,则可以通过选择下列各项的任意组合来进一步细化所包含的内容:
使用该 URL 上的链接,而不对该 URL 本身进行爬网:如果要对 URL 中包含的链接进行爬网但不对起始 URL 本身进行爬网,请选择此选项。
对复杂 URL (包含问号(?)的 URL)进行爬网:如果要对包含使用问号 (?) 符号的参数的 URL 进行爬网,请选择此选项。
将 SharePoint 内容作为 HTTP 页面进行爬网:通常使用特殊协议对 SharePoint 网站进行爬网。如果要改为将 SharePoint 网站作为 HTTP 页面进行爬网,请选择此选项。使用 HTTP 协议对内容进行爬网时,不会存储项目权限。
在“指定验证”部分,执行下列操作之一:
备注
除非在“爬网配置”部分选择“包含此路径中的所有项目”选项,否则此选项不可用。
若要使用默认内容访问帐户,请选择“使用默认内容访问帐户”。
如果要使用其他帐户,请选择“指定其他内容访问帐户”,然后执行下列操作:
在“帐户”框中,键入可访问此爬网规则中所定义的路径的用户帐户名称。
在“密码”和“确认密码”框中,键入此用户帐户的密码。
若要阻止使用基本身份验证,请选中“不允许基本身份验证”复选框。服务器会尝试使用 NTLM 身份验证。如果 NTLM 身份验证失败,那么除非选中“不允许基本身份验证”复选框,否则服务器会尝试使用基本身份验证。
若要将客户端证书用于身份验证,请选择“指定客户端证书”,展开“证书”菜单,然后选择一个证书。
若要将窗体凭据用于身份验证,请选择“指定窗体凭据”,在“窗体 URL”框中键入窗体 URL(接受凭据信息的页面的位置),然后单击“输入凭据”。当远程服务器的登录提示在新窗口中打开时,请键入要用于登录的窗体凭据。如果登录成功,系统将会提示您。如果登录成功,则进行身份验证所需的凭据将存储在远程网站上。
若要使用 Cookie,请选择“将 Cookie 用于爬网”,然后选择以下任一选项:
从 URL 获取 Cookie。选择此选项可以从网站或服务器获取 Cookie。
指定 Cookie 进行爬网。选择此选项可以从本地文件系统或文件共享导入 Cookie。您可以选择在“错误页(以分号分隔)”框中指定错误页面。
单击“确定”。
对 URL 测试爬网规则
确保执行此过程的用户帐户是 Search Service 应用程序的服务应用程序管理员。
在管理中心的“应用程序管理”部分,单击“管理服务应用程序”。
在“管理服务应用程序”页上的服务应用程序列表中,单击“Search Service 应用程序”。
在“搜索管理”页上的“快速启动”中,单击“爬网规则”。
在“管理爬网规则”页上的“键入某个 URL,然后单击‘测试’以了解其是否符合规则”框中,键入要测试的 URL。
单击“测试”,测试结果将显示在“键入某个 URL,然后单击‘测试’以了解其是否符合规则”框的下方。
删除爬网规则
确保执行此过程的用户帐户是 Search Service 应用程序的服务应用程序管理员。
在管理中心的“应用程序管理”部分,单击“管理服务应用程序”。
在“管理服务应用程序”页上的服务应用程序列表中,单击“Search Service 应用程序”。
在“搜索管理”页上的“快速启动”中,单击“爬网规则”。
在“管理爬网规则”页上的爬网规则列表中,指向要删除的爬网规则的名称,单击出现的箭头,然后单击“删除”。
单击“确定”以确认要删除此爬网规则。
重新排序爬网规则
确认执行此过程的用户帐户是 Search Service 应用程序的服务应用程序管理员。
在管理中心的“应用程序管理”部分,单击“管理服务应用程序”。
在“管理服务应用程序”页上的服务应用程序列表中,单击“Search Service 应用程序”。
在“搜索管理”页上的“快速启动”中,单击“爬网规则”。
在“管理爬网规则”页上的爬网规则列表的“顺序”栏中,指定规则要占据的爬网规则位置。其他值将相应移位。