企业级搜索相关性体系结构概述

在搜索中,相关性是指,返回给用户的搜索结果与用户要查找的内容的接近程度。理想情况下,第一页上返回的结果最为相关,这样用户无需浏览多个结果页面就能找到所搜索内容的最佳匹配结果。

Microsoft Office SharePoint Server 2007 企业级搜索包含一个与 Microsoft Research 合作开发的经改进的排名引擎。该引擎经过专门调整以满足搜索企业内容的特定要求。

了解静态和动态排名

在相关性计算中,使用了两种类型的排名公式组成部分:静态和动态。这两个组成部分之间的区别在于:计算出的排名是否受查询词,以及内容项的各个属性中的实际内容和文本的影响。

动态排名

动态排名是指受内容项的内容或属性值影响的排名;这也称为依赖于查询 的排名。

以下各节概述企业级搜索相关性计算中使用的动态排名算法所用的各个组成部分。

定位文本

定位文本 是超链接附带的文本,用于描述该超链接的目标内容。当企业级搜索爬网内容项时,此文本包含在该内容的索引中。定位文本仅影响排名,并非决定结果集中是否包含某内容项的因素。例如,如果所有查询词仅出现在定位文本中而不出现在项目的实际内容中,则链接可能已过时,因此结果中便不包含该内容项。

搜索通过以下元素给定位文本编制索引:

  • HTML 定位元素

  • Windows SharePoint Services 链接列表

  • Microsoft Office SharePoint Portal Server 2003 列表

  • Microsoft Office Word 2007、Microsoft Office Excel 2007 和 Microsoft Office PowerPoint 2007 超链接(仅适用于使用新的 Office Open XML 格式的文件)

属性加权

重要

任意更改属性权重可能会对系统的总体相关性产生不利的影响,因此,如果未正确评估所做的更改及其对搜索结果准确性的具体影响,则不建议更改此权重。

在计算相关性时,某些属性比其他属性更重要。这称为属性加权。企业级搜索提供了修改每个属性的权重的方法,让您标识这些属性,以使它们在相关性计算中占据更大的权重。必须使用搜索管理对象模型才能执行该操作。有关演示如何执行该操作的代码示例,请参阅如何:更改托管属性的权重设置

备注

SQL 搜索语法的 Microsoft Office SharePoint Portal Server 2003 版本支持查询时列加权。SQL 搜索语法的 Microsoft Office SharePoint Server 2007 企业级搜索版本不支持列加权。如果在迁移到 Office SharePoint Server 2007 的搜索查询中存在列加权,则搜索查询仍然可用,但列加权的值将被忽略。

属性长度规范化

内容项可能具有不同长度的许多不同属性。如果在相关性计算过程中同等对待这些属性中的值,而不管其大小如何,则可能会对计算的排名产生负面影响。长度规范化会根据属性的长度和长度规范化设置来调整内容项的排名。必须使用搜索管理对象模型来执行属性长度规范化

URL 匹配

URL 匹配 是一个过程,企业级搜索通过此过程检查内容项 URL,以找到带有指定搜索词的直接匹配项。

标题提取

如果适当命名内容项,则标题提取 或在相关性计算中使用标题值可以帮助返回密切相关的内容。但是,存在着标题属性中的值未准确反映内容的情况。例如,下面的标题未提供有关其内容的有价值信息:

  • 幻灯片 1(PowerPoint 演示文稿文件中第一张幻灯片的默认名称,如果不更改此名称,则 PowerPoint 将其用作演示文稿的文件名)

  • 文档 1(Word 文档文件的默认名称,如果不更改此名称,则 Word 将其用作文档的文件名)

上述标题示例未提供有关这些文件的内容的有价值信息,因此,它们对于搜索是不相关的。为了解决此问题,企业级搜索会在内容项的正文中检测标题的另一个候选项,并在计算相关性时将此值与实际的标题包含在一起。

备注

此过程仅对 Microsoft Office 文件执行。

静态排名

静态排名 是指不受内容项的内容或属性值影响的排名;这也称为独立于查询的排名

以下各节概述企业级搜索相关性计算中使用的静态排名算法所用的各个组成部分。

单击距离

将文档、网页、列表或其他项目链接到其他内容项,原因是,被链接的内容项很可能包含特定的信息,此信息与包含链接的原始项目的内容值相关,并且增强该内容值。因此,有关这些指向特定内容项的超链接的信息(例如指向该项的超链接数,或这些超链接的位置)在确定相关性时很有用。

单击距离 是指内容项和链接到该内容项的“专家”页面之间的链接数。在计算搜索相关性时,起点是某个权威页面,如Authoritative Pages and Demoted Sites中所述。爬网程序从权威页面爬到内容项所要经过的链接越多,相关性分数就越低。如果有多条路径通向某内容项,则根据最短路径来计算相关性,最短路径是指从权威页面到该内容项的链接数最少的路径。

URL 深度

重要的或相关的内容通常位于距网站层次结构顶部较近的位置,而不是位于网站内几个级别深的位置。因此,此类内容具有较短的 URL,用户能够更容易地记住和访问它。企业级搜索通过查看 URL 深度 对这一事实加以利用(URL 深度是指在网站内级别有多深的位置找到内容项)。通过查看 URL 中的斜杠(“/”)字符数来确定级别;URL 路径中的斜杠字符数越多,对该内容项而言 URL 就越深。因此,较大的 URL 深度数字可能会降低该内容的相关性。

自动语言检测

用户更可能查找使用自己语言的内容,而不是查找使用其他语言的内容。企业级搜索根据用户所用浏览器的“Accept-Language”标头来确定用户的语言,这称为自动语言检测。计算相关性时,检索到的使用用户语言的内容被视为比使用其他语言的内容更为相关,但英语语言内容除外。英语语言内容被视为与使用用户语言的内容同样相关。

文件类型偏好

在大多数搜索情况中,某些文件类型比其他类型更为相关。例如,对用户的搜索而言,HTML 页面和 Word 文档通常比 Excel 电子表格或纯文本文件更为相关。

企业级搜索的相关性计算包含排名算法,在此算法中,某些文件类型的排名高于其他文件类型。这适用于下列文件类型,这些类型以企业级搜索中的默认排名顺序列出,从排名最高的开始:

  • HTML 网页

  • PowerPoint 演示文稿

  • Word 文档

  • XML 文件

  • Excel 电子表格

  • 纯文本文件

  • 列表项

See Also

参考

Microsoft.Office.Server.Search.Administration.Ranking

Microsoft.Office.Server.Search.Administration.Schema

Microsoft.Office.Server.Search.Administration.Keywords

概念

改进相关性

企业级搜索体系结构

企业级搜索管理对象模型入门

其他资源

以编程方式管理企业级搜索