配置同义词库文件

更新日期: 2006 年 12 月 12 日

Microsoft SQL Server 2005 所附带的所有同义词库文件的格式如下。

<XML ID="Microsoft Search Thesaurus">

<!--  Commented out
    <thesaurus xmlns="x-schema:tsSchema.xml">
      <diacritics = false/>
        <expansion>
            <sub>Internet Explorer</sub>
            <sub>IE</sub>
            <sub>IE5</sub>
        </expansion>
        <replacement>
            <pat>NT5</pat>
            <pat>W2K</pat>
            <sub>Windows 2000</sub>
        </replacement>
        <expansion>
            <sub>run</sub>
            <sub>jog</sub>
        </expansion>
    </thesaurus>
-->
</XML>

每个同义词库文件都有一个或多个以下部分:

  • 扩展集
    扩展集包含一组同义词。这些同义词在代码中由“替换”标记 (<sub> 和 </sub>) 来标识。在一个替换项中包含匹配项的查询将展开以包括扩展集中所有其他替换项。
  • 替换集
    替换集包含将由替换集替换的文本模式。若要查看示例,请参阅此主题后面的“替换集”部分。

另外,同义词库文件包含 <diacritics = false/> 标记。false 表示扩展集和替换集中指定的字词是不区分重音的。若要使用区分重音的同义词库进行搜索,请将此标记改为 <diacritics = true/>。例如,假设您在全文搜索查询中指定要用其他模式来替换模式“café”。如果同义词库文件不区分重音,则全文搜索将替换模式“café”和“cafe”。如果同义词库文件区分重音,则全文搜索将仅替换模式“café”。请注意,此设置在该文件中只能应用一次,并应用于该文件中的所有搜索模式。不能为各个模式单独指定此设置。

ms345186.note(zh-cn,SQL.90).gif重要提示:
使用文本编辑器工具编辑同义词库文件时,必须以 Unicode 格式保存这些文件并且必须指定字节顺序标记。

扩展集

每个扩展集都包含在 <expansion> 标记内。在扩展标记中,可以指定一个或多个位于 <sub> 标记内的替换项。在扩展集中,可以指定一组互为同义词的替换项。

例如,可以编辑扩展部分,以将替换项“writer”、“author”和“journalist”视为同义词。在一个替换项中包含匹配项的全文搜索查询将展开以包括扩展集中指定的所有其他替换项。因此,在前面的示例中,如果对单词“author”发出 FORMS OF THESAURUS 或 FREETEXT 查询,则全文搜索还将返回包含单词“writer”和“journalist”的搜索结果。

对于上述示例,您将看到如下所示的扩展集部分:

 <expansion>
         <sub>writer</sub>
         <sub>author</sub>
         <sub>journalist</sub>
 </expansion>

替换集

每个替换集都包含在 <replacement> 标记内。在每个替换标记中,可以指定一个或多个位于 <pat> 标记中的模式。可以指定一个或多个放在 <sub> 标记中的替换项。可以指定要由替换集替换的模式。模式和替换项可以包含一个单词或一列单词。

例如,假设您希望用替换项“Windows 2000”或“XP”替换模式“W2K”的查询。如果对“W2K”运行全文查询,则全文搜索只返回包含“Windows 2000”或“XP”的搜索结果。它不会返回包含“W2K”的结果。这是因为模式“W2K”已经由模式“Windows 2000”和“XP”所“替换”。

对于上述示例,您将看到如下所示的替换集部分:

 <replacement>
         <pat>W2K</pat>
         <sub>Windows 2000</sub>
         <sub>XP</sub>
 </replacement>

如果有两个具有相似模式的替换集可匹配,则优先选用两者中的更长者。例如,如果对“Internet Explorer online community”运行 FORMS OF THESAURUS 查询,并且有以下替换集,则“Internet Explorer”替换集的优先级别高于“Internet”的优先级别。因此,查询将作为“IE online community”或“IE 5 online community”进行处理。

<replacement>
         <pat>Internet</pat>
         <sub>intranet</sub>
</replacement>

<replacement>
         <pat>Internet Explorer</pat>
         <sub>IE</sub>
         <sub>IE 5</sub>
</replacement>

请参阅

概念

全文搜索的体系结构
同义词库
全文搜索

其他资源

CONTAINS (Transact-SQL)
FREETEXT (Transact-SQL)
FREETEXTTABLE (Transact-SQL)

帮助和信息

获取 SQL Server 2005 帮助

更改历史记录

发布日期 历史记录

2006 年 12 月 12 日

更改的内容:
  • 已将 <diacritics_sensitive> 标记的语法更正为 <diacritics = false/>,并更新了此标记的说明。
新增内容:
  • 添加了有关必须以 Unicode 格式保存同义词库文件以及必须指定字节顺序标记的重要说明。

2006 年 7 月 17 日

新增内容:
  • 阐明了 <diacritics_sensitive> 标记的含义。