干扰词
为了精简全文索引,Microsoft SQL Server 提供了一种机制,用来去掉那些经常出现但对搜索没有帮助的词。这些词称为“干扰词”或“终止词”。干扰词列在针对各个区域设置的干扰词文件中。例如,在“英语”区域设置中,诸如“a”、“and”、“is”和“the”之类的词就会列在英语干扰词文件中,并且凭经验知道它们对搜索没有用处,因此将它们排除在全文索引外。但是,全文索引会考虑干扰词的位置。例如,对于短语“Instructions are applicable to these Adventure Works Cycles models”而言,下表显示了短语中各个词的位置:
词或标记 | 位置 |
---|---|
Instructions |
1 |
are |
2 |
applicable |
3 |
to |
4 |
these |
5 |
Adventure |
6 |
Works |
7 |
Cycles |
8 |
models |
9 |
位于位置 2、4 和 5 的干扰词“are”、“to”和“these”将被排除在全文索引外。但是会保留它们的位置信息,从而使短语中其他词的位置不受影响。
干扰词文件位于 $SQL_Server_Install_Path\Microsoft SQL Server\MSSQL.1\MSSQL\FTDATA\ 目录中。在安装带有全文搜索支持的 SQL Server 时会创建这个目录,并安装干扰词文件。可以对干扰词文件进行编辑,例如,高科技公司的系统管理员可以把“computer”一词添加到他们的干扰词列表中。
重要提示: |
---|
如果对干扰词文件进行了编辑,则必须重新填充全文目录,更改才能生效。 |
下表显示了干扰词文件及其相应的语言。
干扰词文件 | 语言 |
---|---|
Noisechs |
简体中文 |
Noisecht |
繁体中文 |
Noisedan |
丹麦语 |
Noisedeu |
德语 |
Noiseeng |
英语(英国) |
Noiseenu |
英语(美国) |
Noiseesn |
西班牙语 |
Noisefra |
法语 |
Noiseita |
意大利语 |
Noisejpn |
日语 |
Noisekor |
朝鲜语 |
Noiseneu |
非特定语言 |
Noisenld |
荷兰语 |
Noiseplk |
波兰语 |
Noiseptb |
葡萄牙语(巴西) |
Noisepts |
葡萄牙语(伊比利亚) |
Noiserus |
俄语 |
Noisesve |
瑞典语 |
Noisetha |
泰语 |
Noisetrk |
土耳其语 |