全文搜索基础
本主题简要说明了与全文搜索相关的组件、进程和术语。全文搜索与 Microsoft SQL Server 共用了许多术语,但还是有一些术语(例如“爬网”和“标记”)是全文搜索特有的。
全文搜索术语
下面列出了您在使用全文搜索时需要熟悉的术语和组件。
全文索引
在给定的列中存储有关重要的词及其位置的信息。可以利用这些信息快速计算全文查询,搜索包含特定词或词组的行。有关详细信息,请参阅全文索引。
全文目录
全文目录可以不包含全文索引,也可以包含数量不等的全文索引。全文目录必须驻留在与 SQL Server 实例相关联的本地硬盘上。每个目录可用于满足数据库内的一个或多个表的索引需求。除非附加了包含全文目录的只读数据库,否则不能将全文目录存储在可移动驱动器、软盘或网络驱动器上。
断字符
对于某种给定的语言,断字符可基于该语言的词汇规则对文本进行标记化。有关详细信息,请参阅断字符和词干分析器。
标记
是由断字符标识的词或字符串。
词干分析器
对于某种给定的语言,词干分析器可基于该语言的规则生成特定词的变形。词干分析器是针对特定语言的。有关详细信息,请参阅断字符和词干分析器。
筛选器
给出指定的文件类型(例如 .doc)后,筛选器就可以从存储在 varbinary(max) 或 image 列中的文件内提取文本。有关详细信息,请参阅全文搜索筛选器。
填充或爬网
是创建和维护全文索引的过程。有关详细信息,请参阅全文索引的结构。
干扰词
经常出现但对搜索没有帮助的词。例如,在“英语”区域设置中,诸如“a”、“and”、“is”和“the”之类的词都被认为是干扰词。这些词将被忽略,以便精简全文索引。有关详细信息,请参阅干扰词。
注意: |
---|
Microsoft Windows 故障转移群集环境完全支持全文索引。 |
请参阅
概念
其他资源
CREATE FULLTEXT INDEX (Transact-SQL)