Основы полнотекстового поиска

Статья
12/15/2008

В этом разделе вкратце описываются компоненты, процессы и терминология полнотекстового поиска. Терминология полнотекстового поиска во многом схожа с Microsoft SQL Server, но также содержит ряд специфических терминов, таких как «сканирование» и «лексема».

Терминология компонента Full-Text Search

Ниже приведен список терминов и компонентов, которые необходимо знать при использовании полнотекстового поиска.

Полнотекстовый индекс
В полнотекстовом индексе хранятся данные о существенных для поиска словах и их позициях в конкретном столбце. Эти данные используются для ускорения обработки полнотекстовых запросов на поиск строк, содержащих конкретные слова или комбинации слов. Дополнительные сведения см. в разделе Полнотекстовые индексы.

Полнотекстовый каталог
Полнотекстовый каталог содержит любое количество полнотекстовых индексов (или может не содержать их вообще). Полнотекстовые каталоги должны храниться на локальном жестком диске, связанном с экземпляром SQL Server. Каждый каталог может обеспечивать индексирование одной или нескольких таблиц базы данных. Полнотекстовые каталоги не могут храниться на сменных или сетевых дисках и дискетах, за исключением тех случаев, когда к системе подключается база данных, содержащая полнотекстовый каталог, в режиме только для чтения.

Средство разбиения по словам
Средство разбиения по словам разделяет текст на лексемы в соответствии с лексическими правилами конкретного языка. Дополнительные сведения см. в разделе Средства разбиения по словам и парадигматические модули.

Лексема
Лексема — это слово или строка символов, выделенная средством разбиения по словам.

Парадигматический модуль
Парадигматический модуль формирует флективные формы конкретного слова, основываясь на правилах конкретного языка. Парадигматические модули зависят от языка. Дополнительные сведения см. в разделе Средства разбиения по словам и парадигматические модули.

Фильтр
Получив данные о типе файла (например, .doc), фильтры извлекают текст из файла, хранимого в столбце varbinary(max) или image. Дополнительные сведения см. в разделе Фильтры полнотекстового поиска.

Заполнение или сканирование
Так называется процесс создания и использования полнотекстового индекса. Дополнительные сведения см. в разделе Структура полнотекстового индекса.

Неучитываемые слова
Неучитываемые слова — это часто встречающиеся слова, которые не повышают эффективность поиска. Примерами неучитываемых слов для английского языка могут служить слова «a», «and», «is» и «the». Эти слова игнорируются во избежание чрезмерного увеличения полнотекстового индекса. Дополнительные сведения см. в разделе Неучитываемые слова.

Примечание.
Полнотекстовое индексирование полностью поддерживается в среде отказоустойчивого кластера Microsoft Windows.

См. также

Поделиться через

Основы полнотекстового поиска

Терминология компонента Full-Text Search

См. также

Основные понятия

Другие ресурсы

Справка и поддержка

Дополнительные ресурсы