Основы полнотекстового поиска
В этом разделе вкратце описываются компоненты, процессы и терминология полнотекстового поиска. Терминология полнотекстового поиска во многом схожа с Microsoft SQL Server, но также содержит ряд специфических терминов, таких как «сканирование» и «лексема».
Терминология компонента Full-Text Search
Ниже приведен список терминов и компонентов, которые необходимо знать при использовании полнотекстового поиска.
- Полнотекстовый индекс
В полнотекстовом индексе хранятся данные о существенных для поиска словах и их позициях в конкретном столбце. Эти данные используются для ускорения обработки полнотекстовых запросов на поиск строк, содержащих конкретные слова или комбинации слов. Дополнительные сведения см. в разделе Полнотекстовые индексы.
- Полнотекстовый каталог
Полнотекстовый каталог содержит любое количество полнотекстовых индексов (или может не содержать их вообще). Полнотекстовые каталоги должны храниться на локальном жестком диске, связанном с экземпляром SQL Server. Каждый каталог может обеспечивать индексирование одной или нескольких таблиц базы данных. Полнотекстовые каталоги не могут храниться на сменных или сетевых дисках и дискетах, за исключением тех случаев, когда к системе подключается база данных, содержащая полнотекстовый каталог, в режиме только для чтения.
- Средство разбиения по словам
Средство разбиения по словам разделяет текст на лексемы в соответствии с лексическими правилами конкретного языка. Дополнительные сведения см. в разделе Средства разбиения по словам и парадигматические модули.
- Лексема
Лексема — это слово или строка символов, выделенная средством разбиения по словам.
- Парадигматический модуль
Парадигматический модуль формирует флективные формы конкретного слова, основываясь на правилах конкретного языка. Парадигматические модули зависят от языка. Дополнительные сведения см. в разделе Средства разбиения по словам и парадигматические модули.
- Фильтр
Получив данные о типе файла (например, .doc), фильтры извлекают текст из файла, хранимого в столбце varbinary(max) или image. Дополнительные сведения см. в разделе Фильтры полнотекстового поиска.
- Заполнение или сканирование
Так называется процесс создания и использования полнотекстового индекса. Дополнительные сведения см. в разделе Структура полнотекстового индекса.
- Неучитываемые слова
Неучитываемые слова — это часто встречающиеся слова, которые не повышают эффективность поиска. Примерами неучитываемых слов для английского языка могут служить слова «a», «and», «is» и «the». Эти слова игнорируются во избежание чрезмерного увеличения полнотекстового индекса. Дополнительные сведения см. в разделе Неучитываемые слова.
Примечание. |
---|
Полнотекстовое индексирование полностью поддерживается в среде отказоустойчивого кластера Microsoft Windows. |
См. также
Основные понятия
Введение в компонент Full-Text Search
Другие ресурсы
CREATE FULLTEXT INDEX (Transact-SQL)