Неучитываемые слова
Чтобы предотвратить чрезмерное увеличение полнотекстового индекса, в Microsoft SQL Server реализован механизм, отбрасывающий часто встречающиеся слова, которые не повышают эффективность поиска. Такие слова называются неучитываемыми словами или стоп-словами. Неучитываемые слова хранятся в отдельных файлах для каждого языка. Например, файл неучитываемых слов, соответствующий английскому языку, содержит такие слова, как «a», «and», «is» и «the». Они не включаются в полнотекстовый индекс, потому что эмпирически установлено, что при поиске они бесполезны. Тем не менее при составлении полнотекстового индекса учитываются позиции неучитываемых слов. Рассмотрим для примера фразу «Instructions are applicable to these Adventure Works Cycles models». Позиции слов в этой фразе приведены в следующей таблице.
Слово или лексема | Позиция |
---|---|
Instructions |
1 |
are |
2 |
applicable |
3 |
to |
4 |
these |
5 |
Adventure |
6 |
Works |
7 |
Cycles |
8 |
models |
9 |
Неучитываемые слова «are», «to» и «these», занимающие позиции 2, 4 и 5, в полнотекстовый индекс не включаются. Однако данные об их позициях сохраняются, благодаря чему позиции других слов в фразе остаются неизменными.
Файлы неучитываемых слов хранятся в каталоге путь_установки_SQL_Server\Microsoft SQL Server\MSSQL.1\MSSQL\FTDATA\. Этот каталог и файлы неучитываемых слов создаются при установке SQL Server с поддержкой полнотекстового поиска. Файлы неучитываемых слов можно редактировать; например, системные администраторы, работающие в IT-компаниях, могут в список неучитываемых слов добавить слово «компьютер».
Важно! |
---|
Чтобы изменения в файле неучитываемых слов вступили в силу, полнотекстовые каталоги нужно заполнить заново. |
Файлы неучитываемых слов и соответствующие им языки указаны в следующей таблице.
Файл неучитываемых слов | Язык |
---|---|
Noisechs |
Китайский (упрощенный) |
Noisecht |
Китайский (традиционный) |
Noisedan |
Датский |
Noisedeu |
Немецкий |
Noiseeng |
Английский (Великобритания) |
Noiseenu |
Английский (США) |
Noiseesn |
Испанский |
Noisefra |
Французский |
Noiseita |
Итальянский |
Noisejpn |
Японский |
Noisekor |
Корейский |
Noiseneu |
Нейтральный язык |
Noisenld |
Нидерландский |
Noiseplk |
Польский |
Noiseptb |
Бразильский вариант португальского языка |
Noisepts |
Иберийский вариант португальского языка |
Noiserus |
Русский |
Noisesve |
Шведский |
Noisetha |
Тайский |
Noisetrk |
Турецкий |