Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Хотя слова и лингвистические правила отличаются резко, существуют некоторые рекомендации, такие как числа, даты и время, которые обрабатываются согласованно во всех разбиениях слов. В этом разделе описаны рекомендации по нормализации, которые могут повлиять на реализацию средства разбиения слов.
Этот раздел организован следующим образом:
Перенос
Дефисы (-) используются между частями составного слова или имени. Они также используются между слогами слова, когда слово делится в конце строки текста. На английском языке слова объединяются с дефисом, чтобы указать специальную связь в контексте, но эти слова обычно не могут быть дефисированы в других контекстах; Например, "пошаговые". Во время создания индекса средство разбиения слов должно рассматривать дефис как разделитель слов. Например, "база данных" будет храниться как "data" и "base". Во время запроса дефисированная фраза должна быть заменена двумя альтернативами: вариантом с двумя словами и истинным составом. Например, "база данных" будет заменена на "data" и "base" и "database". Это различие между индексом и временем запроса увеличивает сочетания представлений для дефисированных слов и упрощает сопоставление слов в запросе.
В следующей таблице показано, как обрабатывать дефисы как разделители слов на английском языке увеличивает количество подходящих терминов запросов для каждого термина, включенного в индекс.
| Термины, включенные в индекс | Совпадения во время запроса |
|---|---|
| База данных | база данных, база данных |
| База данных | база данных, база данных |
| База данных | база данных, база данных |
Присяговные
Присяговные являются вариациями существительных, указывающих на владение. Английские притяжательные представлены путем добавления апострофа (') или апострофа и s (s) к слову. Например, чтобы указать владение, слово "Мэри" представлено как "Мэри". Средство разбиения слов создает как апострофы, так и формы apostrophe-s во время запроса. Запросы на "Мэри" должны соответствовать как "Мэри" и "Мэри".
Диакритические
Diacritics — это знаки, добавленные в букву или фонеме, чтобы указать специальное фонетическое значение для произношения. Diacritics может различать слова, которые в противном случае графически идентичны; например, "резюме" и "résumé" на английском языке. Однако сохранение диакритических элементов в индексе увеличивает количество уникальных ключей слов в индексе, что замедляет производительность запросов. Если диакритические элементы используются только минимально в языке, средство разбиения слов для этого языка должно удалить их во время создания и запроса индекса. Например, средство разбиения на английском языке создает "резюме" при обработке "resumé", что приводит только к минимальному влиянию на релевантность результатов запроса.
Clitics
Клитик — это неустранимое слово, которое не может стоять самостоятельно и присоединяется к подчеркнутой слове, чтобы сформировать одну единицу. Клитики нельзя легко классифицировать как фонологические, синтаксические или морфологические. Clitics поставляется в двух типах: proclitics и enclitics. Проклитика присоединяет себя к началу слова. Энклитики присоединяются к концу слова.
Клитики сложнее анализировать на таких языках, как испанский. Испанский глагол может создавать множество форм поверхности в зависимости от времени. Необходимо учитывать, как удалить клитик во время создания индекса и создать формы поверхности с помощью стебля во время запроса. Удаление клитиков в случаях, когда морфология клитической композиции неоднозначна, может привести к непредсказуемым результатам. Создание большого количества форм поверхности для слова увеличивает размер полнотекстового индекса и может замедлить производительность запросов. Рекомендуется создать лишь небольшое количество форм поверхности.