Нормализация форм Surface

Хотя слова и лингвистические правила отличаются резко, существуют некоторые рекомендации, такие как числа, даты и время, которые обрабатываются согласованно во всех разбиениях слов. В этом разделе описаны рекомендации по нормализации, которые могут повлиять на реализацию средства разбиения слов.

Этот раздел организован следующим образом:

Перенос

Дефисы (-) используются между частями составного слова или имени. Они также используются между слогами слова, когда слово делится в конце строки текста. На английском языке слова объединяются с дефисом, чтобы указать специальную связь в контексте, но эти слова обычно не могут быть дефисированы в других контекстах; Например, "пошаговые". Во время создания индекса средство разбиения слов должно рассматривать дефис как разделитель слов. Например, "база данных" будет храниться как "data" и "base". Во время запроса дефисированная фраза должна быть заменена двумя альтернативами: вариантом с двумя словами и истинным составом. Например, "база данных" будет заменена на "data" и "base" и "database". Это различие между индексом и временем запроса увеличивает сочетания представлений для дефисированных слов и упрощает сопоставление слов в запросе.

В следующей таблице показано, как обрабатывать дефисы как разделители слов на английском языке увеличивает количество подходящих терминов запросов для каждого термина, включенного в индекс.

Термины, включенные в индекс Совпадения во время запроса
База данных база данных, база данных
База данных база данных, база данных
База данных база данных, база данных

 

Присяговные

Присяговные являются вариациями существительных, указывающих на владение. Английские притяжательные представлены путем добавления апострофа (') или апострофа и s (s) к слову. Например, чтобы указать владение, слово "Мэри" представлено как "Мэри". Средство разбиения слов создает как апострофы, так и формы apostrophe-s во время запроса. Запросы на "Мэри" должны соответствовать как "Мэри" и "Мэри".

Диакритические

Diacritics — это знаки, добавленные в букву или фонеме, чтобы указать специальное фонетическое значение для произношения. Diacritics может различать слова, которые в противном случае графически идентичны; например, "резюме" и "résumé" на английском языке. Однако сохранение диакритических элементов в индексе увеличивает количество уникальных ключей слов в индексе, что замедляет производительность запросов. Если диакритические элементы используются только минимально в языке, средство разбиения слов для этого языка должно удалить их во время создания и запроса индекса. Например, средство разбиения на английском языке создает "резюме" при обработке "resumé", что приводит только к минимальному влиянию на релевантность результатов запроса.

Clitics

Клитик — это неустранимое слово, которое не может стоять самостоятельно и присоединяется к подчеркнутой слове, чтобы сформировать одну единицу. Клитики нельзя легко классифицировать как фонологические, синтаксические или морфологические. Clitics поставляется в двух типах: proclitics и enclitics. Проклитика присоединяет себя к началу слова. Энклитики присоединяются к концу слова.

Клитики сложнее анализировать на таких языках, как испанский. Испанский глагол может создавать множество форм поверхности в зависимости от времени. Необходимо учитывать, как удалить клитик во время создания индекса и создать формы поверхности с помощью стебля во время запроса. Удаление клитиков в случаях, когда морфология клитической композиции неоднозначна, может привести к непредсказуемым результатам. Создание большого количества форм поверхности для слова увеличивает размер полнотекстового индекса и может замедлить производительность запросов. Рекомендуется создать лишь небольшое количество форм поверхности.