Compartir a través de


Normalización de formularios de superficie

Aunque las palabras y las reglas lingüísticas difieren drásticamente, hay algunas consideraciones, como números, fechas y horas, que se controlan de forma coherente en todos los separadores de palabras. En este tema se documentan consideraciones de normalización que pueden afectar a la implementación del separador de palabras.

Este tema se organiza de la siguiente manera:

Etimología

Los guiones (-) se usan entre las partes de una palabra o nombre compuesto. También se usan entre las sílabas de una palabra cuando la palabra se divide al final de una línea de texto. En inglés, las palabras se unen con guiones para indicar una relación especial en contexto, pero es posible que esas palabras no estén normalmente guionadas en otros contextos; por ejemplo, "paso a paso". Durante la creación del índice, el separador de palabras debe tratar el guión como separador de palabras. Por ejemplo, "base de datos" se almacenaría como "datos" más "base". En el momento de la consulta, se debe reemplazar una frase con guiones por dos alternativas: la variante de dos palabras y el compuesto verdadero. Por ejemplo, "data-base" se reemplazaría por "data" más "base" y "database". Esta diferencia entre el índice y el tiempo de consulta aumenta las combinaciones de representaciones para palabras con guiones y facilita la coincidencia de las palabras en una consulta.

En la tabla siguiente se muestra cómo tratar guiones como separadores de palabras en el idioma inglés aumenta el número de términos de consulta coincidentes para cada término incluido en el índice.

Términos incluidos en el índice Coincidencias en tiempo de consulta
Base de datos base de datos, base de datos
Base de datos base de datos, base de datos
Base de datos base de datos, base de datos

 

Posesivos

Los posesivos son variaciones en un sustantivo que indica posesión. Los posesivos en inglés se representan anexando un apóstrofo (') o un apóstrofo y una s ('s) a una palabra. Por ejemplo, para indicar posesión, la palabra "María" se representa como "María". El separador de palabras genera los apóstrofos y los apóstrofos en el momento de la consulta. Las consultas de "Mary" deben coincidir con "Mary" y "Mary's".

Marcas diacríticas

Los signos diacríticos se agregan a una letra o fonema para indicar un valor fonético especial para la pronunciación. Los diacríticos pueden distinguir palabras que, de lo contrario, son gráficamente idénticas; por ejemplo, "resume" y "resumé" en inglés. Sin embargo, al guardar diacríticos en el índice, aumenta el número de claves de palabra únicas en el índice, lo que ralentiza el rendimiento de las consultas. Si los diacríticos solo se usan mínimamente en un idioma, el separador de palabras para ese idioma debe quitarlos durante la creación y la consulta del índice. Por ejemplo, el separador de palabras en inglés genera "resume" al procesar "resumé", lo que solo provoca un impacto mínimo en la relevancia de los resultados de la consulta.

Clitics

Un clitico es una palabra sin estrés que es incapaz de permanecer por sí sola y se adjunta a una palabra estresada para formar una sola unidad. Los cliticos no se pueden clasificar fácilmente como fonológicos, sintácticos o morfológicos. Los cliticos vienen en dos tipos: proclimáticos y enclimáticos. Los proclimáticos se unen al principio de una palabra. Los enclimáticos se unen al final de una palabra.

Los cliticos son más difíciles de analizar en idiomas como español. Un verbo español puede generar muchas formas de superficie, dependiendo del tiempo. Se deben tener en cuenta las consideraciones entre quitar el clitico durante la creación del índice y generar los formularios de superficie a través de la lematización en el momento de la consulta. La eliminación de clitics en los casos en los que la morfología de la composición clitica es ambigua puede dar lugar a resultados impredecibles. La generación de un gran número de formularios de superficie para una palabra aumenta el tamaño del índice de texto completo y puede ralentizar el rendimiento de las consultas. Se recomienda que el lematizador genere solo un pequeño número de formas de superficie.