Consideraciones lingüísticas y unicode varias

Artículo
06/13/2023

En este tema se describen las consideraciones de lematización para los idiomas agglutinativos y los pares suplentes Unicode, y para usar pares suplentes para ampliar el juego de caracteres Unicode para dar cabida a diferentes juegos de caracteres. En este tema también se describe cómo los separadores de palabras identifican las frases en el texto y controlan los espacios sin separación, y cómo los separadores de palabras y lematizadores controlan números y fechas, palabras compuestas, frases compuestas, palabras especiales y caracteres, acrónimos y abreviaturas, y mayúsculas.

Este tema se organiza de la siguiente manera:

Identificación de frases
Idiomas agglutinativos
Números, horas y fechas
Palabras compuestas
Frases compuestas
Caracteres y palabras especiales
Acrónimos y abreviaturas
Uso de mayúsculas
Espacios no separados
Pares suplentes

Identificación de frases

Las frases son una palabra o un grupo de palabras modificadas por una o varias otras. Las frases son difíciles de identificar de forma coherente porque el mismo modificador se puede usar en más de una frase con el mismo sustantivo. Por ejemplo, "nueva casa", "Cámara del Parlamento", "nueva Cámara del Parlamento".

Windows Search usa frases con más frecuencia en el momento de la consulta. Las frases del texto de consulta reciben un peso mayor que las palabras individuales. En el ejemplo anterior, un documento que contiene "Cámara de Parlamento" es más alto que uno que contiene "Casa" y "Parlamento" en distintos puntos del documento. Se recomienda que los separadores de palabras generen una frase en el momento de la consulta si es probable que la frase coincida con al menos un documento.

Idiomas agglutinativos

Los lenguajes agglutinativos forman palabras a través de la combinación de morfemas más pequeños para expresar ideas compuestas. Cada uno de estos morfemas generalmente tiene un significado o función y conserva su forma y significado original durante el proceso de combinación. Para los idiomas que tienen morfología agglutinativa, como turco, finlandés, húngaro o coreano, es posible producir miles de formas para una palabra raíz determinada.

En la tabla siguiente se muestra una lista de formularios inflectados para la palabra finlandesa "talo" ("house").

Word	Traducción
Talo	Casa
Taloni	Mi casa
Talossa	En la casa
Talossani	En mi casa
Taloja	Casas
Taloissa	En las casas

Los idiomas inflectados, como inglés, francés y latino, tienen un número muy pequeño de formas de palabras posibles para una palabra raíz. En los lenguajes inflectos, los morfemes influyen entre sí cuando se enlazan. La mayoría de los cambios en la inflexión están presentes en el final de la palabra o el tallo. A diferencia de los lenguajes agglutinativos, los lenguajes inlectados tienden a tener diferentes funciones para un único morfema. Por ejemplo, un morfema puede determinar el número y el caso.

Los lematizadores para lenguajes agglutinativos deben pesar el equilibrio entre el rendimiento y la precisión para generar solo un subconjunto del número de formas de palabra posibles.

Números, horas y fechas

Word separadores debe usar un formato común para representar números, horas y fechas para facilitar la consulta coherente.

Al crear un separador de palabras, se recomienda que el separador de palabras normalice los números en una representación canónica mediante el patrón "NNddDcc", donde NN es la secuencia literal "NN", dd es la parte entera del número, D es el literal "D" y cc es la parte fraccionaria del número. Word separadores no restringen el número de dígitos para el entero o la parte de fracción del número. Se recomienda que los separadores de palabras reconozcan patrones numéricos delimitados por puntos (.) y comas (,). Por ejemplo, Windows Search representa "1.000.2" y "1.000,2" como "NN1000D2".

Elija un formato para separador de palabras y lematizador. Los números arábigos de un solo byte se normalizan de forma que una consulta que contenga cualquiera de estos formularios coincida con los demás formularios.

Al crear un separador de palabras, se recomienda que el separador de palabras presente todas las veces como una representación de 24 horas con el patrón "TThhmmss", donde TT es el prefijo literal "TT", hh es las horas, mm es los minutos y ss es los segundos. Windows Search no coincide con unidades de tiempo adicionales, como milisegundos. El análisis de patrones A.M. y P.M. es opcional.

Al crear un separador de palabras, se recomienda que el separador de palabras genere fechas en el formato canónico de "DDaaaammdd", donde DD es el literal "DD", aaaa es los años, mm es los meses y dd es los días. También se recomienda que los separadores de palabras almacenen años de dos dígitos en formatos del siglo XX y del siglo XXI. Por ejemplo, los separadores de palabras representan "2.2.99" como "DD19990202" y "DD20990202". En el momento de la consulta, Windows Search deriva la fecha mediante interfaces de programación de aplicaciones (API) de Windows para determinar la fecha de cruce para que el servidor muestre el formato correcto, 19XX o 20XX.

Palabras compuestas

En algunos idiomas, como alemán, los sustantivos se componen de nombres más sencillos. Estos nombres compuestos son demasiado específicos en lo que se refiere a la recuperación de consultas razonables. Por ejemplo, sin descomposición, una consulta para "Versicherung" ("insurance") no coincide con "Lebensversicherungsgesellschaft" ("life-insurance salesman"). En casos como este, se recomienda que los separadores de palabras interrumpan estas palabras compuestas en componentes base durante la creación del índice y el tiempo de consulta. El separador de palabras alemanas divide "Lebensversicherungsgesellschaft" en las palabras componentes "Leben", "Versicherung" y "Gesellschaft". Aplica la misma descomposición en el momento de la consulta, junto con lematización opcional para cada uno de los términos resultantes.

Frases compuestas

Algunos idiomas, como coreano, contienen frases complejas que se pueden romper de varias maneras diferentes. Una frase coreana consta de palabras de contenido, como sustantivos, pronombres, verbos y adjetivos, seguidos de palabras funcionales. Las palabras funcionales se encuentran en posiciones posteriores y finales. Las posiciones posteriores indican el rol funcional del sustantivo o pronombre en una oración; los finales indican el rol funcional del verbo o adjetivo.

Una frase puede tener varios análisis y cada análisis puede constar de varias palabras de contenido. El separador de palabras debe emplear heurística específica del lenguaje para determinar, a partir del contexto, la cantidad de peso que se debe dar a diferentes análisis. El separador de palabras puede determinar qué descomposición se va a usar en función del número de palabras de componente resultantes. Algunos separadores de palabras pueden favorecer secuencias cortas de términos más largos, mientras que otros separadores de palabras pueden favorecer secuencias largas de palabras más pequeñas.

Otra consideración es que en coreano, los sustantivos y los pronombres pueden almacenarse en el índice sin sus palabras funcionales correspondientes. Coreano es un lenguaje agglutinativo y combina numerosos finales de palabras con verbos y adjetivos para formar innumerables formas inflectadas. Los verbos y los adjetivos identificados en frases se guardan con sus finales en el índice, pero el separador de palabras no genera nuevos formularios.

Caracteres y palabras especiales

Los caracteres especiales son caracteres como "," "©, " y "™". Estos caracteres rara vez se usan en las consultas. Word separadores deben quitar caracteres especiales durante la creación del índice y en el momento de la consulta.

Se recomienda que los separadores de palabras reconozcan palabras especiales, como "C++", "C#", ".NET", calificaciones y notación musical. Word separadores pueden usar una heurística de lenguaje para identificar un patrón de palabras especiales. Word separadores también puede usar un diccionario personalizado que contenga palabras especiales reconocidas.

Acrónimos y abreviaturas

Las abreviaturas y acrónimos deben tenerse en cuenta al implementar un separador de palabras. En muchos idiomas, las letras individuales de acrónimos están separadas por puntos. En ocasiones, las palabras que no se reconocen acrónimos o abreviaturas se abrevian. Por ejemplo, "Estados Unidos de América" puede abreviarse como "EE. UU." o "EE. UU.". Word separadores incluidos con Windows Search normalmente identifican palabras de una sola letra como palabras irrelevantes y tratan esas palabras como marcadores de posición durante el tiempo de consulta. Durante el tiempo de consulta, un separador de palabras que no conoce acrónimos comunes o que no reconoce abreviaturas, convierte la abreviatura "EE.UU.A." en "U", "S" y "A". Esta descomposición no proporciona suficiente información para hacer coincidir palabras en el índice de texto completo porque todos los términos de consulta son palabras irrelevantes. Al crear un separador de palabras, se recomienda que el separador de palabras quite los puntos que separan las letras de los acrónimos. En el ejemplo, "EE. UU." se almacena como "USA" y un término de consulta que contiene "EE.UU.". realmente consulta "EE. UU. ". Si un separador de palabras procesa una abreviatura, el período de esa abreviatura no se trata como un salto EOS. Por este motivo, un separador de palabras podría no identificar correctamente un salto EOS si la abreviatura está al final de la oración.

Uso de mayúsculas

Windows Search no conserva actualmente mayúsculas cuando guarda palabras en el índice de texto completo. Word separadores y lematizadores no deben modificar el caso de las palabras.

Espacios sin separación

Al crear un separador de palabras, se recomienda asegurarse de que el separador de palabras trata los espacios de no separación como separadores de palabras. También se recomienda que el separador de palabras genere formas alternativas de la palabra, con y sin espacios de separación. Algunos caracteres, como los caracteres de subrayado, son caracteres especiales que se tratan como caracteres de no separación debido a los orígenes del texto en el que se encuentran. Por ejemplo, el código fuente o los nombres de archivo pueden incluir caracteres de subrayado como caracteres de no separación.

Pares suplentes

Los pares suplentes son representaciones de caracteres en el código fuente que representan un solo carácter que consta de una secuencia de dos valores Unicode. En un par codificado, el primer valor es un suplente alto y el segundo es un suplente bajo. Un suplente alto es un carácter del intervalo U+D800 a U+DBFF. Un suplente bajo es un carácter del intervalo U+DC00 a U+DFFF. Los pares suplentes amplían el juego de caracteres más allá del carácter Unicode. Se recomienda que un separador de palabras use las siguientes reglas al controlar los pares suplentes:

Un suplente alto debe preceder a un suplente bajo.
Un suplente bajo debe seguir un suplente alto.
Un suplente alto o bajo sin un valor correspondiente para su otra mitad no tiene sentido.

Word separadores deben tener en cuenta los pares y generar los pares como tal en el índice. Para obtener más información, vea Suplentes y caracteres complementarios.

Compartir a través de