Descripción de los componentes de recursos de lenguaje

Artículo
06/13/2023

Los recursos de lenguaje constan de separadores de palabras y lematizadores que amplían las funcionalidades de creación y consulta de índices a nuevos idiomas y configuraciones regionales. Word separadores se usan durante la creación y consulta de índices. Los lematizadores solo se usan para realizar consultas. Windows Search usa dll de recursos de lenguaje para enlazar a implementaciones de IWordBreaker e IStemmer para una configuración regional de idioma específica.

Este tema se organiza de la siguiente manera:

Acerca de los recursos de idioma
Separación de palabras
Raíz
Normalización
Palabras irrelevantes
Temas relacionados

Acerca de los recursos de idioma

Windows Search usa un filtro (una implementación de la interfaz IFilter ) e ILoadFilter para acceder a un documento en su formato nativo. El componente IFilter extrae contenido de texto, propiedades y formato del documento. El IFilter identifica la configuración regional del documento que está filtrando. El componente de indexación invoca el separador de palabras adecuado para esa configuración regional. Si no hay ninguno disponible, el componente de indexación invoca el separador de palabras neutral. El separador de palabras recibe, de un IFilter, un flujo de entrada de caracteres Unicode que el separador de palabras analiza para generar palabras y frases individuales. El separador de palabras también normaliza los formatos de fecha y hora. El indexador normaliza las palabras generadas por el separador de palabras convirtiendo las palabras en todas las letras mayúsculas. El indexador guarda las palabras mayúsculas en el índice de texto completo, con la excepción de las palabras irrelevantes identificadas para esa configuración regional.

En la tabla siguiente se enumeran las acciones y los resultados correspondientes de la frase "La figura 1 muestra el rol de recursos de idioma para Windows Search durante el proceso de creación de índices".

Acción	Texto resultante
Texto original	En la figura 1 se muestra el rol de recursos de lenguaje para Windows Search durante el proceso de creación de índices.
Filtros	En la figura 1 se muestra el rol de recursos de lenguaje para Windows Search durante el proceso de creación de índices.
División de palabras	Figura 1, ilustración, rol, de, idioma, recursos, para, Windows, Búsqueda, durante, índice, creación, proceso, EOS
Normalización	ILUSTRACIÓN 1, ILUSTRACIÓN, ROL, DE, IDIOMA, RECURSOS, WINDOWS, BÚSQUEDA, DURANTE, ÍNDICE, CREACIÓN, PROCESO
Eliminación de palabras irrelevantes	ILUSTRACIÓN, ILUSTRACIÓN, ROL, IDIOMA, RECURSOS, WINDOWS, BÚSQUEDA, DURANTE, ÍNDICE, CREACIÓN, PROCESO
Guardar en el índice de texto completo	ILUSTRACIÓN, ILUSTRACIÓN, ROL, IDIOMA, RECURSOS, WINDOWS, BÚSQUEDA, DURANTE, ÍNDICE, CREACIÓN, PROCESO

Word separadores y lematizadores se usan para expandir consultas FREETEXT en el momento de la consulta. La configuración regional de la consulta es la configuración regional predeterminada a menos que se pase un identificador de código de idioma (LCID) como parámetro de consulta. El componente de consulta invoca el separador de palabras adecuado en los términos de consulta enumerados en la cláusula WHERE de la consulta. Por ejemplo, si la cláusula WHERE de la consulta contiene "FREETEXT (manzanas, naranjas y guisantes), el separador de palabras recibe el texto" "apples, naranjas y peras". Si la cláusula WHERE de consulta usa el predicado CONTAINS de texto completo, se normaliza la salida de texto del separador de palabras. De lo contrario, el componente de consulta pasa cada palabra identificada por el separador de palabras al lematizador adecuado para ese idioma y configuración regional. El lematizador genera una lista de formularios alternativos, o inflectados, para esa palabra. El componente de consulta normaliza la lista expandida de términos de consulta y quita palabras irrelevantes.

En la tabla siguiente se enumeran las acciones y los resultados correspondientes de la consulta "manzanas, naranjas y peras".

Acción	Texto resultante
Texto original	manzanas, naranjas y peras
División de palabras	manzanas, naranjas y, peras, EOS
Raíz	manzana, manzanas, naranjas, naranjas, naranjas y, pera, peras
Normalización	APPLE, APPLES, ORANGE, ORANGEY, ORANGES, AND, PEAR, PEARS
Eliminación de palabras irrelevantes	APPLE, APPLES, ORANGE, ORANGEY, ORANGES, PEAR, PEARS
Lista expandida de términos de consulta	APPLE, APPLES, ORANGE, ORANGEY, ORANGES, PEAR, PEARS

Los términos de consulta expandidos aumentan la probabilidad de que la consulta encuentre documentos que coincidan con la intención de la consulta original. Texto que el separador de palabras o lematizador genera en el momento de la consulta no se almacena en el disco.

Separación de palabras

Word separación es la separación del texto en tokens de texto individuales o palabras. Muchos idiomas, especialmente aquellos con alfabetos romanos, tienen una matriz de separadores de palabras (como espacios en blanco) y puntuación que se usan para distinguir palabras, frases y oraciones. Word separadores deben basarse en heurística de lenguaje precisa para proporcionar resultados confiables y precisos. Word separación es más complejo para los sistemas basados en caracteres de escritura o alfabetos basados en scripts, donde el significado de caracteres individuales se determina a partir del contexto. Para obtener más información sobre las consideraciones lingüísticas que pueden afectar a la implementación del separador de palabras, vea Consideraciones lingüísticas y Unicode.

Raíz

Windows Search aplica lematizadores exclusivamente en el momento de la consulta para generar formularios de palabras adicionales para los términos en las consultas freetext y de propiedades. Los lematizadores realizan análisis morfológicos y aplican reglas gramaticales para generar una lista de formas alternativas, o inflectas, para las palabras. Las formas alternativas suelen tener el mismo tallo o forma base. Al generar los formularios inflected para una palabra, Indexing Service devuelve los resultados de la consulta que son estadísticamente más relevantes para una consulta. Por ejemplo, una consulta de texto completo para "reunión de natación" coincide con documentos que contienen "nadar, nadar, nadar, nadar, nadar, swam, swum" o "reunirse, reunirse, reunirse, reunirse, reunirse, reunirse, reunirse" y combinaciones de estos términos.

Algunos lenguajes requieren que se generen términos inflectados tanto en el tiempo de índice como en el tiempo de consulta para inflexiónes estándar y variantes. En este caso, la lematización se produce en el componente del separador de palabras, con un trabajo mínimo de lematización en el lematizador real. Por ejemplo, el separador de palabras japonés realiza la lematización durante la creación del índice y la consulta para permitir que una consulta encuentre diferentes formas inflectadas de los términos de búsqueda.

Normalización

Los documentos de todos los idiomas se almacenan en un único índice. Aunque las palabras y las reglas lingüísticas difieren drásticamente, hay algunas consideraciones, como números, fechas y horas, que se controlan de forma coherente en todos los separadores de palabras. Para obtener más información sobre las consideraciones de normalización que pueden afectar a la implementación del separador de palabras, consulta Normalización de formularios surface.

Palabras irrelevantes

Las palabras irrelevantes, también conocidas como palabras irrelevantes, son palabras que no son indicadores significativos para el contenido. Indexing Service quita las palabras irrelevantes de los términos de consulta y del contenido que se incluye en el índice de texto completo. Un desplazamiento es la aparición de una palabra en un documento o en una lista de términos de consulta. El desplazamiento de palabras irrelevantes en un documento o consulta se registra como en blanco. La eliminación de palabras irrelevantes mejora el rendimiento de las consultas evitando el crecimiento innecesario del índice. También mejora la relevancia de los resultados de la consulta. Puedes configurar Windows Search para usar listas de palabras irrelevantes para idiomas específicos. Estas listas se usan cuando se invoca un separador de palabras para ese idioma. Por ejemplo, "the" en el idioma inglés se produce con tanta frecuencia que tiene poco valor como clave única. "The" está en la lista de palabras irrelevantes, no se escribe en el índice de contenido y, si se consulta, no devuelve ningún resultado.

Las palabras irrelevantes actúan como marcadores de posición en las consultas de frases. Un documento que contiene el texto "wag the dog" se almacena en el índice con "wag" en la aparición 1 y "dog" en la repetición 3. La consulta de frase "wag dog" no coincide, pero la consulta de frase "wag a dog" sí, porque la información de repetición coincide. La frase "wag purple dog" no coincide porque "púrpura" no se encuentra en el índice en la aparición 2. Sin embargo, una consulta para "wag the dog" devuelve documentos que contienen "wag purple dog" porque no hay ninguna manera de determinar eficazmente si el documento tenía una palabra sin ruido entre "wag" y "dog".

Extensión de recursos de lenguaje
Implementación de un separador de Word y lematizador
Consideraciones lingüísticas y Unicode
Solución de problemas de recursos de lenguaje y procedimientos recomendados

Compartir a través de

Descripción de los componentes de recursos de lenguaje

Acerca de los recursos de idioma

Separación de palabras

Raíz

Normalización

Palabras irrelevantes

Comentarios

Recursos adicionales

Compartir a través de

Descripción de los componentes de recursos de lenguaje

Acerca de los recursos de idioma

Separación de palabras

Raíz

Normalización

Palabras irrelevantes

Temas relacionados

Comentarios

Recursos adicionales