Configurar y administrar separadores de palabras y lematizadores para la búsqueda

2017-06-13

Los separadores de palabras y programas de lematización realizan un análisis lingüístico en todos los datos indexados con texto completo. El análisis lingüístico implica buscar límites de palabras (separación de palabras) y conjugar verbos (lematización). Los separadores de palabras y lematizadores son específicos del idioma, y las reglas para el análisis lingüístico varían entre distintos idiomas. Para un idioma determinado, un separador de palabras identifica palabras individuales al determinar dónde existen los límites de palabras en función de las reglas léxicas del idioma. Cada palabra (también conocida como token) se inserta en el índice de texto completo mediante una representación comprimida para reducir su tamaño. El stemmer genera formas flexivas de una palabra determinada basado en las reglas de ese idioma (por ejemplo, "running", "ran" y "runner" son varias formas de la palabra "run").

El uso de separadores de palabras específicos del lenguaje permite que los términos resultantes sean más precisos para ese idioma. Donde hay un separador de palabras para la familia de idiomas, pero no para el sub-idioma específico, se usa el idioma principal. Por ejemplo, el separador de palabras francés se usa para controlar el texto que es francés canadiense. Si no hay ningún separador de palabras disponible para un idioma determinado, se usa el separador de palabras neutro. Con el separador de palabras neutral, las palabras se rompen en caracteres neutros, como espacios y signos de puntuación.

Registro de separadores de palabras

Para que se usen los separadores de palabras de un idioma, deben registrarse. En el caso de los separadores de palabras registrados, los lematizadores lingüísticos asociados, las palabras vacías (stopwords) y los archivos de sinónimos también estarán disponibles para las operaciones de indexación y consulta de texto completo. Para ver una lista de los idiomas cuyos separadores de palabras están registrados actualmente con SQL Server, use la siguiente instrucción Transact-SQL:

SELECT * FROM sys.fulltext_languages

Si agrega, quita o modifica un separador de palabras, debe actualizar la lista de identificadores de configuración regional (LCID) de Microsoft Windows que se admiten para la indexación y consulta de texto completo. Para obtener más información, vea Ver o cambiar filtros registrados y separadores de palabras.

Establecer la opción de idioma Full-Text predeterminada

Para una versión localizada de SQL Server, el programa de instalación de SQL Server establece la opción default full-text language en el idioma del servidor si existe una coincidencia adecuada. Para una versión no localizada de SQL Server, la opción default full-text language es inglés.

Al crear o modificar un índice de texto completo, puede especificar un idioma diferente para cada columna indizada de texto completo. Si no se especifica ningún idioma para una columna, el valor predeterminado es el valor de la opción default full-text languagede configuración .

Nota:

Todas las columnas enumeradas en una sola cláusula de función de consulta de texto completo deben usar el mismo lenguaje, a menos que se especifique la opción LANGUAGE en la consulta. El idioma utilizado para la columna indizada de texto completo que se consulta determina el análisis lingüístico realizado en argumentos de los predicados de consulta de texto completo (CONTAINS y FREETEXT) y funciones (CONTAINSTABLE y FREETEXTTABLE).

Elección del idioma de una columna indizada

Al crear un índice de texto completo, se recomienda especificar un idioma para cada columna indizada. Si no se especifica un idioma para una columna, se usa el idioma predeterminado del sistema. El idioma de una columna determina qué separador de palabras y lematizador se usan para indexar esa columna. Además, el archivo de sinónimos de ese idioma se usará en las consultas de texto completo de la columna.

Hay un par de aspectos que se deben tener en cuenta al elegir el idioma de columna para crear un índice de texto completo. Estas consideraciones se relacionan con la forma en que el texto se tokeniza y, a continuación, se indexa mediante Full-Text Engine. Para obtener más información, vea Elegir un idioma al crear un índice de Full-Text.

Para ver el idioma del separador de palabras de una columna

Administración de índices de Full-Text

sys.fulltext_index_columns (Transact-SQL)

SELECT 'language_id' AS "LCID" FROM sys.fulltext_index_columns;

Obtener información sobre separadores de palabras

Visualización del resultado de la tokenización de una combinación de separador de palabras, diccionario de sinónimos y listas de palabras irrelevantes

sys.dm_fts_parser (Transact-SQL).

Para devolver información sobre los separadores de palabras registrados

sp_help_fulltext_system_components (Transact-SQL)

Solución de problemas de errores de tiempo de espera de Word-Breaking

Un error de tiempo de espera de interrupción de palabras puede producirse en una variedad de situaciones. Para obtener información sobre estas situaciones y cómo responder en cada situación, consulte MSSQLSERVER_30053.

Comprensión del impacto de los nuevos separadores de palabras

Cada versión de SQL Server normalmente incluye nuevos separadores de palabras que tienen reglas lingüísticas mejores y son más precisos que los separadores de palabras anteriores. Potencialmente, los nuevos separadores de palabras pueden comportarse ligeramente de manera diferente de los separadores de palabras en índices de texto completo que se importaron a partir de versiones anteriores de SQL Server. Esto es importante si se importó un catálogo de texto completo cuando se actualizó una base de datos a la versión actual de SQL Server. Uno o varios idiomas usados por los índices de texto completo en el catálogo de texto completo podrían asociarse ahora con nuevos separadores de palabras. Para obtener más información, vea Actualizar la búsqueda de texto completo.

Para obtener una lista completa de todos los separadores de palabras, vea sys.fulltext_languages (Transact-SQL).

Véase también

ALTER FULLTEXT INDEX (Transact-SQL)
CREAR ÍNDICE DE TEXTO COMPLETO (Transact-SQL)
sp_fulltext_service (Transact-SQL)
sys.fulltext_languages (Transact-SQL)
Configurar y administrar palabras irrelevantes y listas de palabras irrelevantes para Full-Text Search
Actualizar Full-Text Search

Compartir a través de