Arquitectura del motor de búsqueda Enterprise Search

Artículo
02/01/2010

Enterprise Search de Microsoft Office SharePoint Server 2007 es un servicio compartido de Microsoft Office SharePoint Server 2007 que proporciona una recopilación de contenido, indización y consulta amplia y extensible. Este servicio admite la búsqueda de texto completo mediante una sintaxis de la consulta basada en el lenguaje de consulta estructurado (SQL) y proporciona una nueva sintaxis de palabras clave para admitir búsquedas de palabras clave.

Enterprise Search usa el mismo servicio de búsqueda subyacente que Buscar en Windows SharePoint Services.

En este tema se proporciona información sobre la arquitectura interna de Enterprise Search, así como de Enterprise Search como un servicio compartido.

Arquitectura interna

En la siguiente ilustración se proporciona una vista detallada de la arquitectura interna del servicio de búsqueda.

Arquitectura interna del servicio de búsqueda

A continuación se muestran los componentes de la arquitectura del servicio de búsqueda.

Motor de indización Procesa los fragmentos de texto y las propiedades filtradas de orígenes de contenido, y las almacena en el contenido de índice y el almacén de propiedades.
Motor de consulta Ejecuta sintaxis SQL y de palabras clave con el índice de contenido y los datos de configuración de búsqueda.
Controlador de protocolo Abre los orígenes de contenido en sus protocolos nativos y expone documentos y otros elementos que se van a filtrar.
IFilter Abre documentos y otros elementos de origen de contenido en sus formatos nativos y los filtra en fragmentos de texto y propiedades.
Índice de contenido Almacena información acerca de las palabras y su ubicación en elemento de contenido.
Almacén de contenidos Almacena una tabla de propiedades y valores asociados.
Datos de configuración de búsqueda Almacenan información usada por el servicio de búsqueda, incluida la configuración de rastreo, el esquema de propiedad, los ámbitos, etc.
Separadores de palabras Usados por los motores de consulta e indización para dividir las palabras compuestas y frases en palabras individuales o tokens.

Rastreo de contenido

El motor de indización usa una canalización de memoria compartida para solicitar que el demonio de filtro comience a filtrar el origen de contenido. Para que el proceso de rastreo sea correcto, el origen de contenido debe tener un controlador de protocolo asociado que pueda leer su protocolo. El demonio de filtro invoca el controlador de protocolo adecuado para el origen de contenido en función de la dirección de inicio proporcionada por el motor de indización. El demonio de filtro usa controladores de protocolo e IFilters, para extraer y filtrar elementos individuales del origen de contenido. Se aplican IFilters adecuados para cada documento y el demonio de filtro pasa el texto extraído y los metadatos al motor de indización a través de la canalización.

En este punto del proceso de rastreo de contenido, el motor de indización guarda las propiedades del documento en un almacén de propiedades independiente del índice de contenido. El almacén de propiedades consta de una tabla de propiedades y sus valores. Las propiedades de este almacén se pueden recuperar y ordenar. Además, el almacén admite las consultas sencillas de las propiedades. Cada fila de la tabla corresponde a un documento independiente del índice de texto completo. El texto real de un elemento de contenido se almacena en el índice de contenido, por lo que se puede usar para consultas de contenido. El almacén de propiedades también mantiene y refuerza la seguridad en el nivel del documento que se recopila cuando se rastrea un documento.

En este punto, el motor de indización usa separadores de palabras y analizadores lingüísticos para procesar el texto y las propiedades recogidas durante el rastreo. El componente de la separación de palabras se usa para dividir el texto en palabras y frases. El componente de análisis lingüístico se usa para generar formularios de declinación de una palabra determinada. El motor de indización también quita las palabras irrelevantes y crea un índice inverso para la búsqueda de texto completo.

Ejecución de consultas de búsqueda

Cuando se ejecuta una consulta de búsqueda, el motor de consulta transmite la consulta a través de un separador de palabras específico del lenguaje. Si no hay ningún separador de palabras para el lenguaje de consulta, se usa el separador de palabras neutral, que separa las palabras mediante un espacio en blanco, lo que significa que se produce la separación de palabras donde hay espacios en blanco en las palabras y frases. Después de la separación de palabras, las palabras resultantes se transmiten a través de un analizador lingüístico para generar formularios de declinación específicos del lenguaje de una palabra determinada. El uso del separador de palabras y el analizador lingüístico en los procesos de rastreo y consulta mejora la eficacia de la búsqueda, ya que se generan alternativas más relevantes a la expresión de consultas de un usuario. Cuando el motor de consulta ejecuta una consulta de valor de propiedad, primero se comprueba el índice para obtener una lista de coincidencias posibles. Las propiedades de los documentos coincidentes se cargan desde el almacén de propiedades y las propiedades de la consulta se comprueban de nuevo para garantizar que se ha producido una coincidencia. El resultado de la consulta es una lista de todos los resultados coincidentes, ordenados según su relevancia para las palabras de consulta. Si el usuario no tiene permiso para tener acceso a un documento coincidente, el motor de consulta filtra ese documento fuera de la lista que se ha devuelto.

La búsqueda como un servicio compartido

Un servicio compartido es una aplicación de gran valor que consumen otras aplicaciones. En la arquitectura de lógica de Office SharePoint Server 2007, un proveedor de servicios compartidos (SSP) es una agrupación de servicios compartidos y recursos compartidos relacionados. Los administradores de los conjuntos de servidores crean los SSP para alojar servicios compartidos de manera que estén disponibles en varios sitios del portal dentro de un conjunto de servidores. A continuación, el administrador del conjunto de servidores asigna un SSP a un sitio del portal. Un conjunto de servidores puede contener varios SSP, pero un sitio del portal sólo puede asociarse a un SSP. Un SSP sólo puede tener una instancia de un servicio compartido determinado.

Capacidad de administración del motor de búsqueda Enterprise Search

En SharePoint Portal Server 2003, la configuración de rastreo y los índices de contenido se administraban por separado para cada sitio del portal. En Enterprise Search, todo esto se administra en el nivel de SSP, con un índice de contenido y un almacén de propiedades por SSP. Esto impide que los índices se dupliquen y centraliza la administración de operaciones de uso intensivo de recursos, como la administración de índices, mejorando así la capacidad de administración de Enterprise Search.

Nota

Algunas opciones de búsqueda todavía se pueden configurar en el nivel de colección de sitios; para obtener más información, consulte la sección sobre capacidad de administración de búsqueda en el nivel de sitio de este tema.

En las siguientes secciones se ofrece que una breve introducción a las diferentes partes del servicio compartido de Enterprise Search de Office SharePoint Server 2007.

Orígenes de contenido

Un origen de contenido es una colección de direcciones de inicio que representa el contenido que debe rastrear el componente de índice de búsqueda. Un origen de contenido también especifica la configuración que define el comportamiento de rastreo y la programación en la que se va a rastrear el contenido.

Enterprise Search Proporciona varios tipos de orígenes de contenido de forma predeterminada, por lo que resulta fácil configurar rastreos a distintos tipos de datos, tanto internos como externos. A continuación se muestran los tipos de orígenes de contenido incluidos que se incluyen en Enterprise Search:

Contenido de SharePoint
Contenido web
Contenido de recurso compartido de archivos
Contenido de carpeta de Exchange
Contenido de datos profesionales

Si necesita incluir otros tipos de contenido, puede crear un origen de contenido personalizado y un controlador de protocolo para Enterprise Search.

Nota

Hay un origen de contenido de Lotus Notes disponible, pero no está configurado de forma predeterminada.

Para obtener más información sobre orígenes de contenido, consulte Introducción a los orígenes de contenido.

Ámbitos compartidos

Un ámbito de búsqueda proporciona una forma de agrupar elementos de contenido, que se basa en un elemento común entre los elementos de ese ámbito de búsqueda. Esto permite que las búsquedas de los usuarios sean más relevantes, ya que permite centrar la búsqueda en un subconjunto de contenido del índice, en lugar de buscar en todo el índice. Un ámbito desempeña una función importante en la capacidad de Enterprise Search para admitir diversas experiencias de búsqueda de un índice de contenido. Después de crear un ámbito de búsqueda, puede definir el contenido que se va a incluir en ese ámbito de búsqueda al agregar reglas de ámbito, especificando si se va a incluir o excluir contenido que coincide con esa regla particular. Puede definir reglas de ámbito en función de lo siguiente:

Dirección
Consulta de propiedad
Origen de contenido

Puede crear y definir ámbitos de búsqueda en el nivel de SSP o en el nivel de colección de sitios individuales. Los ámbitos de búsqueda del nivel de SSP se denominan ámbitos compartidos y están disponibles para todos los sitios configurados para usar un SSP determinado.

Para obtener más información acerca de los ámbitos de búsqueda, consulte Trabajar con ámbitos de búsqueda.

Asignaciones de propiedades de documento

El esquema de Enterprise Search se compone de dos tipos de propiedades, propiedades de rastreo y propiedades administradas, así como las asignaciones entre los dos conjuntos de propiedades.

El motor de indización extrae propiedades de rastreo de elementos de contenido cuando se rastrea el contenido. Estas propiedades se agrupan en diferentes categorías de propiedades basadas en el controlador de protocolo y el IFilter usado. Por ejemplo, las propiedades de rastreo del contenido del Catálogo de datos profesionales se agrupan en la categoría de datos profesionales; las propiedades de rastreo de 2007 Microsoft Office system se agrupan en la categoría Office.

Las propiedades administradas son el conjunto de propiedades que forman parte de la experiencia de búsqueda del usuario. Así, para incluir un valor de la propiedad rastreada en la funcionalidad de búsqueda, debe asignarse a una propiedad administrada de las asignaciones de la propiedad Document. Las propiedades administradas se crean y administran en el nivel de SSP. Para obtener más información, consulte Administración de metadatos.

Asignaciones de servidor

Las asignaciones de nombre de servidor son valores de rastreo que se pueden configurar para reemplazar cómo se tiene acceso a los resultados de la búsqueda o se muestran los resultados de la búsqueda después de incluir el contenido en el índice. Por ejemplo, puede configurar un origen de contenido para rastrear un sitio web mediante una ruta de acceso de recurso compartido de archivo y, a continuación, crear una entrada de asignación de nombre de servidor para asignar el recurso compartido de archivo a la dirección URL del sitio web.

Inclusiones de relevancia

La configuración de la relevancia afecta a la forma de calcular las clasificaciones de relevancia para los elementos, lo que repercute en el orden de aparición de los resultados de la búsqueda en una lista de resultados de búsqueda. La mejora de la relevancia para resultados de búsqueda es un tema principal de esta versión. Enterprise Search incluye un motor de clasificación actualizada, ajustado específicamente para buscar contenido sobre la empresa y datos de aplicación de línea de negocio (LOB).

El cálculo de relevancia actualizado incluye:

Distancia en clics
Texto de hipervínculo
Profundidad de exploración de la dirección URL
Coincidencia de texto en la dirección URL
Extracción automatizada de metadatos
Detección automática del idioma
Influencia de la relevancia del tipo de archivo
Análisis de texto mejorado

Para obtener más información acerca de la relevancia de Enterprise Search, consulte Mejora de la relevancia.

Inclusiones de tipo de archivo

La lista de inclusiones de tipo de archivo especifica los tipos de archivo que el rastreador debe incluir o excluir del índice. Para obtener más información, consulte la sección sobre tipos de archivo en Definición de reglas de rastreo y tipos de archivo.

Creación de registros

Registro de consultas

La información de la que se realiza el seguimiento en el registro de consultas incluye:

Los términos de consulta que se han usado.
Si se han devuelto resultados de búsqueda para las consultas de búsqueda.
Las páginas que se han visto de los resultados de búsqueda.

Estos datos de uso de la búsqueda ayudan a comprender cómo usan las personas la búsqueda y qué información se está buscando. Puede usar estos datos para ayudar a determinar cómo mejorar la experiencia de búsqueda para los usuarios.

Registro de rastreo

El registro de rastreo realiza un seguimiento de la información acerca del estado del contenido rastreado y contiene el estado actual de cada elemento del índice de contenido. Puede examinar y filtrar las entradas del registro de rastreo para ver errores, advertencias, etc., que ayuden a realizar un seguimiento para comprobar si el contenido se ha agregado correctamente al índice. Para obtener más información, consulte Trabajar con el registro de rastreo.

Capacidad de administración de la búsqueda en el nivel de sitio

Aunque la mayor parte de las experiencias de búsqueda se administran en el nivel de SSP, existen algunos elementos que están disponibles en el nivel de sitio, como se indica a continuación:

Ámbitos de búsqueda
Palabras clave y resultados más probables

La configuración en el nivel de sitio ofrece al administrador del sitio la capacidad de configurar la experiencia de búsqueda del usuario sin afectar negativamente a la experiencia de búsqueda de otros sitios configurados para usar el mismo SSP.

Ámbitos de búsqueda

Como se describió anteriormente, los ámbitos de búsqueda son una colección de elementos agrupados en función de un elemento común entre los elementos de ese ámbito, que permite a los usuarios ampliar o restringir el ámbito de sus búsquedas. Los ámbitos de búsqueda disponibles en el nivel de SSP se denominan ámbitos compartidos. Los ámbitos de búsqueda también están disponibles en el nivel de sitio. Los ámbitos de búsqueda creados en el nivel de sitio sólo están visibles en el sitio donde se han creado y en los subsitios del sitio de nivel superior.

Al administrar ámbitos de búsqueda en el nivel de sitio, puede crear y configurar grupos de presentación de ámbitos. Los grupos de presentación organizan grupos de ámbitos de búsqueda según la forma en la que aparecen en el sitio. Por ejemplo, si un administrador de SSP hubiera creado un ámbito compartido en el nivel de SSP y deseara mostrar este ámbito compartido en la lista desplegable de ámbitos para el elemento web de cuadro de búsqueda, se podría agregar el nuevo ámbito compartido al grupo de presentación Cuadro desplegable de búsqueda del sitio. Para obtener más información acerca de cómo llevar a cabo este procedimiento, consulte Procedimiento para mostrar un ámbito de búsqueda en el campo de búsqueda y en los elementos web de búsqueda avanzada.

Palabras clave y resultados más probables

Las palabras clave son palabras o frases que los administradores de sitios han identificado como importantes. Estas palabras proporcionan una manera de mostrar información adicional y vínculos recomendados en la página inicial de resultados que, de lo contrario, no aparecerían en los resultados de búsqueda de una palabra o frase determinada. Para obtener más información, consulte Administración de palabras clave.

Compartir a través de