Compartir a través de


Introducción a la arquitectura de relevancia del motor de búsqueda Enterprise Search

En las búsquedas, la relevancia se refiere el grado de coincidencia de los resultados de la búsqueda que se devuelven al usuario con lo que el usuario desea buscar. Idealmente, los resultados que se devuelven en la primera página son los más relevantes, por lo que el usuario no tiene que buscar en varias páginas de resultados para encontrar las coincidencias que más se ajusten a su búsqueda.

Enterprise Search de Microsoft Office SharePoint Server 2007 incluye un motor de clasificación remodelado desarrollado con la colaboración de Microsoft Research. Se ha ajustado específicamente para los requisitos únicos de la búsqueda de contenido empresarial.

Información sobre la clasificación estática y dinámica

Hay dos tipos de componentes en la fórmula de clasificación que se usan en el cálculo de relevancia: estáticos y dinámicos. La diferencia entre los componentes se basa en si la clasificación calculada se ve afectada o no por los términos de la consulta y por el texto y contenido real de diversas propiedades de un elemento de contenido.

Clasificación dinámica

La clasificación dinámica describe la clasificación que se ve afectada por los valores de propiedad o el contenido de un elemento de contenido; esto se conoce también como clasificación dependiente de consulta.

Las secciones siguientes proporcionan una introducción a los componentes usados para el algoritmo de clasificación dinámica usado en el cálculo de relevancia de Enterprise Search.

Texto delimitador

Texto delimitador es el texto que se incluye con un hipervínculo para describir el contenido de destino de ese hipervínculo. Cuando Enterprise Search rastrea el elemento de contenido, este texto se incluye en el índice para dicho contenido. El texto delimitador sólo influye en la clasificación y no el factor determinante para incluir un elemento de contenido en el conjunto de resultados. Por ejemplo, si todos los términos de consulta se encuentran únicamente en el texto delimitador y no en el contenido real del elemento, el vínculo puede ser obsoleto, por lo que el elemento de contenido no se incluye en los resultados.

La búsqueda indiza el texto delimitador de los siguientes elementos:

  • Los elementos HTML del delimitador

  • Listas de vínculos de Windows SharePoint Services

  • Listados de Microsoft Office SharePoint Portal Server 2003

  • Hipervínculos (sólo para los archivos que usen los nuevos formatos XML de Office Open) de Microsoft Office Word 2007, Microsoft Office Excel 2007 y Microsoft Office PowerPoint 2007

Peso de propiedades

Importante

Cambiar arbitrariamente el peso de las propiedades puede tener un efecto negativo en la relevancia general del sistema, por lo que se no recomienda hacerlo sin antes evaluar correctamente los cambios y cómo afectarán a la precisión de los resultados de la búsqueda.

Algunas propiedades son más importantes para calcular la relevancia que otras. Esto se denomina peso de propiedades. Enterprise Search proporciona una forma de modificar el peso por propiedad para identificar estas propiedades de modo que se ponderen con mayor peso en el cálculo de relevancia. Para ello, debe usar el modelo de objetos de administración de la búsqueda. Para obtener un ejemplo de código que muestre cómo hacer esto, consulte Procedimiento para cambiar el valor de peso de una propiedad administrada.

Nota

La versión de Microsoft Office SharePoint Portal Server 2003 de la sintaxis de búsqueda SQL admitía el establecimiento de peso de las columnas de tiempo de consulta. La versión Enterprise Search de Microsoft Office SharePoint Server 2007 de la sintaxis de búsqueda SQL no el establecimiento de peso de columnas. Si el peso de las columnas está presente en las consultas de búsqueda migradas a Office SharePoint Server 2007, las consultas de búsqueda todavía funcionarán, pero los valores de peso de las columnas se omitirán.

Normalización de longitud de las propiedades

Un elemento de contenido puede tener numerosas propiedades diferentes de diversas longitudes. Si los valores de estas propiedades se tratan igual independientemente de su tamaño durante el cálculo de relevancia, puede tener un impacto negativo en la clasificación calculada. La normalización de la longitud ajusta la clasificación de un elemento de contenido, basándose en la longitud de la propiedad y en la configuración de la normalización de longitud. Debe usar el modelo de objetos de administración de la búsqueda para realizar la normalización de longitud de las propiedades.

Coincidencia de dirección URL

La coincidencia de dirección URL es el proceso mediante el que Enterprise Search comprueba si en las direcciones URL de los elementos de contenido se encuentra alguna coincidencia directa con los términos de búsqueda especificados.

Extracción de título

La extracción de título , o el uso del valor de título en el cálculo de relevancia, puede ayudar a devolver contenido muy relevante, si el elemento de contenido se denomina de forma adecuada. Sin embargo, hay escenarios donde el valor de la propiedad de título no refleja con exactitud el contenido. Por ejemplo, los títulos siguientes no proporcionan información valiosa acerca de su contenido:

  • Slide 1 (nombre predeterminado de la primera diapositiva de un archivo de presentación de PowerPoint, que PowerPoint usará como nombre del archivo de presentación si no se cambia)

  • Document 1 (nombre predeterminado de un archivo de documento de Word, que Word usará como nombre del archivo de documento si no se cambia)

Los ejemplos anteriores de título no proporcionan información valiosa acerca del contenido de esos archivos, por lo que son no serán relevantes para la búsqueda. Para evitar este problema, Enterprise Search detecta otro candidato para el título dentro del cuerpo del elemento de contenido e incluye este valor con el título real al calcular la relevancia.

Nota

Este proceso se realiza sólo en archivos de Microsoft Office.

Clasificación estática

Clasificación estática describe la clasificación que no se ve afectada por los valores de propiedad o el contenido de un elemento de contenido. Esto también se denomina Clasificación de independiente de la consulta.

Las secciones siguientes proporcionan una introducción a los componentes del algoritmo de clasificación estática usado en el cálculo de relevancia de Enterprise Search.

Distancia en clics

Debe vincular un documento, una página web, una lista u otro elemento a otros elementos de contenido, ya que es más que probable que el elemento de contenido vinculado contenga información que esté relacionada con y mejore el valor de contenido del elemento original que contiene el vínculo. Por lo tanto, la información acerca de los hipervínculos a un elemento de contenido específico, como el número de hipervínculos hacia él o dónde podrían encontrarse los hipervínculos, es útiles para determinar la relevancia.

Distancia en clics hace referencia al número de vínculos entre un elemento de contenido y una página "experta" que vincula al elemento de contenido. Para calcular la relevancia de búsqueda, el punto de partida es una página con autorización, tal y como se describe en Authoritative Pages and Demoted Sites. Cuantos más vínculos deba pasar el rastreador (crawler) desde una página con autorización hasta el elemento de contenido, menor será el ámbito de relevancia. Si hay varias rutas de acceso a un elemento de contenido, la relevancia se calcula en función de la ruta de acceso más corta, aquélla con el menor número de vínculos desde al elemento de contenido.

Profundidad de dirección URL

Contenido importante o relevante se suele encuentra más cerca de la parte superior de la jerarquía de un sitio, en lugar de en una ubicación con varios niveles de profundidad del sitio. Como resultado, el contenido tiene una dirección URL más corta, por lo que es más fácil de recordar y obtener acceso al mismo por parte del usuario. Enterprise Search usa este hecho revisando la profundidad de dirección URL, que hace referencia a la cantidad de niveles de profundidad a los que se encuentra el elemento de contenido en un sitio. El nivel viene determinado por la revisión del número de caracteres de barra diagonal ("/") en la dirección URL; cuanto mayor sea el número de caracteres de barra diagonal en la ruta de acceso de la dirección URL, mayor será la profundidad de la dirección URL para ese elemento de contenido. Como consecuencia, una mayor profundidad de la dirección URL puede reducir la relevancia de ese contenido.

Detección automática de idioma

Es más probable que los usuarios busquen contenido en su propio idioma que en otros idiomas. Enterprise Search determina el idioma del usuario basándose en los encabezados " Accept-Language " del explorador que están usando: detección automática de idioma. Al calcular la relevancia, el contenido que se recupera en el idioma del usuario se considera más relevante que el contenido en otros idiomas, con la excepción del contenido en inglés. El contenido en inglés se considera tan relevante como el contenido en el idioma del usuario.

Influencia del tipo de archivo

En la mayoría de los escenarios de búsqueda, ciertos tipos de archivo son más relevantes que otros. Por ejemplo, las páginas HTML y los documentos de Word son normalmente más relevantes la búsqueda de un usuario que una hoja de cálculo de Excel o un archivo de texto sin formato.

El cálculo de relevancia de Enterprise Search incluye un algoritmo de clasificación que clasifica algunos tipos de archivo en un nivel superior al de otros. Esto se aplica a los siguientes tipos de archivo, enumerados en el orden de clasificación predeterminado en Enterprise Search, empezando por la más alta:

  • Páginas web HTML

  • Presentación de PowerPoint

  • Documentos de Word

  • Archivos XML

  • Hojas de cálculo de Excel

  • Archivos de texto sin formato

  • Elementos de lista

Vea también

Referencia

Microsoft.Office.Server.Search.Administration.Ranking
Microsoft.Office.Server.Search.Administration.Schema
Microsoft.Office.Server.Search.Administration.Keywords

Otros recursos

Mejora de la relevancia
Arquitectura del motor de búsqueda Enterprise Search
Introducción al modelo de objetos de administración del motor de búsqueda Enterprise Search
Motor de búsqueda Enterprise Search administrado mediante programación