Determinación del contenido web que se va a rastrear

Artículo
03/03/2017

Se aplica a: FAST Search Server 2010

Última modificación del tema: 2010-02-10

Importante

Este artículo se ha traducido con traducción automática; vea la declinación de responsabilidades. Para su referencia, puede encontrar la versión en inglés de este artículo aquí.

Cuando se crea un índice de búsqueda, es fundamental excluir el contenido duplicado o poco útil. Por ejemplo, probablemente deseará excluir las páginas vacías de un sistema de calendario en línea. Tenga en cuenta el contenido que desea excluir al configurar el agente de búsqueda de FAST Search.

El inicio de determinar las direcciones URL

La lista de direcciones URL de inicio proporciona el conjunto inicial de las direcciones URL a sitios Web y elementos para el Rastreador de Web recuperar. Tal como se obtiene cada dirección URL, el rastreador Web analiza el elemento Web para localizar los hipervínculos adicionales para el mismo sitio Web, así como a otros sitios Web.

Si la lista de direcciones URL de inicio contiene las direcciones URL a la mayor cantidad de sitios Web que el número de sitios Web que el Rastreador de Web se puede rastrear al mismo tiempo, como se ha configurado por el valor de max_sites, a continuación, algunos sitios Web permanecerá en cola hasta que termine otro sitio Web de rastreo, en el que se puede procesar un nuevo sitio Web. Para asegurarse de que todos los sitios Web se rastrean en el intervalo de actualización, el valor de max_inter_docs puede utilizarse para forzar a otro sitio Web puede programarse después de que el número especificado de elementos Web se ha descargado desde cada sitio Web.

Nota

Esto puede resultar caro en cuanto a la estructura de la cola y la posibilidad de que se desborde los límites del sistema de archivos. Se recomienda exhaustivamente tener en cuenta las implicaciones en la escala de la Web rastree antes de habilitar la característica de max_inter_docs.

Determinar incluir y excluir las reglas

El primer factor a tener en cuenta es lo que se deben rastrear los sitios de Web. Si no hay ninguna limitación, no hay reglas para restringirlo de forma, el rastreador Web de búsqueda FAST tendrá en cuenta cualquier dirección URL válida. En la mayoría de los casos, esto produce demasiados datos.

Por lo general, es que se genera un índice para un número limitado de sitios Web conocidos, identificados por sus nombres de host. Para estos sitios Web, inicio de uno o varios se especifican las direcciones URL, lo que proporciona el Rastreador de Web en el sitio Web de un punto de partida. Una regla de inclusión correspondiente a la dirección URL de inicio puede ser específica, por ejemplo, un exacta con para www.contoso.org. O bien, puede ser más general para que coincida con todos los sitios Web en un determinado dominio, por ejemplo, cualquier nombre de host que coincide con el sufijo. contoso.com.

Sin embargo, a menudo hay excepciones a las reglas de inclusión general. Por ejemplo, si no se debe rastrear un nombre de host dentro de un dominio DNS, o deben excluirse partes concretas del sitio Web. Estas excepciones se pueden escribir en los filtros de excluir el archivo de configuración, donde puede especificar más dominios o direcciones URL que desea excluir de rastreo.

El Rastreador de elementos Web que recupera y analiza direcciones URL que va a rastrear, evaluará cada dirección URL de candidatos con sus reglas configuradas. If a URL matches either an include host name or include URL filter rule, while not matching an exclude host name or exclude URL filter rule, then it is considered eligible for further processing, and possibly fetching.

Dentro de un sitio Web determinado, puede configurar el Rastreador de datos para recopilar todas las páginas o rastrear sólo hasta una profundidad limitada con la configuración de crawl_mode. Uso de la configuración de max_doc para establecer un límite general en el número de elementos Web se descarga de un sitio Web específico por intervalo de actualización. Esto puede ser útil si se están rastreando un gran número de sitios Web, que da como resultado un gran número de elementos de Web que se obtienen de un sitio Web de "deep". Esto podría limitar los recursos disponibles y privar a otros sitios Web. Use the cut_off setting to specify a size limit per Web item. Then, specify consequent behavior for Web items exceeding this threshold with the truncate setting.

Nota

Declinación de responsabilidades de traducción automática: Este artículo se ha traducido con un sistema informático sin intervención humana. Microsoft ofrece estas traducciones automáticas para que los hablantes de otros idiomas distintos del inglés puedan disfrutar del contenido sobre los productos, los servicios y las tecnologías de Microsoft. Puesto que este artículo se ha traducido con traducción automática, es posible que contenga errores de vocabulario, sintaxis o gramática.

Compartir a través de

Determinación del contenido web que se va a rastrear

El inicio de determinar las direcciones URL

Determinar incluir y excluir las reglas

Recursos adicionales