Rastreo de contenido web mediante el agente de búsqueda de FAST Search

Artículo
03/03/2017

Se aplica a: FAST Search Server 2010

Última modificación del tema: 2015-03-09

Importante

Este artículo se ha traducido con traducción automática; vea la declinación de responsabilidades. Para su referencia, puede encontrar la versión en inglés de este artículo aquí.

El Agente de búsqueda de FAST Search recopila elementos web (o páginas web) de servidores web de una red. Normalmente es una red institucional o corporativa enlazada, pero potencialmente puede rastrear todo Internet.

El Agente de búsqueda de FAST Search funciona, en muchos aspectos, como una descarga de contenido de explorador de Web de los servidores Web. Pero a diferencia de un explorador Web que responda sólo a la entrada del usuario a través de los clics del mouse o teclado, el Agente de búsqueda de FAST Search funciona de un conjunto de reglas configurables que debe seguir cuando solicita a los elementos Web. Esto incluye, por ejemplo, cuánto tiempo debe esperar entre solicitudes de elementos y durante cuánto tiempo debe esperar antes de buscar los elementos nuevos o actualizados.

Cómo funciona el rastreador Web de búsqueda FAST

Se inicia el Agente de búsqueda de FAST Search comparando el inicio en la dirección URL con la inclusión de la lista y excluir las reglas especificadas en los parámetros en el archivo XML que contiene la configuración de rastreo. La lista de direcciones URL de inicio se especifica con la configuración o la start_urisstart_uri_files y las reglas a través de include_domains y exclude_domains configuración. Direcciones URL válidas, a continuación, se solicitan desde sus servidores Web a una velocidad determinada por la tasa de solicitudes que se configura en el valor de retraso.

Si se recuperan correctamente, el elemento Web se analiza para hipervínculos y otra información de metadatos, normalmente un analizador de HTML integrado en el Agente de búsqueda de FAST Search. Información de metadatos del elemento Web se almacena en los metadatos de Agente de búsqueda de FAST Search-base de datos y el contenido del elemento Web (el cuerpo HTML) se almacena en el almacén de Agente de búsqueda de FAST Search. Los hipervínculos se filtran con las reglas de rastreo y se utiliza como el siguiente conjunto de direcciones URL que se descarguen. Este proceso continúa hasta que se puede alcanzar todo el contenido se ha recopilado, hasta que finalice el intervalo de actualización (opción de Actualizar) o hasta que se alcanza otro parámetro de configuración que limita el ámbito del rastreo.

Hay muchas formas de ajustar la configuración para adaptarse a un escenario de rastreo de Web específico. La tabla enumeran algunos de los conceptos fundamentales que se utiliza para configurar y controlar el Agente de búsqueda de FAST Search.

Concept	Explanation
Colección de rastreo	Un conjunto de sitios rastreados con la misma configuración de Web se denomina una colección de rastreo. Un rastreador de Web puede rastrear varias colecciones de rastreo a la vez y enviar estas cualquiera a una colección de contenido individual o por separado.
Almacén de rastreo	Los almacenes de Agente de búsqueda de FAST Search contenido rastrean localmente en el disco durante el rastreo. El contenido se divide en dos tipos: el contenido de elemento Web y los metadatos.
Incluir reglas	Incluir las reglas especifican el contenido de Web que se debe incluir. Sin embargo, no definen dónde la Agente de búsqueda de FAST Search debe comenzar el rastreo.
Excluir las reglas	Las reglas de exclusión especifican los nombres de host, direcciones URL o dirección URL de patrones no deben incluirse en el rastreo.
Lista de direcciones URL de inicio	Lista de direcciones URL para que se va a rastrear y recopilado en primer lugar, desde el que se pueden extraer, comprueba con las reglas y agregados a colas para el rastreo más hipervínculos adicionales.
Intervalo de actualización	El tiempo en minutos que ejecutará la Agente de búsqueda de FAST Search antes re-crawling los sitios Web para comprobar si hay contenido nuevo o modificado. El intervalo de actualización se debe establecer un valor suficientemente alto para garantizar que el Rastreador de datos tiene tiempo suficiente para rastrear todo el contenido. Consulte la sección determinar programaciones de rastreo para obtener información acerca de cómo calcular el intervalo de actualización.
Tasa de solicitudes	El tiempo en segundos entre solicitudes individuales para un único sitio Web, la configuración de retraso. Esta opción se puede establecer en 0 para rastrear tan rápido como sea posible, pero requiere un permiso del propietario del servidor Web. Flexibilidad, pueden especificar tipos diferentes de la solicitud con el valor de retardo variable de diferentes horas del día o días de la semana.
Sitios Web de simultáneas	El número máximo de sitios Web de programador de cada nodo debe rastrear al mismo tiempo. Si hay más sitios Web para que se va a rastrear que este número, a continuación, el intervalo de actualización se debe aumentar según corresponda.
Velocidad de rastreo	La tasa en el Web los elementos se recopilan en los sitios Web de una colección. La velocidad máxima es el número de sitios Web de simultáneas dividido por la tasa de solicitudes.
Duplicar documentos	En algunos casos, un elemento Web puede tener varias direcciones URL que hace referencia a él. Para evitar la indización en el mismo elemento Web varias veces un mecanismo conocido como la detección de duplicados se utiliza para asegurarse de que se indiza sólo una copia de cada elemento de Web único.

Cómo utilizar el rastreador Web de búsqueda FAST

Para iniciar o detener el Agente de búsqueda de FAST Search, utilice el controlador de nodo. El controlador de nodo tiene acceso a la herramienta de línea de comandos nctrl.exe. Internamente, el Rastreador de Web se organiza como una colección de los procesos y componentes de lógicos, que a menudo se ejecutan en un único servidor. Es posible distribuir el Rastreador de Web entre varios servidores, lo que permite la Agente de búsqueda de FAST Search recopilar y procesar un mayor número de elementos de Web de un gran número de sitios Web. En la siguiente tabla se enumera los componentes y el proceso asociado:

Componente	Proceso	Función
Programador de nodo	crawler.exe	Web de programaciones de rastreo en un servidor único de la batería de servidores.
Programador de varios nodos	crawler.exe	Web de programaciones de rastreo a través de la granja de servidores.
Administrador del sitio	crawler.exe	Realiza el rastreo, administrados por el programador de nodo de Web.
Proceso de envío	postprocess.exe	Realiza la detección de duplicados y envía el contenido. Administrado por el programador de nodo, pero también se puede utilizar por separado para volver a enviar todo el contenido para el indizador.
Servidor de archivos	crawlerfs.exe	Permite el procesamiento del documento recuperar las páginas Web desde el Agente de búsqueda de FAST Search. Administra el nodo programador y el proceso de contabilización.
Servidor duplicado	ppdup.exe	Realiza la detección de duplicados en los servidores de conjunto de servidores.
Motor de explorador	browserengine.exe	Controla la extracción de contenido y el hipervínculo de elementos Web. Sólo se utiliza cuando se activa la compatibilidad con JavaScript.

Cuando se implementa el Agente de búsqueda de FAST Search en un único servidor, el proceso principal se conoce como el programador de nodo. Tiene varias tareas, incluida la resolución de nombres de host en direcciones IP, el mantenimiento de las configuraciones de rastreo y otros trabajos globales. También es responsable de sitios Web de enrutamiento para uno de los procesos del administrador del sitio. El programador de nodo se inicia (o detenido) el controlador de nodo y a su vez responsable de iniciar y detener otros procesos del Rastreador de Web.

El administrador del sitio administra las colas de trabajo por cada sitio Web y es responsable de la obtención de las páginas, calcular la suma de comprobación del contenido del elemento Web, almacena los elementos Web en el disco y actividades relacionadas, como la autenticación de sitio Web si es necesario.

El proceso de envío mantiene una base de datos de sumas de comprobación de elemento Web a fin de determinar los duplicados y es responsable de enviar elementos de Web para la indización. Elementos pequeño Web se envían directamente a las canalizaciones de procesamiento de documentos, pero se envían elementos de Web más grandes con sólo una referencia de dirección URL. El proceso de servidor de archivos es responsable de suministrar el contenido del elemento Web en cualquier fase de canalización que la solicite.

Si el número de sitios Web o el número total de elementos Web para que se va a rastrear es grande, se puede escalar la Agente de búsqueda de FAST Search distribuyéndola a través de varios servidores. En este escenario de implementación, se inician los procesos adicionales. Se agrega el programador Multi-node, que realiza el nombre de host para la resolución IP, contiene la configuración centralizada y el registro y dirige las direcciones URL para el programador de nodo apropiado. El programador de cada nodo sigue teniendo un Post Process localmente. But each of these must now submit Web item checksums to the Duplicate Servers, which maintain a global database of URLs and content checksums.

En esta sección:

Nota

Declinación de responsabilidades de traducción automática: Este artículo se ha traducido con un sistema informático sin intervención humana. Microsoft ofrece estas traducciones automáticas para que los hablantes de otros idiomas distintos del inglés puedan disfrutar del contenido sobre los productos, los servicios y las tecnologías de Microsoft. Puesto que este artículo se ha traducido con traducción automática, es posible que contenga errores de vocabulario, sintaxis o gramática.

Compartir a través de

Rastreo de contenido web mediante el agente de búsqueda de FAST Search

Cómo funciona el rastreador Web de búsqueda FAST

Cómo utilizar el rastreador Web de búsqueda FAST

Recursos adicionales