クロールする Web コンテンツを決定する
適用先: FAST Search Server 2010
トピックの最終更新日: 2010-02-10
検索インデックスを構築するときは、重複するコンテンツや有用性の低いコンテンツを除外することが重要です。たとえば、オンライン カレンダー システムの空のページは除外の対象になるでしょう。FAST Search Web クローラーを構成するときは、どのコンテンツを除外するかを念頭に置いてください。
開始 URL を決定する
開始 URL リストは、Web クローラーが取得する Web サイトや Web アイテムへの初期の URL セットから構成されます。個々の URL が取得されると、Web クローラーは Web アイテムを解析して、同じ Web サイトおよび別の Web サイトへの追加のハイパーリンクを探します。
max_sites の設定で構成される、Web クローラーが同時にクロールできる Web サイトの数を上回る数の Web サイトへの URL が開始 URL リストに含まれている場合、一部の Web サイトは、他の Web サイトのクロールが完了し、新しい Web サイトを処理できるようになるまで、キューに入れられます。更新間隔以内にすべての Web サイトが確実にクロールされるように、max_inter_docs の設定を使用して、各 Web サイトから指定した数の Web アイテムがダウンロードされた後に、他の Web サイト を強制的にスケジュールできます。
注意
この方式は、キュー構造およびファイル システムの限界を超える可能性がある点で、コストが高くなる可能性があります。max_inter_docs 機能を有効にする前に、Web 規模のクロールが及ぼす影響を十分に考慮することをお薦めします。
対象ルールと除外ルールを決定する
考慮すべき最初の要因は、どの Web サイトをクロールするかです。限界がなく、クロールを制限するルールがない場合、FAST Search Web クローラーは、すべての URL を有効と見なします。そうなると、大半の場合は、過剰なデータが収集されます。
通常は、限られた数の既知の Web サイトをホスト名で識別し、そのインデックスを構築します。これらの Web サイトについて、1 つ以上の開始 URL を指定することで、Web クローラーに Web サイト内の開始点を与えます。開始 URL に対応する対象ルールは、たとえば、www.contoso.org との完全一致のように限定的にすることができます。また、たとえば、サフィックス .contoso.com と一致する任意のホスト名のように、特定の DNS ドメイン内のすべての Web サイトと一致するより幅広いものにすることもできます。
ただし、一般的な対象ルールには例外が生じることがよくあります。たとえば、DNS ドメイン内の特定のホスト名をクロールしない場合や Web サイトの特定の部分を除外する場合がそれに該当します。これらの例外を構成ファイルの除外フィルターに含めて、クロールの対象から除外するドメインや URL を指定できます。
クローラーは、Web アイテムを取得し、それを解析して、クロールの対象となる新しい URL を特定するときに、構成されているクローラーのルールに基づいて個々の候補 URL を評価します。URL が対象ホスト名または対象 URL フィルター ルールのどちらかと一致し、除外ホスト名または除外 URL フィルター ルールのどちらとも一致しない場合、その URL は、追加の処理の対象、場合によっては取得の対象と見なされます。
crawl_mode の設定を使用して、特定の Web サイト内ですべてのページを収集するように、または限られた深さまでしかクロールしないようにクローラーを構成できます。max_doc の設定を使用して、更新期間隔内に特定の Web サイトからダウンロードできる Web アイテムの数に対する全体の上限を設定します。大量の Web サイトがクロールされる結果、"深い" Web サイトから大量の Web アイテムが取得される場合は、この設定が有用です。大量の Web アイテムが取得されると、利用可能なリソースが制限され、他の Web サイトに割り当てるリソースがなくなります。cut_off の設定を使用して、Web アイテムあたりのサイズの上限を指定します。さらに、truncate の設定で、このしきい値を超える Web アイテムをどう処理するかを指定します。