次の方法で共有


クロールされるコンテンツの量を制限または増加する (Office SharePoint Server)

運用中、現在クロールしているコンテンツの量を変更しなければならない場合があります。たとえば、次のような場合があります。

  • 既存のコンテンツ ソースによって定義されている特定の名前空間で、一部のサイトのクロールを中止する。

  • 異なる深さでサイトをクロールする。

  • クロールするファイルの種類の数を変更する。これには、新しいファイルの種類でクロールを開始すること、既存のファイルの種類でクロールを中止すること、またはその両方が含まれます。

組織のニーズが変化するに従って、新しいコンテンツ ソース全体をクロールする必要が生じる場合もあります。新しいコンテンツ ソース全体をクロールする方法の詳細については、「コンテンツ ソースについて (Office SharePoint Server)」を参照してください。

次の設定を使用して、クロールされるコンテンツの量を増加させるか、あるいは制限できます。

  • コンテンツ ソースのクロース設定   たとえば、特定のコンテンツ ソースで指定されている開始アドレスのみをクロールするよう指定したり、開始アドレスからどの深さの名前空間までクロールするかを指定したり、許可するサーバー ホップ数を指定したりできます。コンテンツ ソース内で、クロールされるコンテンツの量を指定するために使用できるオプションは、コンテンツ ソースの種類によって異なります。

  • ファイル タイプ追加   クロールするファイルのタイプを選択できます。

  • クロール ルール   クロール ルールを使用して、特定のパスに含まれるアイテムすべてをクロール対象から除外できます。これは、親サイトをクロールし、インデックス対象外のサブサイトをクロールしない場合に役立ちます。クロールされるコンテンツの量を増やすために、クロール ルールを使用することもできます。たとえば、特定のパスについて複雑な URL をクロールできます。

クロール設定

各コンテンツ ソースについて、そのコンテンツ ソース内の開始アドレスをクロールする範囲を選択できます。また、クロールの動作 (クロール設定) も指定できます。特定のコンテンツ ソースについて選択できるオプションは、選択したコンテンツの種類によって異なります。しかし、ほとんどのオプションは、コンテンツ ソースに指定されているそれぞれの開始アドレスから、どの階層レベルの深さまでクロールするかを指定するものです。この動作は、特定のコンテンツ ソース内のすべての開始アドレスに適用されることに注意してください。

各コンテンツ ソースのプロパティで使用できるオプションは、選択したコンテンツ ソースの種類によって異なります。次の表に、各コンテンツ ソースの種類に対応するクロールの設定オプションを示します。

コンテンツ ソースの種類 クロール設定オプション

SharePoint サイト

  • 各開始アドレスに対応するホスト名の下にあるものすべて

  • 各開始アドレスの SharePoint サイトのみ

Web サイト

  • 各開始アドレスのサーバー内のみ

  • 各開始アドレスの先頭ページのみ

  • カスタム - ページの深さおよびサーバー ホップ数を指定します。

    Note メモ
    このオプションの既定の設定では、ページの深さおよびサーバー ホップは無制限です。

ファイル共有

  • 各開始アドレスのフォルダおよびすべてのサブフォルダ

  • 各開始アドレスのフォルダのみ

Exchange パブリック フォルダ

  • 各開始アドレスのフォルダおよびすべてのサブフォルダ

  • 各開始アドレスのフォルダのみ

ビジネス データ

  • ビジネス データ カタログ全体をクロールする

  • 選択したアプリケーションをクロールします。

前出の表で示したように、共有サービスの管理者はクロール設定オプションを使用することで、クロールするコンテンツの量を制限したり、増やしたりできます。

次の表に、クロール設定オプションの設定におけるベスト プラクティスを示します。

コンテンツ ソースの種類 目的 使用するクロール設定オプション

SharePoint サイト

特定のサイト コレクション上のコンテンツを、他のサイト コレクションとは異なるスケジュールでクロールする。

開始アドレスごとに SharePoint サイトのみをクロールします。

Note メモ
このオプションには任意の URL を指定できますが、URL で指定されるサイト コレクションのトップレベル サイトからクロールが開始されます。たとえば、http://contoso/sites/sales がサイト コレクションのトップレベル サイトである場合は、
「http://contoso/sites/sales/car」と入力すると、http://contoso/sites/sales とそのサブサイトすべてがクロールされます。

SharePoint サイト

特定の Web アプリケーションのすべてのサイト コレクションに含まれるコンテンツを、すべて同じスケジュールでクロールする。

開始アドレスごとに、ホスト名下にあるすべてをクロールします。

Note メモ
このオプションには、開始アドレスとして、http://contoso などのホスト名のみを指定できます。このオプションを使用する場合、http://contoso/sites/sales などのサブサイトの URL を使用することはできません。

Web サイト

サイト自体に含まれるコンテンツが関連している。

または

リンクされているサイト上のコンテンツが関連していないように見える。

開始アドレスごとに、サーバー内のみをクロールします。

Web サイト

関連するコンテンツが最初のページのみに存在する。

開始アドレスごとに、最初のページのみをクロールします。

Web サイト

開始アドレスのリンクをクロールする深さを制限する必要がある。

カスタム - クロールするページの深さとサーバー ホップ数を指定します。

Note メモ
接続の多いサイトでは、4 ページ以上の深さ、または 4 以上のサーバー ホップ数を指定すると、インターネット全体をクロールすることになる場合があるため、最初は小さい値を指定することをお勧めします。
Note メモ
クロールするコンテンツを指定するために、1 つ以上のクロール ルールを使用することもできます。詳細については、「クロール ルールを使用して、クロールするコンテンツを決定する (Office SharePoint Server 2007)」を参照してください。

ファイル共有

Exchange パブリック フォルダ

サブフォルダ内のコンテンツが関連していないように見える。

開始アドレスごとに、フォルダのみをクロールします。

ファイル共有

Exchange パブリック フォルダ

サブフォルダ内のコンテンツが関連しているように見える。

開始アドレスごとに、フォルダとサブフォルダをクロールします。

ビジネス データ

ビジネス データ カタログに登録されているすべてのアプリケーションに関連コンテンツが含まれている。

ビジネス データ カタログ全体をクロールします。

ビジネス データ

ビジネス データ カタログに登録されている一部のアプリケーションに関連コンテンツが含まれている。

または

一部のアプリケーションを別のスケジュールでクロールする必要がある。

選択したアプリケーションをクロールします。

ファイルタイプの追加と IFilter

コンテンツがクロールされるのは、関連するファイル名拡張子がファイルタイプ追加リストに含まれており、そのファイルタイプをサポートするインデックス サーバーに IFilter がインストールされている場合に限られます。いくつかのファイルタイプは、初期インストール時に自動的に追加されます。クエリ ログを分析することで、エンド ユーザーが照会するコンテンツのファイル タイプを特定できます。現在クロールしていないファイル タイプをクロールしたり、または特定のファイル タイプをクロールから除外したりすることが必要になる場合があります。

ファイルタイプ追加リストにファイル タイプを追加する場合、クロール時にそのファイル タイプの構文解析に使用できる IFilter がインストールされていることも確認する必要があります。IFilter がインストールされていないと、指定したファイル タイプのコンテンツがインデックス付けされず、検索できなくなります。ただし、そのファイル タイプのメタデータはクロールされるので、検索できます。たとえば、ファイルタイプ追加リストに PDF を追加しても、PDF ファイル タイプの IFilter をインストールしないと、PDF ファイルのコンテンツはインデックス付けされません。ただし、PDF ファイルのメタデータはインデックス付けされます。

Office SharePoint Server 2007 には数種類の IFilter が用意されていますが、Microsoft やサード パーティ ベンダも IFilter を提供しています。また、ソフトウェア開発者は、必要に応じて新しいファイル タイプに対応した IFilter を作成できます。Microsoft が提供している追加の IFilter をインストールし、Office SharePoint Server 2007 に登録する方法については、「パック Microsoft フィルタの SharePoint サーバー 2007 と 検索 サーバー 2008 で登録方法」(https://go.microsoft.com/fwlink/?linkid=110532&clcid=0x411) を参照してください。IFilter (サード パーティ ベンダが提供している IFilter も含む) の詳細については、「Filter Central (英語)」(https://go.microsoft.com/fwlink/?linkid=131255&clcid=0x411) を参照してください。

既定でインストールされる IFilter によってサポートされるファイル タイプのリスト、および既定でクロールが有効になっているファイル タイプのリストについては、「ファイルの種類と IFilter 参照 (Office SharePoint Server)」を参照してください。

クロール ルールを使用してコンテンツを制限または除外する

既存のクロール ルールを編集するか、新しいクロール ルールを作成して、特定のパスについてすべてのアイテムを含たり、または特定のアイテムを除外したりできます。

注意

コンテンツ ソースに開始アドレスを追加し、既定の動作を指定した場合、クロール ルールを使用して除外しない限り、その開始アドレスの下にあるサブサイトまたはフォルダがすべてクロールされます。

クロール ルールは、特定の URL またはワイルドカードで表される一連の URL (ルールの影響を受けるパスとも呼ばれる) に適用されます。クロール ルールを使用して、次の処理を実行できます。

  • 1 つ以上の URL を除外することで、あまり関係のないコンテンツのクロールを避ける。これによって、サーバー リソースおよびネットワーク トラフィックの使用が抑制されるとともに、検索結果の関連性が向上します。

  • URL 自体をクロールせずに、URL のリンクをクロールする。このオプションは、関連するコンテンツのリンクを含むサイトで、リンクを含むページに関連情報がない場合や、そのページがエンド ユーザーの検索結果ページに表示されないようにする場合に便利です。

  • 複雑な URL のクロールを可能にする。このオプションを実行すると、疑問符で指定されたクエリ パラメータを含む URL がクロールされます。サイトによって、このような URL には関連するコンテンツが含まれている場合と含まれていない場合があります。複雑な URL はあまり関連のないサイトにリダイレクトされることが多いので、複雑な URL から利用できるコンテンツの関連性が高いことがわかっているサイトについてのみ、このオプションを有効にすることをお勧めします。

    注意

    SharePoint サイトをクロールするとき、Office SharePoint Server 2007 はすべてのコンテンツを列挙するため、このオプションは SharePoint サイトのクロールでは効果がありません。

注意

クロール ルールは、SSP 内のすべてのコンテンツ ソースに同時に適用されます。

通常、特定のサイト アドレスのほとんどのコンテンツには関連性がありますが、サイト アドレスの下位にある特定のサブサイトや一連のサイトには関連性がないコンテンツが含まれます。不要なアイテムを除外するクロール ルールを作成するために、主な URL の組み合わせを選択することによって、共有サービスの管理者はインデックス内のコンテンツの関連性を最大化し、クロールのパフォーマンスに対する影響や検索データベースのサイズを最小限に抑えることができます。組織内のユーザーはリソースの使用に対する影響を制御できないため、URL を除外するクロール ルールの作成は、外部コンテンツに対して開始アドレスを計画する場合に特に有効です。

クロール ルールを作成するときには、パスに標準的なワイルドカード文字を使用できます。次に例を示します。

  • http://server1/folder* には、http://server1/folder で始まる URL のすべての Web リソースが含まれます。

  • *://*.txt には, .txt ファイル名拡張子を持つすべてのドキュメントが含まれます。

コンテンツのクロールではリソースと帯域幅が消費されるため、少量でも関連することがわかっているコンテンツを含めることをお勧めします。初期展開後、クエリおよびクロールのログを検討して、より関連性が高く、より多くのコンテンツが含まれるように、コンテンツ ソースおよびクロール ルールを調整できます。

クロールするコンテンツの量を制限または増加させるには、以下の手順を実行します。