次の方法で共有


クロール ログ使用時のベスト プラクティス (Search Server 2010)

 

適用先: Search Server 2010

トピックの最終更新日: 2015-03-09

クロール ログは、クロールされたコンテンツの状態に関する情報を追跡します。このログを使用すると、クロールされたコンテンツがインデックスに正常に追加されたか、クロール ルールに基づいて除外されたか、またはインデックス処理がエラーで失敗したかを確認できます。クロール ログに含まれる、クロールされたコンテンツに関するその他の情報として、最後にクロールが成功した時刻、コンテンツ ソース、クロール ルールの適用の有無などがあります。クロール ログを使用すると、検索に関する問題を診断できます。

この記事の内容

  • クロール ログを表示するには

  • クロール ログのビュー

  • クロール ログのタイマー ジョブ

  • 一般的な問題のトラブルシューティング

クロール ログを表示するには

  1. この手順を実行しているユーザー アカウントが Search Service アプリケーションの管理者であることを確認します。

  2. [サーバーの全体管理] のサイド リンク バーで、[アプリケーション構成の管理] をクリックします。

  3. [アプリケーション構成の管理] ページで、[サービス アプリケーション] の下の [サービス アプリケーションの管理] をクリックします。

  4. [サービス アプリケーション] ページのサービス アプリケーション リストで、必要な Search Service アプリケーションをクリックします。

  5. [検索管理] ページのサイド リンク バーで、[クロール] の [クロール ログ] をクリックします。

  6. [クロール ログ - コンテンツ ソース] ページで、目的のビューをクリックします。

クロール ログのビュー

以下の表に、クロールされたコンテンツの状態を表示するために選択できる各種ビューを示します。

ビュー 説明

コンテンツ ソース

コンテンツ ソースごとにクロールされたアイテムの概要が表示されます。成功、警告、エラー、最上位レベルのエラー、および削除が示されます。このビューに表示されるデータは、コンテンツ ソースごとに既にインデックスに含まれているアイテムの現在の状態を表します。このビューに表示されるデータは、オブジェクト モデルから提供されます。

ホスト名

ホストごとにクロールされたアイテムの概要が表示されます。成功、警告、エラー、削除、最上位レベルのエラー、および合計を示します。このビューに表示されるデータは、ホストごとに既にインデックスに含まれているアイテムの現在の状態を表します。複数のクロール データベースがある環境では、クロール データベース別にデータが表示されます。このビューに表示されるデータは、検索管理データベースから提供されます。[次のホスト名/パスで始まる URL の検索] ボックスに URL を入力して、結果をフィルター処理できます。

URL

コンテンツ ソースまたは URL やホスト名に基づいてクロール ログを検索したり、インデックスに含まれるすべてのアイテムの詳細を表示したりできます。このビューのデータは、クロール データベースの MSSCrawlURLReport テーブルから提供されます。[状態]、[メッセージ]、[開始時刻]、および [終了時刻] の各フィールドを設定して、結果をフィルター処理できます。

クロール履歴

クロール中に完了したクロール トランザクションの概要が表示されます。1 回のクロールで 1 つのアイテムに複数のクロール トランザクションが処理されることがあるので、トランザクションの数はアイテムの総数より多くなる場合があります。このビューには、以下の 3 種類のクロールのデータが表示されます。

  • フル。コンテンツ ソース内のすべてのアイテムをクロールします。

  • 増分。前回のフル クロールまたは増分クロール以降に変更されたアイテムをクロールします。この種類のクロールは、スケジュール設定されている場合のみ実行されます。

  • 削除。コンテンツ ソースから開始アドレスが削除されている場合、削除クロールは、フル クロールまたは増分クロールが実行される前に、削除された開始アドレスに関連付けられていたアイテムをインデックスから削除します。この種類のクロールはスケジュール設定できません。

このビューに表示されるデータは、検索管理データベースから提供されます。コンテンツ ソースに基づいて結果をフィルター処理できます。

エラー メッセージ

コンテンツ ソースごとまたはホスト名ごとにエラーの集計が表示されます。このビューのデータは、クロール データベースの MSSCrawlURLReport テーブルから提供されます。コンテンツ ソースまたはホストに基づいてフィルター処理できます。

注意

フィルターのドロップダウン ボックスには、エラーが含まれるコンテンツ ソースのみが表示されます。インデックスに含まれていないアイテムにエラーがあっても、このビューにそのエラーは表示されません。

コンテンツ ソース ビュー、ホスト名ビュー、およびクロール履歴ビューでは、以下の列にデータが表示されます。

  • 成功。正常にクロールされて検索可能になっているアイテムです。

  • 警告。正常にクロールされなかった可能性があり、検索可能になっていない可能性があるアイテムです。

  • エラー。正常にクロールされておらず、検索可能になっていない可能性があるアイテムです。

  • 削除。インデックスから削除されていて、検索できなくなったアイテムです。

  • 最上位レベルのエラー。トップレベルのドキュメント (開始アドレス、仮想サーバー、コンテンツ データベースなど) のエラーです。最上位レベルのエラーはすべて、それぞれ 1 個のエラーとしてカウントされますが、すべてのエラーが最上位レベルのエラーとしてカウントされるわけではありません。エラー列には最上位レベルのエラー列のカウントが含まれるので、ホスト名ビューでは最上位レベルのエラーは再カウントされません。

  • 変更なし。クロールとクロールの間に変更されなかったアイテムです。

  • セキュリティ更新。セキュリティ設定の変更が原因でクロールされたアイテムです。

クロール ログのタイマー ジョブ

既定では、クロール ログの各ビューに表示されるデータは、[検索アプリケーション <Search Service アプリケーションの名前> のクロール ログのレポート] タイマー ジョブによって、5 分おきに更新されます。このタイマー ジョブの更新間隔を変更できますが、一般には、この設定を既定値のままにします。

ヒント

クロール ログに示されるデータが最新のデータではないと思われる場合は、タイマー ジョブが停止していないこと、タイマー ジョブが最近実行されていることを確認してください。

クロール ログのタイマー ジョブの状態を確認するには

  1. この手順を実行しようとしているユーザー アカウントが、Farm Administrators SharePoint グループのメンバーであることを確認します。

  2. サーバーの全体管理の [監視] セクションで、[ジョブ状態の確認] をクリックします。

  3. [タイマー ジョブの状態] ページで、[ジョブ履歴] をクリックします。

  4. [ジョブ履歴] ページで、状態を確認する Search Service アプリケーションの [検索アプリケーション <Search Service アプリケーションの名前> のクロール ログのレポート] を確認します。

クロール ログのタイマー ジョブの更新間隔を変更するには

  1. この手順を実行しようとしているユーザー アカウントが、Farm Administrators SharePoint グループのメンバーであることを確認します。

  2. サーバーの全体管理の [監視] セクションで、[ジョブ状態の確認] をクリックします。

  3. [タイマー ジョブの状態] ページで、[ジョブ履歴] をクリックします。

  4. [ジョブ履歴] ページで、目的の Search Service アプリケーションの [検索アプリケーション <Search Service アプリケーションの名前> のクロール ログのレポート] をクリックします。

  5. [タイマー ジョブの編集] ページの [定期的なスケジュール] セクションで、タイマー ジョブのスケジュールを必要な間隔に変更します。

  6. [OK] をクリックします。

一般的な問題のトラブルシューティング

ここでは、一般的なクロール ログ エラー、クローラー動作、および正常なクロール環境の維持のために必要な処理について説明します。

インデックスからアイテムが削除される場合

URL が廃止されたかネットワーク切断でアクセスできないことが原因で、インデックスに存在するアイテムをクローラーで検出できなかった場合、そのクロールでは、クローラーからそのアイテムに関するエラーがレポートされます。それ以降の 3 回のクロールでも同じ状態になると、そのアイテムはインデックスから削除されます。ファイル共有コンテンツ ソースの場合は、ファイル共有からアイテムが削除されるとそのアイテムが即座にインデックスから削除されます。

ファイル共有の "オブジェクトが見つかりませんでした" エラー

クロールされたファイル共有コンテンツ ソースのホスト名は有効でファイル名が無効の場合、このエラーが発生します。たとえば、ホスト名とファイル名が \\ValidHost\files\file1 の場合、\\ValidHost は存在し、ファイル file1 は存在しないとします。この場合、クローラーから "オブジェクトが見つかりませんでした" というエラーがレポートされ、そのアイテムはインデックスから削除されます。クロール履歴ビューには以下のように表示されます。

  • エラー: 1

  • 削除: 1

  • 最上位レベルのエラー: 1 (\\ValidHost\files\file1 は開始アドレスなので、最上位レベルのエラーとして表示されます)

コンテンツ ソース ビューには以下のように表示されます。

  • エラー: 0

  • 削除: 0

  • 最上位レベルのエラー: 0

コンテンツ ソース ビューでこれらがすべて 0 と表示されるのは、このビューにはインデックスに含まれているアイテムの状態のみが表示され、この開始アドレスがインデックスに含まれていなかったからです。一方、クロール履歴ビューには、インデックスに含まれているかどうかに関係なくすべてのクロール トランザクションが表示されます。

ファイル共有の "アイテムのネットワーク パスを解決できませんでした" エラー

クロールされたファイル共有コンテンツ ソースのホスト名とファイル名が無効の場合、このエラーが発生します。たとえば、ホスト名とファイル名が \\InvalidHost\files\file1 の場合、\\InvalidHost もファイル file1 も存在しないとします。この場合、クローラーから "アイテムのネットワーク パスを解決できませんでした" というエラーがレポートされ、そのアイテムはインデックスから削除されません。クロール履歴ビューには以下のように表示されます。

  • エラー: 1

  • 削除: 0

  • 最上位レベルのエラー: 1 (\\InvalidHost\files\file1 は開始アドレスなので、最上位レベルのエラーとして表示されます)

コンテンツ ソース ビューには以下のように表示されます。

  • エラー: 0

  • 削除: 0

  • 最上位レベルのエラー: 0

クローラーでは、そのアイテムが実際に存在しないのか、ネットワークが停止していてそのアイテムにアクセスできないのか判別できないので、アイテムはインデックスから削除されません。

使用されていない開始アドレス

クロール ログでは、最上位のドキュメント (開始アドレス) に関する最上位レベルのエラーがレポートされます。コンテンツ ソースを正常な状態に維持するには、以下の処置を行ってください。

  • 最上位レベルのエラーが 0 以外の場合、必ず調査します。

  • クロール ログに何度も表示される最上位レベルのエラーがある場合、必ず調査します。

  • それ以外の場合、2 週間に一度、サイトの所有者に確認して、使用されていない開始アドレスを削除することをお勧めします。

トラブルシューティングして、使用されていない開始アドレスを削除するには

  1. この手順を実行しているユーザー アカウントが Search Service アプリケーションの管理者であることを確認します。

  2. 使用されていない可能性のある開始アドレスが見つかった場合、まず、そのサイトに ping を実行して、その開始アドレスが存在するかどうかを調べます。応答があった場合、問題の原因が以下のうちいずれに該当するか確認します。

    • ブラウザーから URL にアクセスできる場合、クローラーでその開始アドレスをクロールできなかった原因は、ネットワーク接続の問題です。

    • ブラウザーから URL がリダイレクトされる場合、新しいアドレスと同じになるように開始アドレスを変更してください。

    • ブラウザーで URL のエラーが発生する場合、後で再試行します。複数回試行しても同じエラーが発生する場合、サイト所有者に連絡してそのサイトが使用可能かどうか確認してください。

  3. サイトに ping を実行しても応答がない場合は、そのサイトは存在しないので削除する必要があります。サイトを削除する前に、サイト所有者に確認してください。

アクセス拒否

クロール ログに、開始アドレスに対する "アクセスが拒否されました" エラーが常にレポートされる場合、サイトのクロールに必要な読み取り権限がコンテンツ アクセス アカウントにない可能性があります。管理アカウントを使用すると URL を表示できる場合は、権限の更新処理で問題が発生している可能性があります。その場合には、サイト所有者に連絡して権限を要求してください。クローラーに権限を設定する方法については、「クロール ルールを管理する (Search Server 2010)」を参照してください。

ホストの割り当ての実行中にコンテンツ ソース ビューの数値が 0 になる

ホストの割り当ての実行中は、コンテンツ ソース ビューのすべての列の数値が 0 になります。このようになるのは、コンテンツ ソース ビューには、クロール データベースのテーブルから直接提供される値が表示されるからです。ホストの割り当ての実行中はそれらのテーブルのデータが移動するので、その間は値が 0 のままになります。

ホストの割り当てが完了した後、元の数値に戻すには、コンテンツ ソースの増分クロールを実行してください。

コンテンツ ソース ビューにおけるファイル共有の削除の表示

正常にクロールされたファイル共有コンテンツ ソースからドキュメントを削除すると、そのドキュメントは、次回のフル クロールまたは増分クロール実行時に即座にインデックスから削除されます。クロール ログのコンテンツ ソース ビューには、そのアイテムはエラーとして表示されますが、他のビューでは削除として表示されます。

SharePoint Server Search サービスを停止または再起動すると、クロール ログのトランザクションに不一致が生じる

SharePoint Server Search サービス (OSearch14) は、管理操作またはサーバー機能が原因でリセットまたは再起動されることがあります。リセットまたは再起動されると、クロール ログのクロール履歴ビューに不一致が生じる可能性があります。クロールごとに報告されるトランザクションの数と実行されたクロールごとの実際のトランザクションの数との間に相違が見つかる可能性があります。この原因は、OSearch14 サービスでは、アクティブなトランザクションをメモリに格納し、これらのトランザクションを完了後に書き込むためです。メモリ内のトランザクションがクロール ログ データベースに書き込まれる前に OSearch14 サービスが停止、リセット、または再起動された場合、クロールごとのトランザクションの数は正しく表示されません。