次の方法で共有


crawlerconsistency.exe リファレンス

 

適用先: FAST Search Server 2010

トピックの最終更新日: 2015-03-09

crawlerconsistency は、ディスク上のクローラー アイテムやメタデータの構造について、その整合性を検証して修復するツールです。クローラー内部のストアを検証してメンテナンスしたり、破損したクロール ストアを復旧したりするときにも、このツールを使用できます。

既定で、このツールは以下の矛盾点を見つけて修復を試みます。

  • メタデータベース内で参照されているが、アイテム ストア内にないアイテム。

  • アイテム ストア内にある無効なアイテム。

  • アイテム ストア内にある参照されていないアイテム (docrebuild モードが必要)

  • 重複データベースのチェックサムがメタデータベース内にない。

  • 同じ URI に割り当てられた複数のチェックサムが重複データベース内にある。

これらの矛盾点は doccheck モードまたは docrebuild モードのとき自動的に修正され、その後、metacheck モードになります。矛盾する URI はすべてログに記録され、同期を確実にするためにインデクサー (無効にできる) に対して削除操作が発行されます。

複数ノード クローラー環境では、このツールを使用すると、ppduprebuild モードでノード単位スケジューラのポストプロセス チェックサム データベースのコンテンツから重複サーバーを再構築することもできます。また、このモードでは重複サーバーがゼロから構築されるので、最初に構成を変更してから再構築を行えば、使用する重複サーバーの数を変更することもできます。

注意

コマンドライン ツールを使用するために次の最小要件を満たしていることを確認してください。その要件とは、FAST Search Server 2010 for SharePoint がインストールされているコンピューター上の FASTSearchAdministrators ローカル グループのメンバーであることです。

Syntax

<FASTSearchFolder>\bin\crawlerconsistency [options]

Parameters

パラメーター 説明

<FASTSearchFolder>

C:\FASTSearch など、FAST Search Server 2010 for SharePoint をインストールしたフォルダーのパスです。

crawlerconsistency のオプション

オプション 必須か 説明

-M

<モード>[<モード,..., <モード>]

必須

このツールの 1 つまたは複数の実行モードを指定します。

  • doccheck - メタデータベース内で参照されているすべてのアイテムがディスク上にも存在するかどうかを検証します。

  • docrebuild - doccheck と同じですが、参照されているすべてのアイテムを新たなアイテム ストアに書き直して、アイテム ストア内の孤立アイテムを削除します。

    注意

    これは時間がかかることがあります。

  • metacheck - ポストプロセス データベース内で参照されているすべてのチェックサムがメタデータベース内にもあるかどうかを検証します。

  • metarebuild - 破損したメタストアの復旧を試みます。これは不具合のあるサイト データベースや失われたサイト データベースをセグメント データベースに基づいて再構築する基礎になります。

  • duprebuild - ローカルのポストプロセス データベースから重複サーバーのコンテンツを再構築します。このモードは、単独で (他のモードと併用しないで) 実行してください。

さらに、以下の修飾子を付加できます。

  • updatestat - アイテム ストアの統計カウンターを更新します。

    注意

    doccheck モードと docrebuild モードでのみ使用してください。

  • routecheck - サイト/URI が正しいノード スケジューラにルーティングされているかどうかを検証します。

複数の修飾子を指定するときは、カンマ区切りの <モード> 一覧を使用します。次に例を示します。

-M doccheck,docrebuild,updatestat

これは複数ノード クローラーにのみ適用されます。

-O

<パス>

必須

すべての出力ログのフォルダー。

現在の日付による名前 <年><月><日> を持つサブフォルダーを作成します。

サブディレクトリが既に存在する場合は、名前に番号 (".1" など) が付加されます。

-d

<パス>

省略可能

指定したディレクトリ内のサブディレクトリにあるクロール データ、実行時構成、およびログの場所。

既定: data

-U

省略可能

このツールを複数ノード スケジューラで実行していて、データが異なるフォルダー ( data\crawler\config\multinode と data\crawler\config\node) に存在することを示します。

これは routecheck モードに適用されます。

-C

<クロール コレクション>[,<クロール コレクション>,...,<クロール コレクション>]

省略可能

チェックするコレクションのカンマ区切りの一覧。

既定: すべてのコレクション

-c

<クラスター>[,<クラスター>,...,<クラスター>]

省略可能

チェックするクラスターのカンマ区切りの一覧。

これは doccheck モードと docrebuild モードに適用されます。

既定: すべてのクラスター

-S

<クロール サイト>[,<クロール サイト>,...,<クロール サイト>]

省略可能

指定されたサイトだけを処理します。

これは doccheck モードに適用されます。

既定: すべてのサイト

-z

省略可能

docrebuild モードのときアイテム ストア内のアイテムを圧縮します。アイテムを圧縮するコレクション レベルのオプション (指定した場合) よりも、これが優先されます。

既定: オフ

-i

省略可能

空きディスク領域のチェックをスキップします。通常、このツールは空きディスク領域を定期的にチェックし、1GB 以下になった場合は、処理を停止して終了します。

警告

このオプションは、慎重に使用してください。

-n

省略可能

削除操作をインデクサーへ送出しないように指示します。ファイルへの記録だけが行われます。

削除したアイテムがインデックスに残らないようにするには、それらのアイテムを手動で削除するか、コレクションを空のインデックスに供給し直す必要があります。

-F

<ファイル>

省略可能

クローラーのグローバル構成を <ファイル> から読み込みます。コマンドラインに相いれないオプションがあるときは、それがファイル内の値よりも優先されます。

-T

省略可能

このツールをテスト モードで実行します。ディスク上の何も削除されず、インデクサーへ削除操作が送出されることもありません。

-h

省略可能

ヘルプを表示します。

-v

省略可能

バージョン情報を表示します。

-l

<ログ レベル>

省略可能

ログに記録する情報の種類を指定します。

  • debug

  • verbose

  • info

  • warning

  • error

次の例では、アイテム ストアとメタストアの整合性を検証して修復し、統計カウンターを更新します。

<FASTSearchFolder>\bin\crawlerconsistency -M doccheck,metacheck,updatestat -O <FASTSearchFolder>\var\log\crawler\consistency\ -C MyCollection

メタデータベースの各エントリが検証され、クローラー ストア内の対応するアイテム コンテンツが検証され、指定したログ ファイルに矛盾点が記録されます。

備考

このツールが生成するログ ファイルは次のとおりです。ログ ファイルは、最初の URI がファイルに書き込まれるまで作成されません。

ログ ファイル名 説明

<モード>_ok.txt

検出された URI のうちで矛盾点として削除されなかったものが出力されます。

metacheck モードの出力にはチェックサムの重複しない URI がすべて含まれるので、インデックスと比較するとき便利です。

注意

パイプラインでアイテムが抜け落ちて、インデックスに存在しない URI がこのファイルに残ることがあります。インデックス内の URI で、このファイルにないものは安全に削除できます。

<モード>_deleted.txt

このツールで削除された URI が出力されます。インデクサーにおける削除を -n オプションで無効にしていなければ、これらの URI はインデックスから削除されています。これらの URI はクローラーの矛盾点として削除されたので、Web サーバーにまだ存在している可能性があるため、そのインデックスを作成すべきです。crawleradmin ツールで --addurifile オプションを使用して、これらの URI を再度クロールしてください (--force オプションも指定すると、クロールが高速化されます)。

<モード>_deleted_reasons.txt

このログ ファイルは基本的には <モード>_deleted.txt ファイルと同じですが、各 URI の削除理由を示す "エラー コード" も出力されます。各エラー コードの定義は次のとおりです。

  • 101 - アイテム ストア内でアイテムが見つからない

  • 102 - アイテム ストア内でアイテムは見つかったが、読み取れない

  • 103 - アイテムは見つかったが、長さがメタ情報と一致しない

  • 201 - アイテムのメタデータが見つからない

  • 202 - メタデータは見つかったが、読み取れない

  • 203 - メタデータは見つかったが、重複データベース内のチェックサムと一致しない

  • 204 - メタデータは見つかったが、チェックサムがない

  • 206 - URI のホスト名がルーティング データベース内で見つからない

<モード>_wrongnode.txt

このファイルは複数ノードのクロールで使用され、ルーティングが正しくないためにノードから削除されたすべての URI が出力されます。これらの URI は、別のマスター ノードからクロールしてください。これらの URI はログに記録されますが、インデックスからは削除されません。

<モード>_refeed.txt

このツールの実行によって更新された URI 同等クラスを持っていた URI が出力されます。インデックスを同期させるには、postprocess-i オプションを指定して、このファイルの内容を再度供給してください。または、全データの供給を再度行ってください。

注意

標準出力と標準エラー出力を必ずディスク上のログ ファイルへリダイレクトしてください。

See Also

Reference

crawleradmin.exe リファレンス

Concepts

Web クローラー XML 構成リファレンス