オプションのアイテム処理の設定
最終更新日: 2011年8月16日
適用対象: SharePoint Server 2010
この記事の内容
optionalprocessing.xml のカスタマイズ
optionalprocessing.xml のファイル形式
プロパティ抽出
ドキュメントの変換
不快コンテンツ フィルター処理
メタデータ抽出
適用先: Microsoft FAST Search Server 2010 for SharePoint
アイテム処理でのオプションのステージ。Microsoft FAST Search Server 2010 for SharePoint アイテム処理パイプラインでオンあるいはオフにすることができる処理コンポーネントを表し、プロパティ抽出、データ マッピング、言語的処理、コンテンツ フィルター処理が含まれます。
この記事では、以下のように、パイプラインでオプションのアイテム処理ステージの構成ファイルを更新する方法について説明します。
optionalprocessing.xml のカスタマイズ
optionalprocessing.xml 構成ファイルで、オプションのアイテム処理ステージの有効と無効を切り替えます。
この構成ファイルは、アイテム プロセッサがリセット、開始、あるいは再開されるたびに読み取られます。ファイルは、各オプションのステージについて、名前とアクティブ化状態を含む必要があります。既定では、すべてのオプションの処理ステージが非アクティブにされています。
この構成ファイルを変更するには、FAST Search Server 2010 for SharePoint 管理サーバーの FASTSearchAdministrators ローカル グループのメンバーである必要があります。
注意
optionalprocessing.xml を使用して、オプションのアイテム処理ステージの有効と無効を切り替えることができます。ただし、このファイルを使用してカスタム処理ステージをパイプラインに追加することはできません。アイテム処理を追加する方法については、「外部アイテム処理コンポーネントの統合」を参照してください。
このファイルを変更するには、テキスト エディターあるいは XML エディターを使用します。
optionalprocessing.xml ファイルを変更するには
FAST Search Server 2010 for SharePoint 管理サーバーで <FASTSearchFolder>\etc\config_data\DocumentProcessor\OptionalProcessing.xml を編集します。
ここで、<FASTSearchFolder> は FAST Search Server 2010 for SharePoint をインストールしたフォルダーです。たとえば、C:\FASTSearch になります。
FAST Search Server 2010 for SharePoint 管理サーバーで、以下のコマンドを実行します。
<FASTSearchFolder>\bin\psctrl reset
これにより、システムで、現在、実行中のすべてのアイテム プロセッサがリセットされます。
optionalprocessing.xml のファイル形式
optionalprocessing.xml 構成ファイルの構文は、以下のとおりです。
<optionalprocessing>
<processor name="personnameextraction" active="yes|no" />
<processor name="XMLMapper" active="yes|no" />
<processor name="OffensiveContentFilter" active="yes|no" />
<processor name="FFDDumper" active="yes|no" />
<processor name="wholewordsextractor1" active="yes|no" />
<processor name="wholewordsextractor2" active="yes|no" />
<processor name="wholewordsextractor3" active="yes|no" />
<processor name="wordpartextractor1" active="yes|no" />
<processor name="wordpartextractor2" active="yes|no" />
<processor name="MetadataExtraction" active="yes|no" />
<processor name="SearchExportConverter" active="yes|no" />
</optionalprocessing>
注意
ファイルではエントリを追加または削除することはできません (オプションの処理ステージ MetadataExtraction を除く)。個別の processor 要素について active 属性の値のみを変更します。
表 1 で、オプションのアイテム処理ステージについて説明しています。
表 1. オプションのアイテム処理ステージ
オプションのステージ名 |
説明 |
||
---|---|---|---|
personnameextraction |
組み込みの個人名プロパティ抽出を有効にします。詳細については、「プロパティ抽出」を参照してください。 |
||
XMLMapper |
クロールされたプロパティへの XML 要素のカスタム マッピングを使用する、XML コンテンツのマッピングを有効にします。詳細については、「カスタム XML アイテム処理」を参照してください。 |
||
OffensiveContentFilter |
組み込みの不快コンテンツ フィルター処理を有効にします。この機能は、性的なコンテンツを含むアイテムを削除します。詳細については、「不快コンテンツ フィルター処理」を参照してください。 |
||
FFDDumper |
アイテム処理パイプラインのデバッグ ステージを指定します。詳細については、「カスタム アイテム処理のデバッグ」を参照してください。 注意 このステージは、フィード速度に大きく影響し、ローカル ハード ディスク (<FASTSearchFolder>\data\ffd\) の容量を短時間で使い切るので、テスト中にのみに使用してください。 |
||
wholewordsextractor1, wholewordsextractor2, wholewordsextractor3, wordpartextractor1, wordpartextractor2 |
このカスタム プロパティ抽出ステージは、下位互換性を保つために含まれています。
これらのステージに基づいたカスタム プロパティ抽出器の移行については、「Service Pack 1 以前に定義されたカスタム プロパティ抽出器の移行」を参照してください。 |
||
MetadataExtraction |
Microsoft Word および Microsoft PowerPoint ドキュメントの拡張メタデータ抽出を有効にします。このステージが有効の場合、タイトルと日付は、ドキュメントのメタデータではなくドキュメントのコンテンツに基づきます。詳細については、「メタデータ抽出」を参照してください。
|
||
SearchExportConverter |
追加のドキュメント形式の変換を有効にします。詳細については、「ドキュメントの変換」を参照してください。 注意 構成ファイル optionalprocessing.xml で、直接、この機能の有効と無効を切り替えないでください。Microsoft TechNet の「Advanced Filter Pack を有効にする (FAST Search Server 2010 for SharePoint)」で示す手順に従ってください。 |
注意
アイテム処理構成を変更する場合は、アイテム処理構成の変更に影響されるすべてのコンテンツを再クロールする必要があります。
以下の例は、処理されたコンテンツから抽出された人の名前を含む personnames クロールされたプロパティの生成を有効にする方法を示します。ステージを有効にするには、active 属性の値を、yes に変更します。
<optionalprocessing>
<processor name="personnameextraction" active="yes"/>
</optionalprocessing>
以下の例は、クロールされたプロパティへの XML コンテンツのマッピングを有効にする方法を示します。
<optionalprocessing>
<processor name="XMLMapper" active="yes"/>
</optionalprocessing>
注意
XMLMapper 処理ステージは、XML マッピングのための追加の構成ファイルを必要とします。詳細については、「カスタム XML アイテム処理」を参照してください。
プロパティ抽出
プロパティ抽出とは、アイテムの、表示されているテキストのコンテンツから情報を抽出し、ドキュメントの追加のクロールされたプロパティとしてその情報を保存する過程です。
FAST Search Server 2010 for SharePoint アイテム処理パイプラインには、以下の処理を実行する 3 つの組み込みのプロパティ抽出ステージがあります。
個人名抽出器は、汎用の辞書に基づいて人の名前を抽出します。FAST Search Server 2010 for SharePoint には、個人名抽出に関連するその他の機能が含まれているため、既定では、このステージは無効です (作成者プロパティおよび人の検索機能)。企業あるいは組織に固有でない名前を抽出する必要がある場合は、optionalprocessing.xml でステージを有効にすることができます。
場所抽出器は、汎用の辞書に基づいて地理的な場所の名前を抽出します。このステージは既定で有効になっています。このプロパティ抽出がアプリケーションで不要の場合は、インデックスの管理プロパティに、結果のクロールされたプロパティをマップする必要はありません。
企業抽出器は、汎用の辞書に基づいて企業の名前を抽出します。このステージは既定で有効になっています。このプロパティ抽出がアプリケーションで不要の場合は、インデックスの管理プロパティに、結果のクロールされたプロパティをマップする必要はありません。
組み込みのプロパティ抽出ステージは、以下の言語をサポートします。
アラビア語
オランダ語
英語
フランス語
ドイツ語
イタリア語
日本語
ノルウェー語
ポルトガル語
ロシア語
スペイン語
個人、場所、および企業の既定の辞書は、このセクションの前に示した言語で公開されている新しいニュース コンテンツにある程度対応できるように作成されました。
包含リストと除外リストを追加することにより、組み込みのプロパティ抽出器を変更することができます。詳細については、Microsoft TechNet の「プロパティ抽出を管理する (FAST Search Server 2010 for SharePoint)」を参照してください。
パイプラインにはカスタム プロパティ抽出器を追加できます。詳細については、「カスタム プロパティ抽出器の作成」を参照してください。
ドキュメントの変換
SearchExportConverter という名前の処理ステージは、FAST Search Server 2010 for SharePoint Advanced Filter Pack を制御します。この機能は、標準の Filter Pack でサポートされるドキュメント形式を補完して、数百のファイル形式からのテキストおよびメタデータ抽出ができるようにします。既定では、Advanced Filter Pack は無効です。
注意
構成ファイル optionalprocessing.xml で、直接、この機能の有効と無効を切り替えないでください。Microsoft TechNet の「Enable Advanced Filter Pack (FAST Search Server 2010 for SharePoint)」で示す手順に従ってください。
また、特定のファイル形式について開発された、カスタムの IFilter コンポーネントを展開することもできます。これは user_converter_rules.xml 構成ファイルによって制御されます。詳細については、「サード パーティ IFilter を使用するように FAST Search Server for SharePoint を設定する」を参照してください。
不快コンテンツ フィルター処理
FAST Search Server 2010 for SharePoint 不快コンテンツ フィルター処理は、個別のアイテム処理ステージとして実装されます。フィルターにかけられたアイテム コンテンツは、辞書内の定義済みの語句と比較されます。フィルターの出力は、アイテムが性的である可能性を示す総合的なスコアです。アイテムの不快スコアは、クロールされたプロパティ OCF::Score に書き込まれます。30 のスコアしきい値を超えるすべてのアイテムが、インデックス作成から除外されます。
FAST Search Server 2010 for SharePoint 不快コンテンツ フィルターは、フィルター処理の根拠として、単一の単語と複合語の表現を使用します。
既定では、不快コンテンツ フィルターは無効です。有効にするには、以下の例で示すように、optionalprocessing.xml でアクティブ化キー OffensiveContentFilter を使用します。
<optionalprocessing>
<processor name="OffensiveContentFilter" active="yes"/>
</optionalprocessing>
注意
不快コンテンツ フィルターは、サイト情報を使用せず、また視覚的情報 (画像) を考慮しません。この機能は、不快な文字列を含むページに限定されます。そのようなページに対しては、非常に高い識別率を示します。
不快コンテンツ フィルターは、以下の言語をサポートします。
アラビア語
中国語
チェコ語
英語
フィンランド語
フランス語
ドイツ語
ヒンディー語
イタリア語
日本語
韓国語
リトアニア語
ノルウェー語
ロシア語
スペイン語
スウェーデン語
トルコ語
不快コンテンツ フィルターは、クロールされたプロパティ title、body、および ocfcontribution をスキャンします。最後のプロパティはクローラーで設定されませんが、追加のコンテンツをスキャンするために使用することができます。たとえば、XMLMapper を使用して、カスタム コンテンツを ocfcontribution にマップできます。
性的とみなされるアイテムは処理中に除外され、インデックス作成コネクタに適切なフィードバックが渡されます。
メタデータ抽出
特定のクロールされたプロパティには Microsoft Office ドキュメントのメタデータが含まれます。作成者が新しいドキュメントを作成するときは、通常、テンプレートまたはその他のドキュメントを開始点として使用します。多くの場合、作成者はメタデータを更新しないので、メタデータによって誤りが発生する可能性があります。Microsoft Word および Microsoft PowerPoint のドキュメントについては、代わりにドキュメントのコンテンツから日付およびタイトルの情報を抽出できます。ほとんどの場合、これにより適切なメタデータが生成されます。
FAST Search Server 2010 for SharePoint には、拡張メタデータ抽出ステージが含まれます。このステージが有効の場合、タイトルと日付は、ドキュメントのメタデータではなくドキュメントのコンテンツに基づきます。
既定では、拡張メタデータ抽出は有効です。拡張メタデータ抽出を無効にするには、以下の例で示すように、optionalprocessing.xml でキー MetadataExtraction を追加します。
<optionalprocessing>
<processor name="MetadataExtraction" active="no" />
</optionalprocessing>
拡張メタデータ抽出を無効にすると、タイトルと日付がドキュメント メタデータに基づくようになります。
![]() |
---|
拡張メタデータ抽出は FAST Search Server 2010 for SharePoint Service Pack 1 で導入され、このサービス パックをインストールした後に既定で有効になります。Service Pack アップグレードでは、optionalprocessing.xml は変更されません。 |
拡張メタデータ抽出を使用すると、2 つのクロールされたプロパティがアイテム処理パイプラインに作成されます。
抽出されたタイトル:
クロールされたプロパティ名: 302
プロパティ セット: 012357BD-1113-171D-1F25-292BB0B0B0B0
バリアント型: 31
管理プロパティへのマップ: Title
抽出された日付:
クロールされたプロパティ名: 263
プロパティ セット: 012357BD-1113-171D-1F25-292BB0B0B0B0
バリアント型: 64
管理プロパティへのマップ: Write
関連項目
概念
サード パーティ IFilter を使用するように FAST Search Server for SharePoint を設定する