フルテキスト言語コンポーネントの構成
SQL Server 2008 のフルテキスト検索では、英語、スペイン語、中国語、日本語、アラビア語、ベンガル語、ヒンディー語など、約 50 種類の言語を使用できるようになりました。サポートされているフルテキスト言語の一覧は、「sys.fulltext_languages (Transact-SQL)」を参照してください。フルテキスト インデックスに含まれている各列には Microsoft Windows ロケール識別子 (LCID) が関連付けられています。これは、フルテキスト検索でサポートされている言語を表します。たとえば、LCID 1033 は米国英語を表し、LCID 2057 は英国英語を表しています。SQL Server では、サポート対象の言語ごとに、その言語で格納されているフルテキスト データのインデックスを作成し、クエリを実行するための言語コンポーネントが用意されています。
言語固有のコンポーネントには、ワード ブレーカとステミング機能があります。ワード ブレーカは、各言語の語彙規則に基づいて単語の境界を検出します (単語区切り)。各ワード ブレーカには、その言語の動詞を活用するステミング機能が関連付けられています。詳細については、「ワード ブレーカーとステミング機能」を参照してください。
さらに SQL Server 2008 には、基本的なストップ ワード (ノイズ ワードとも呼ばれます) をまとめたシステム ストップ リストが用意されています。ストップ ワードとは、検索に役立たないためにフルテキスト クエリで無視される語です。たとえば、英語ロケールでは、"a"、"and"、"is"、"the" などの語はストップ ワードと見なされます。通常は、類義語辞典ファイルおよびストップ リストを 1 つ以上構成する必要があります。詳細については、「ストップ ワードとストップ リスト」を参照してください。
SQL Server では、グローバル類義語辞典ファイルと共に、各フルテキスト言語の類義語辞典ファイルもインストールされます。インストールされた類義語辞典ファイルは基本的には空ですが、このファイルを編集して、特定の言語またはビジネス シナリオ用のシノニムを定義することができます。フルテキスト データに合わせた類義語辞典を作成すると、そのデータのフルテキスト クエリのスコープを効果的に拡張できます。詳細については、「類義語辞典の構成」を参照してください。
ドキュメントに varbinary、varbinary(max)、image、または xml データ型の列でインデックスを作成するには、追加の処理を実行するためのフィルタが必要です。このフィルタは、ドキュメントの種類ごと (.doc、.pdf、.xls、.xml など) に用意する必要があります。詳細については、「フルテキスト検索フィルター」を参照してください。
注 |
---|
ワード ブレーカ (およびステミング機能) とフィルタは、フィルタ デーモン ホスト プロセス (fdhost.exe) で実行されます。このプロセスの詳細については、「フルテキスト検索のアーキテクチャ」を参照してください。 |
関連項目