フルテキストインデックスの作成と管理

[アーティクル]
02/18/2014

フルテキストインデックスの情報は、特定の単語や単語の組み合わせをすばやく検索できるフルテキストクエリをコンパイルするために Full-Text Engine で使用されます。フルテキストインデックスには、データベーステーブルの 1 つ以上の列の重要な語およびその場所に関する情報が保存されます。フルテキストインデックスは、Full-Text Engine for SQL Server により構築および管理されるトークンベースの特殊な機能インデックスです。フルテキストインデックスの作成手順は、他のタイプのインデックスの作成手順とは異なります。 Full-Text Engine は、特定の行に格納された値に基づいて B ツリー構造を作成するのではなく、インデックスを作成するテキストの個々のトークンに基づいて、反転、スタック、および圧縮されたインデックス構造を作成します。フルテキストインデックスのサイズを制限する要因となるのは、SQL Server のインスタンスが実行されているコンピューターで使用できるメモリリソースのみです。

SQL Server 2008 以降では、フルテキストインデックスはデータベースエンジンと統合されており、以前のバージョンの SQL Server のようにファイルシステムには格納されません。新しいデータベースでは、フルテキストカタログは、ファイルグループに属さない仮想オブジェクトです。これは、フルテキストインデックスのグループを指す論理的概念に過ぎません。ただし、SQL Server 2005 データベースをアップグレードする場合は、データファイルを含むフルテキストカタログの新しいファイルグループが作成されます。詳細については、「SQL Server 2005 からのフルテキスト検索のアップグレード」を参照してください。

注
SQL Server 2008 以降では、Full-Text Engine は、個別のサービスではなく SQL Server プロセス内に存在します。 Full-Text Engine をデータベースエンジンに統合することにより、フルテキストの管理、混合クエリの最適化、および全体的なパフォーマンスが向上しています。

1 つのテーブルに対し、1 つのフルテキストインデックスしか使用できません。フルテキストインデックスをテーブルに作成するためには、一意で NULL が許容されない列がそのテーブルに 1 つ必要です。フルテキストインデックスを作成できるのは、データ型が char、varchar、nchar、nvarchar、text、ntext、image、xml、varbinary、および varbinary(max) の列です。これらの列には、フルテキスト検索用のインデックスを作成できます。データ型が varbinary、varbinary(max)、image、または xml の列にフルテキストインデックスを作成する場合は、型列を指定する必要があります。型列は、各行のドキュメントのファイル拡張子 (.doc、.pdf、.xls など) を格納するテーブル列です。

フルテキストインデックスを作成および保守するプロセスを作成 (クロールとも呼ばれます) といいます。フルテキストインデックスの作成には、完全作成、変更の追跡に基づく作成、およびタイムスタンプに基づく増分作成の 3 種類があります。詳細については、「フルテキストインデックスの作成」を参照してください。

このトピックの内容

一般的なタスク
フルテキストインデックスの構造
フルテキストインデックスフラグメント

一般的なタスク

フルテキストインデックスを作成するには

CREATE FULLTEXT INDEX (Transact-SQL)

フルテキストインデックスを変更するには

ALTER FULLTEXT INDEX (Transact-SQL)

フルテキストインデックスを削除するには

DROP FULLTEXT INDEX (Transact-SQL)

[先頭に戻る]

フルテキストインデックスの構造

フルテキストインデックスの構造をよく理解しておくことは、Full-Text Engine の動作を理解するのに役立ちます。このトピックでは、Adventure Works の Document テーブルの抜粋をテーブル例として使用します。この抜粋には、テーブルの 2 つの列 (DocumentID 列および Title 列) と 3 つの行のみが含まれています。

この例では、Title 列に対してフルテキストインデックスが作成されているものとします。

DocumentID	Title
1	Crank Arm and Tire Maintenance
2	Front Reflector Bracket and Reflector Assembly 3
3	Front Reflector Bracket Installation

たとえば、次のテーブル (フラグメント 1) は、Document テーブルの Title 列に対して作成されたフルテキストインデックスの内容を示しています。フルテキストインデックスには、この表に示されているより多くの情報が含まれています。このテーブルは、フルテキストインデックスの論理表現であり、例を挙げる目的で紹介しています。行は、ディスクの使用量を最適化するために圧縮形式で格納されます。

データが元のドキュメントとは逆になっていることに注意してください。これはキーワードがドキュメント ID にマップされているためです。このため、フルテキストインデックスは一般に逆インデックスと呼ばれます。

キーワード "and" がフルテキストインデックスから削除されていることにも注意してください。これは "and" がストップワードであり、フルテキストインデックスからストップワードを削除することで、ディスク領域を大幅に節約し、クエリのパフォーマンスを向上させることができるためです。ストップワードの詳細については、「フルテキスト検索に使用するストップワードとストップリストの構成と管理」を参照してください。

フラグメント 1

キーワード	ColId	DocId	Occurrence
Crank	1	1	1
Arm	1	1	2
Tire	1	1	4
Maintenance	1	1	5
Front	1	2	1
Front	1	3	1
Reflector	1	2	2
Reflector	1	2	5
Reflector	1	3	2
Bracket	1	2	3
Bracket	1	3	3
Assembly	1	2	6
3	1	2	7
Installation	1	3	4

Keyword 列には、インデックス作成時に抽出された単一のトークン表現が含まれています。ワードブレーカーが、トークンの構成要素を決定します。

ColId 列には、フルテキストインデックスが作成されている特定の列に対応する値が含まれています。

DocId 列には、フルテキストインデックスが作成されているテーブルで特定のフルテキストキー値にマップされる 8 バイトの整数値が含まれています。このマッピングは、フルテキストキーが整数データ型でない場合に必要になります。このような場合、フルテキストキー値と DocId 値とのマッピングは、DocId Mapping テーブルと呼ばれる別のテーブルで保持されます。これらのマッピングをクエリするには、sp_fulltext_keymappings システムストアドプロシージャを使用します。検索条件を満たすには、前に示した表の DocId 値と DocId Mapping テーブルを結合し、クエリ対象のベーステーブルから行を取得する必要があります。ベーステーブルのフルテキストキー値が整数データ型の場合は、その値を DocId として直接使用できるため、マッピングは必要ありません。したがって、整数データ型のフルテキストキー値を使用すると、フルテキストクエリを最適化できます。

Occurrence 列には整数値が含まれます。 DocId 値ごとに、その DocId 内の特定キーワードの相対的な単語オフセットに対応するオカレンス値の一覧があります。オカレンス値は、句または近接検索の判定に役立ちます。たとえば、句には数値の近いオカレンス値が含まれます。また、関連性スコアを計算するのにも役立ちます。たとえば、DocId のキーワードのオカレンス数をスコアリングに使用できます。

[先頭に戻る]

フルテキストインデックスフラグメント

論理フルテキストインデックスは、通常、複数の内部テーブルに分割されます。各内部テーブルは、フルテキストインデックスフラグメントと呼ばれます。これらのフラグメントの一部は、他のフラグメントよりも新しいデータを含んでいることがあります。たとえば、DocId が 3 である次の行をユーザーが更新し、テーブルの変更が自動的に追跡される場合、新しいフラグメントが作成されます。

DocumentID	Title
3	Rear Reflector

次に示すフラグメント 2 には、フラグメント 1 より新しい、DocId 3 に関するデータが含まれています。したがって、ユーザーが "Rear Reflector" をクエリした場合、フラグメント 2 に含まれている DocId 3 のデータが使用されます。各フラグメントには、sys.fulltext_index_fragments カタログビューを使用してクエリできる作成タイムスタンプが付いています。

フラグメント 2

キーワード	ColId	DocId	Occ
Rear	1	3	1
Reflector	1	3	2

フラグメント 2 を見ればわかるように、フルテキストクエリでは、各フラグメントを内部的にクエリし、古いエントリを破棄する必要があります。したがって、非常に多くのフルテキストインデックスフラグメントがフルテキストインデックスに含まれている場合、クエリのパフォーマンスが大幅に低下する可能性があります。フラグメントの数を減らすには、ALTER FULLTEXT CATALOG Transact-SQL ステートメントの REORGANIZE オプションを使用してフルテキストカタログを再構成します。このステートメントはマスターマージを実行します。マスターマージでは、フラグメントが単一のより大きなフラグメントにマージされ、フルテキストインデックスから古いエントリがすべて削除されます。

再構成が完了すると、次の行が例のインデックスに格納されます。

キーワード	ColId	DocId	Occ
Crank	1	1	1
Arm	1	1	2
Tire	1	1	4
Maintenance	1	1	5
Front	1	2	1
Rear	1	3	1
Reflector	1	2	2
Reflector	1	2	5
Reflector	1	3	2
Bracket	1	2	3
Assembly	1	2	6
3	1	2	7

[先頭に戻る]

次の方法で共有

フルテキストインデックスの作成と管理

このトピックの内容

一般的なタスク

フルテキストインデックスの構造

フルテキストインデックスフラグメント

その他のリソース

次の方法で共有

フルテキスト インデックスの作成と管理

このトピックの内容

一般的なタスク

フルテキスト インデックスの構造

フルテキスト インデックス フラグメント

その他のリソース

フルテキストインデックスの作成と管理

フルテキストインデックスの構造

フルテキストインデックスフラグメント