Surface フォームの正規化

単語と言語ルールは大きく異なりますが、数値、日付、時刻など、すべてのワード ブレーカーで一貫して処理されるいくつかの考慮事項があります。 このトピックでは、ワード ブレーカーの実装に影響する可能性がある正規化に関する考慮事項について説明します。

このトピックは次のように構成されています。

ハイフネーション

ハイフン (-) は、複合語または名前の部分の間で使用されます。 また、単語がテキスト行の末尾で分割されるときに、単語の音節の間でも使用されます。 英語では、単語はハイフンで結合され、コンテキスト内の特別な関係を示しますが、通常、それらの単語は他のコンテキストではハイフネーションされない場合があります。たとえば、"ステップ バイ ステップ" などです。インデックスの作成時に、ワード ブレーカーはハイフンを単語区切り記号として扱う必要があります。 たとえば、"data-base" は "data" と "base" として格納されます。クエリ時に、ハイフネーションされた語句を、2 単語のバリアントと真の複合の 2 つの代替語句に置き換える必要があります。 たとえば、"data-base" は "data" と "base" と "database" に置き換えられます。インデックスとクエリ時間の違いにより、ハイフネーションされた単語の表現の組み合わせが増え、クエリでの単語の一致が容易になります。

次の表は、英語でハイフンを単語区切り記号として扱うと、インデックスに含まれる各用語の一致するクエリ用語の数が増加する方法を示しています。

インデックスに含まれる用語 クエリ時間の一致
データ ベース データ ベース、データ ベース
データ ベース データ ベース、データ ベース
データベース data-base, database

 

所有物

所有は、所有を示す名詞のバリエーションです。 英語の所有物は、アポストロフィ (') またはアポストロフィと s (') を単語に追加することによって表されます。 たとえば、所有を示すために、"Mary" という単語は "Mary's" として表されます。ワード ブレーカーは、クエリ時にアポストロフィとアポストロフィの両方の形式を生成します。 "Mary" のクエリは、"Mary" と "Mary' の両方と一致する必要があります。

分音記号

分音記号は、発音の特殊な音素値を示すために文字または音素に追加される記号です。 分音記号は、それ以外の場合はグラフィカルに同一の単語を区別できます。たとえば、英語の "resume" や "résumé" などです。 ただし、分音記号をインデックスに保存すると、インデックス内の一意の単語キーの数が増え、クエリのパフォーマンスが低下します。 分音記号が言語で最小限しか使用されていない場合、その言語のワード ブレーカーは、インデックスの作成とクエリの両方で削除する必要があります。 たとえば、英語のワード ブレーカーでは、"resumé" の処理時に "resume" が生成され、クエリ結果の関連性への影響は最小限に抑えられます。

Clitics

Clitic は、単独で立つことのできない無ストレスの単語であり、ストレスの多い単語にアタッチして単一の単位を形成します。 Clitics は、音学、構文、または形態学として簡単に分類することはできません。 Clitics には、プロクリティックスエンクリティックスの 2 種類があります。 プロクリティックスは、単語の先頭に自分自身をアタッチします。 Enclitics は、単語の末尾に自分自身をアタッチします。

Clitics は、スペイン語などの言語で解析するのが難しくなります。 スペイン語動詞は、時制に応じて多くの表面形を生成する場合があります。 インデックスの作成時に clitic を削除してから、クエリ時にステミングを使用してサーフェス フォームを生成する場合の考慮事項を考慮する必要があります。 気候組成の形態があいまいな場合に clitics を削除すると、予測できない結果につながる可能性があります。 単語に対して多数のサーフェス フォームを生成すると、フルテキスト インデックスのサイズが大きくなり、クエリのパフォーマンスが低下する可能性があります。 ステマーは、少数のサーフェス フォームのみを生成することをお勧めします。