雖然單字和語言規則大相徑庭,但有一些考慮,例如數位、日期和時間,在所有斷詞工具中一致地處理。 本主題記載可能會影響斷詞工具實作的正規化考慮。
本主題的組織方式如下:
連字元
連字元 (-) 會在複合字或名稱的元件之間使用。 當單字在文字行結尾被分割時,它們也會在單字的音節之間使用。 在英文中,單字會與連字元聯結,以指出內容中的特殊關聯性,但這些字通常在其他內容中可能不會連字元;例如,「逐步執行」。在索引建立期間,斷詞工具應將連字元視為單字分隔符。 例如,“data-base” 會儲存為 “data” 加上 “base”。在查詢時,應該以兩個替代專案取代連字元片語:雙字變體和 true 複合。 例如,“data-base” 會取代為 “data” 加上 “base” 和 “database”。索引和查詢時間之間的差異會增加連字元字組的表示法組合,並讓單字更容易在查詢中比對。
下表顯示如何以英文將連字元視為單字分隔符,會增加索引中每個字詞的相符查詢字詞數目。
| 索引中包含的詞彙 | 查詢時間相符專案 |
|---|---|
| 數據基底 | data base、 data-base |
| 數據基底 | data base、 data-base |
| 資料庫 | data-base, database |
擁有者
擁有者是表示擁有的名詞的變化。 英文擁有者是以將單引號 (') 或單引號和 s ('s) 附加至單字來表示。 例如,若要表示擁有,“Mary” 這個字會表示為 “Mary's”。斷詞工具會在查詢時產生單引號和單引號窗體。 “Mary” 的查詢應該符合 “Mary” 和 “Mary's”。
變音符號
讀音符號是新增至字母或音素的標記,以指出發音的特殊注音值。 變音符號可以區分圖形上相同的單詞;例如,英文中的“簡歷”和“簡歷”。 不過,將讀音符號儲存至索引會增加索引中唯一字鍵的數目,進而降低查詢效能。 如果只以語言使用讀音符號,該語言的斷詞工具應該在索引建立和查詢期間移除它們。 例如,英文斷詞工具會在處理「複寫」時產生「繼續」,只會對查詢結果的相關性造成最小影響。
Clitics
一個陳詞濫調是一個無法獨立站立的詞,並附加至強調的單字,形成單一單位。 氣候無法輕易分類為語音學、語法或形態學。 Clitics 有兩種類型:proclitics 和 enclitics。 Proclitics 會把自己附加到一個字的開頭。 Enclitics 會把自己附加到一個字的結尾。
Clitics 更難以西班牙文等語言剖析。 視時態而定,西班牙文動詞可能會產生許多表面形式。 在建立索引期間移除 clitic,以及在查詢時透過字幹分析產生介面表單之間,必須考慮事項。 在氣候組合的形態模棱兩可的情況下移除 clitic,可能會導致無法預測的結果。 為單字產生大量的表面窗體會增加全文檢索索引的大小,並可能會降低查詢效能。 建議字幹分析器只產生少量的表面形式。