Sdílet prostřednictvím


Normalizace povrchových formulářů

I když se slova a lingvistická pravidla výrazně liší, existují určité aspekty, jako jsou čísla, kalendářní data a časy, které se konzistentně zpracovávají napříč všemi funkcemi pro dělení slov. Toto téma dokumentuje aspekty normalizace, které mohou ovlivnit implementaci dělení slov.

Toto téma je uspořádané takto:

Dělení slov

Spojovníky (-) se používají mezi částmi složeného slova nebo názvu. Používají se také mezi slabiky slova, když je slovo rozděleno na konec řádku textu. V angličtině jsou slova spojená s pomlčkami, které označují zvláštní vztah v kontextu, ale tato slova nemusí být obvykle pomlčkami v jiných kontextech; Například "krok za krokem". Při vytváření indexu by se oddělovač slov měl považovat za oddělovač slov. Například "data-base" by se ukládaly jako "data" plus "base". V době dotazu by měla být pomlčka nahrazena dvěma alternativami: dvouslovnou variantou a skutečnou složenou frází. Například "data-base" by se nahradila "data" plus "base" a "database". Tento rozdíl mezi časem indexu a dotazu zvyšuje kombinace reprezentací slov s dělením slov a usnadňuje porovnávání slov v dotazu.

Následující tabulka ukazuje, jak se pomlčky považují za oddělovače slov v anglickém jazyce, zvyšuje počet odpovídajících termínů dotazu pro každý termín zahrnutý v indexu.

Termíny zahrnuté v indexu Porovnávání času dotazu
Databáze datová základna, datová základna
Datová základna datová základna, datová základna
Databáze data-base, database

 

Přivlastňovací

Vlastníci jsou variace podstatných jmen, které označují vlastnictví. Anglické přivlastňovací výrazy jsou reprezentovány připojením apostrofu (') nebo apostrofu a slovem ('s). Například pro označení vlastnictví je slovo "Mary" reprezentováno jako "Mary's". Breaker slova generuje apostrof i apostrof formuláře v době dotazu. Dotazy na "Mary" by měly odpovídat "Mary" i "Mary's".

Diakritika

Diakritická znaménka se přidají k písmenu nebo fonetickému motivu, které označují speciální fonetickou hodnotu pro výslovnost. Diakritická znaménka mohou rozlišovat slova, která jsou jinak graficky identická; například "resume" a "resumé" v angličtině. Ukládání diakritiky do indexu ale zvyšuje počet jedinečných klíčů slov v indexu, což zpomaluje výkon dotazů. Pokud se diakritická dokumentace používá pouze minimálně v jazyce, měl by se při vytváření indexu i dotazování odebrat oddělovač slov pro tento jazyk. Například english word breaker generuje "resume" při zpracování "resumé", což způsobuje pouze minimální dopad na relevanci výsledků dotazu.

Clitics

Klitoris je nepřestřežené slovo, které nedokáže stát na vlastní pěst a připevňuje se ke stresovaným slovům, aby vytvořilo jednu jednotku. Klitika nelze snadno klasifikovat jako fonologické, syntaktické nebo morfologické. Klitika přichází ve dvou typech: klitika a enkltika. K začátku slova se připojují k výkřiku. Enklantiky se připojují k konci slova.

Klitika je obtížnější analyzovat v jazycích, jako je španělština. Španělské sloveso může generovat mnoho plošných forem v závislosti na čase. Při vytváření indexu a generováním plošných formulářů v době dotazu je potřeba vzít v úvahu aspekty, které je potřeba vzít v úvahu. Odebrání klitice v případech, kdy morfologie klitické kompozice je nejednoznačná, může vést k nepředvídatelným výsledkům. Generování velkého počtu plošných formulářů pro slovo zvětšuje velikost fulltextového indexu a může zpomalit výkon dotazů. Doporučuje se, aby stemmer generoval pouze malý počet povrchových forem.