Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
Hoewel woorden en taalkundige regels aanzienlijk verschillen, zijn er enkele overwegingen, zoals getallen, datums en tijden, die consistent worden verwerkt in alle woordonderbrekers. In dit onderwerp worden normalisatieoverwegingen beschreven die van invloed kunnen zijn op de implementatie van uw woordonderbreking.
Dit onderwerp is als volgt ingedeeld:
Woordafbreking
Afbreekstreepjes (-) worden gebruikt tussen de delen van een samengesteld woord of een samengestelde naam. Ze worden ook gebruikt tussen de lettergrepen van een woord wanneer het woord aan het einde van een tekstregel wordt verdeeld. In het Engels worden woorden samengevoegd met afbreekstreepjes om een speciale relatie in context aan te geven, maar deze woorden worden normaal gesproken niet afbreekstreepjes in andere contexten; Bijvoorbeeld 'stap voor stap'. Tijdens het maken van de index moet de woordafbreking het afbreekstreepje behandelen als een woordscheidingsteken. 'gegevensbasis' wordt bijvoorbeeld opgeslagen als 'gegevens' plus 'basis'. Tijdens de query moet een woordgroep met afbreekstreepjes worden vervangen door twee alternatieven: de variant van twee woorden en de echte samengestelde. 'data-base' wordt bijvoorbeeld vervangen door 'data' plus 'base' en 'database'. Dit verschil tussen index en querytijd verhoogt de combinaties van weergaven voor woorden met afbreekstreepjes en maakt de woorden gemakkelijker te vergelijken in een query.
In de volgende tabel ziet u hoe het behandelen van afbreekstreepjes als woordscheidingstekens in de Engelse taal het aantal overeenkomende querytermen verhoogt voor elke term die in de index is opgenomen.
| Termen die zijn opgenomen in de index | Querytijdovereenkomsten |
|---|---|
| Gegevensbasis | gegevensdatabase, gegevensbasis |
| Gegevensbasis | gegevensdatabase, gegevensbasis |
| Databank | gegevensbasis, database |
Bezitsbezit
Bezitsbezit zijn variaties in een zelfstandig naamwoord die duiden op bezit. Engelse bezitwoorden worden vertegenwoordigd door een apostrof (') of een apostrof en een of meer ('s) aan een woord toe te voegen. Als u bijvoorbeeld het bezit wilt aangeven, wordt het woord 'Mary' weergegeven als 'Mary's'. De woordonderbreker genereert zowel de apostrof als de apostrof-s formulieren op het moment van de query. Query's voor 'Mary' moeten overeenkomen met zowel 'Mary' als 'Mary's'.
Diakritische tekens
Diakritische tekens zijn markeringen toegevoegd aan een brief of telefoontje om een speciale fonetische waarde voor uitspraak aan te geven. Diakritische tekens kunnen woorden onderscheiden die anders grafisch identiek zijn; Bijvoorbeeld 'cv' en 'cv' in het Engels. Het opslaan van diakritische tekens in de index verhoogt echter het aantal unieke woordsleutels in de index, waardoor de queryprestaties worden vertraagd. Als diakritische tekens slechts minimaal in een taal worden gebruikt, moet de woordonderbreker voor die taal deze verwijderen tijdens het maken van indexen en het uitvoeren van query's. De Engelse woordonderbreker genereert bijvoorbeeld 'cv' bij het verwerken van 'samenvatting', wat slechts minimale invloed heeft op de relevantie van de queryresultaten.
Clitics
Een clitisch is een onstresseerd woord dat niet zelfstandig kan staan en zich aan een gestrest woord koppelt om één eenheid te vormen. Clitica kunnen niet eenvoudig worden geclassificeerd als fonologisch, syntactisch of morfologisch. Clitics worden in twee typen geleverd: proclitics en enclitics. Proclitics hecht zichzelf aan het begin van een woord. Enclitics hechten zich aan het einde van een woord.
Clitics zijn moeilijker te parseren in talen zoals Spaans. Een Spaans werkwoord kan veel oppervlaktevormen genereren, afhankelijk van de gespannenheid. Er moeten overwegingen worden gemaakt tussen het verwijderen van de clitic tijdens het maken van de index en het genereren van de surface-formulieren via stemming tijdens het uitvoeren van query's. Het verwijderen van clitica in gevallen waarin de morfologie van clitische samenstelling dubbelzinnig is, kan leiden tot onvoorspelbare resultaten. Als u een groot aantal oppervlakvormen voor een woord genereert, wordt de grootte van de index in volledige tekst vergroot en kunnen de queryprestaties worden vertraagd. Het wordt aanbevolen dat de stemmer slechts een klein aantal oppervlaktevormen genereert.