Normalisation des formulaires Surface
Bien que les mots et les règles linguistiques diffèrent considérablement, certaines considérations, telles que les nombres, les dates et les heures, sont gérées de manière cohérente entre tous les analyseurs de mots. Cette rubrique documente les considérations de normalisation susceptibles d’affecter votre implémentation de disjoncteur.
Cette rubrique est organisée comme suit :
Hyphenation
Les traits d’union (-) sont utilisés entre les parties d’un mot ou d’un nom composé. Ils sont également utilisés entre les syllabes d’un mot lorsque le mot est divisé à la fin d’une ligne de texte. En anglais, les mots sont joints avec des traits d’union pour indiquer une relation spéciale dans le contexte, mais ces mots ne peuvent normalement pas être traits d’union dans d’autres contextes; par exemple, « pas à pas ». Lors de la création d’index, le disjoncteur doit traiter le trait d’union comme un séparateur de mots. Par exemple, « base de données » est stocké en tant que « données » plus « base ». Au moment de la requête, une expression trait d’union doit être remplacée par deux alternatives : la variante à deux mots et le composé vrai. Par exemple, « data-base » est remplacé par « data » plus « base » et « database ». Cette différence entre le temps d’index et de requête augmente les combinaisons de représentations pour les mots traits d’union et rend les mots plus faciles à faire correspondre dans une requête.
Le tableau suivant montre comment le traitement des traits d’union comme séparateurs de mots en langue anglaise augmente le nombre de termes de requête correspondants pour chaque terme inclus dans l’index.
Termes inclus dans l’index | Correspondances au moment de la requête |
---|---|
Base de données | base de données, base de données |
Base de données | base de données, base de données |
Base de données | base de données, base de données |
Possessifs
Les possessifs sont des variantes d’un substantif qui indiquent la possession. Les possessifs anglais sont représentés par l’ajout d’une apostrophe (') ou d’une apostrophe et d’un s ('s) à un mot. Par exemple, pour indiquer la possession, le mot « Marie » est représenté par « Marie ». Le disjoncteur génère à la fois les formes apostrophe et apostrophe-s au moment de la requête. Les requêtes pour « Mary » doivent correspondre à « Mary » et « Mary’s ».
Diacritiques
Les diacritiques sont des marques ajoutées à une lettre ou un phonème pour indiquer une valeur phonétique spéciale pour la prononciation. Les diacritiques peuvent distinguer des mots qui sont autrement identiques graphiquement ; par exemple, « cv » et « cvé » en anglais. Toutefois, l’enregistrement des diacritiques dans l’index augmente le nombre de clés word uniques dans l’index, ce qui ralentit les performances des requêtes. Si les diacritiques ne sont utilisés que très peu dans une langue, le disjoncteur de cette langue doit les supprimer lors de la création d’index et de l’interrogation. Par exemple, le disjoncteur anglais génère « cv » lors du traitement de « resumeé », ce qui n’a qu’un impact minimal sur la pertinence des résultats de la requête.
Clitiques
Un clitique est un mot non tendu qui est incapable de se tenir seul et qui s’attache à un mot stressé pour former une unité unique. Les clitiques ne peuvent pas être facilement classés comme phonologiques, syntaxiques ou morphologiques. Les clitiques sont de deux types : les proclitiques et lesenclitiques. Les proclitiques s’attachent au début d’un mot. Les enclitiques s’attachent à la fin d’un mot.
Les clitiques sont plus difficiles à analyser dans des langues telles que l’espagnol. Un verbe espagnol peut générer de nombreuses formes de surface, en fonction du temps. Des considérations doivent être prises en compte entre la suppression du clitic lors de la création de l’index et la génération des formulaires de surface par le biais de la création d’une base de données au moment de la requête. La suppression des clitiques dans les cas où la morphologie de la composition clitique est ambiguë peut entraîner des résultats imprévisibles. La génération d’un grand nombre de formes de surface pour un mot augmente la taille de l’index de texte intégral et peut ralentir les performances des requêtes. Il est recommandé que le stemmer ne génère qu’un petit nombre de formes de surface.