Normalisation de la forme surface

Bien que les mots et les règles linguistiques diffèrent considérablement, il existe certaines considérations, telles que les nombres, les dates et les heures, qui sont gérés de manière cohérente dans tous les analyseurs de mots. Cette rubrique documente les considérations relatives à la normalisation qui peuvent affecter votre implémentation d’analyseur de mots.

Cette rubrique est organisée comme suit :

de trait d’union
possessifs
diacritiques
Clitics

Césure

Les traits d’union (-) sont utilisés entre les parties d’un mot ou d’un nom composé. Ils sont également utilisés entre les syllabes d’un mot lorsque le mot est divisé à la fin d’une ligne de texte. En anglais, les mots sont joints à des traits d’union pour indiquer une relation spéciale dans le contexte, mais ces mots peuvent ne pas normalement être traits d’union dans d’autres contextes ; par exemple, « étape par étape ». Lors de la création d’index, le séparateur de mots doit traiter le trait d’union comme séparateur de mots. Par exemple, « data-base » est stocké en tant que « données » plus « base ». Au moment de la requête, une expression en trait d’union doit être remplacée par deux alternatives : la variante à deux mots et le vrai composé. Par exemple, « base de données » est remplacé par « data » plus « base » et « base ». Cette différence entre l’index et le temps de requête augmente les combinaisons de représentations pour les mots traits d’union et facilite la correspondance des mots dans une requête.

Le tableau suivant montre comment traiter les traits d’union comme séparateurs de mots dans la langue anglaise augmente le nombre de termes de requête correspondants pour chaque terme inclus dans l’index.

Termes inclus dans l’index	Correspondances au moment de la requête
Base de données	base de données, base de données
Base de données	base de données, base de données
Base de données	base de données, base de données

Possessions

Les possessifs sont des variations dans un nom qui indiquent la possession. Les possessifs anglais sont représentés par l’ajout d’une apostrophe (') ou d’une apostrophe et d’un (s) à un mot. Par exemple, pour indiquer la possession, le mot « Marie » est représenté comme « Marie ». Le analyseur de mots génère à la fois l’apostrophe et les formes apostrophe-s au moment de la requête. Les requêtes pour « Mary » doivent correspondre à la fois à « Mary » et à « Mary ».

Signes diacritiques

Les signes diacritiques sont ajoutés à une lettre ou un phonème pour indiquer une valeur phonétique spéciale pour la prononciation. Les diacritiques peuvent distinguer les mots qui sont autrement identiques graphiquement ; par exemple, « resume » et « résumé » en anglais. Toutefois, l’enregistrement des signes diacritiques dans l’index augmente le nombre de clés de mot uniques dans l’index, ce qui ralentit les performances des requêtes. Si les signes diacritiques ne sont utilisés que minimalement dans une langue, le analyseur de mots pour cette langue doit les supprimer lors de la création d’index et de l’interrogation. Par exemple, l’analyseur de mots anglais génère « resume » lors du traitement de « resumeé », ce qui n’a qu’un impact minimal sur la pertinence des résultats de la requête.

Clitics

Un clitique est un mot instressé qui n’est pas capable de se tenir seul et s’attache à un mot stressé pour former une seule unité. Les clitiques ne peuvent pas être facilement classifiés comme phonologiques, syntactiques ou morphologiques. Les clitiques sont de deux types : proclitiques et enclitiques. Les proclitiques s’attachent au début d’un mot. Les enclitiques s’attachent à la fin d’un mot.

Les clitiques sont plus difficiles à analyser dans des langues telles que l’espagnol. Un verbe espagnol peut générer de nombreuses formes de surface, en fonction des tensions. Des considérations doivent être prises en compte entre la suppression de l’interface clitique lors de la création d’index et la génération des formes de surface par le biais de la recherche au moment de la requête. L’élimination des clitiques dans les cas où la morphologie de la composition clitique est ambiguë peut entraîner des résultats imprévisibles. La génération d’un grand nombre de formes de surface pour un mot augmente la taille de l’index de recherche en texte intégral et peut ralentir les performances des requêtes. Il est recommandé que le générateur de tiges ne génère qu’un petit nombre de formes de surface.

Commentaires

Cette page a-t-elle été utile ?

Last updated on 2025-03-12