Partager via


Présentation des composants de ressources linguistiques

Les ressources linguistiques se composent d’analyseurs de mots et de générateurs de formes dérivées qui étendent les fonctionnalités de génération d’index et d’interrogation aux nouveaux langages et paramètres régionaux. Les séparateurs de mots sont utilisés lors de la création d’index et de l’interrogation. Les lemmatiseurs sont utilisés uniquement pour l’interrogation. Windows Search utilise des DLL de ressource de langage pour établir une liaison à des implémentations IWordBreaker et IStemmer pour des paramètres régionaux de langage spécifiques.

Cette rubrique est organisée comme suit :

À propos des ressources linguistiques

Windows Search utilise un filtre (une implémentation de l’interface IFilter ) et ILoadFilter pour accéder à un document dans son format natif. Le composant IFilter extrait le contenu, les propriétés et la mise en forme du texte à partir du document. Le filtre IFilter identifie les paramètres régionaux du document qu’il filtre. Le composant d’indexation appelle le décomposeur de mots approprié pour ce locale. Si aucun n’est disponible, le composant d’indexation utilise le séparateur de mots neutre. L’analyseur de mots reçoit, à partir d’un IFilter, un flux d’entrée de caractères Unicode analysé par l’analyseur de mots pour produire des mots et des expressions individuels. L’analyseur de mots normalise également les formats de date et d’heure. L'indexeur normalise les mots produits par l'analyseur lexical en les convertissant en majuscules. L’indexeur enregistre les mots majuscules dans l’index de texte intégral, à l’exception des mots de bruit identifiés pour cette localisation.

Le tableau suivant répertorie les actions et les résultats correspondants pour la phrase « Figure 1 illustre le rôle des ressources linguistiques pour Windows Search pendant le processus de création d’index ».

Action Texte résultant
Texte d’origine La figure 1 illustre le rôle des ressources linguistiques pour Windows Search pendant le processus de création d’index.
Filtrage La figure 1 illustre le rôle des ressources linguistiques pour Windows Search pendant le processus de création d’index.
Rupture de mot Figure, 1, illustre, le rôle, des ressources, linguistiques, pour, Windows, Search, lors, du processus, de création, de l’index, EOS
Normalisation FIGURE 1 ILLUSTRE LE RÔLE DES RESSOURCES LINGUISTIQUES DE WINDOWS SEARCH PENDANT LE PROCESSUS DE CRÉATION D'INDEX
Suppression de mots parasites FIGURE, ILLUSTRE, RÔLE, RESSOURCES, LANGUE, WINDOWS, RECHERCHE, PENDANT, PROCESSUS DE CRÉATION DE L'INDEX
Enregistrer dans l’index de recherche en texte intégral FIGURE, ILLUSTRE, RÔLE, RESSOURCES LINGUISTIQUES, WINDOWS, RECHERCHE, LORS DU PROCESSUS DE CRÉATION DE L'INDEX

 

Les segmenteurs de mots et les racineurs sont utilisés pour développer des requêtes FREETEXT au moment de l'exécution de la requête. Les paramètres régionaux de la requête sont les paramètres régionaux par défaut, sauf si un identificateur de code de langue (LCID) est passé en tant que paramètre de requête. Le composant de requête appelle le briseur de mots approprié sur les termes de requête indiqués dans la clause WHERE de la requête. Par exemple, si la clause WHERE de la requête contient « FREETEXT (pommes, oranges et poires) », le décomposeur de mots reçoit le texte, « pommes, oranges et poires ». Si la clause WHERE de la requête utilise le prédicat CONTAINS en texte intégral, la sortie de texte du décomposeur de mots est normalisée. Sinon, le composant de requête transmet chaque mot identifié par l'analyseur de mots au générateur de formes dérivées approprié pour cette langue et ces locaux. Le stemmer génère une liste de formes alternatives ou infléchies pour ce mot. Le composant de requête normalise la liste développée de termes de requête et supprime les mots parasites.

Le tableau suivant répertorie les actions et les résultats correspondants pour la requête « pommes, oranges et poires ».

Action Texte résultant
Texte d’origine pommes, oranges et poires
Rupture de mot pommes, oranges et poires, EOS
Recherche de radical pomme, pommes, orange, orangé, oranges, et, poire, poires
Normalisation POMME, POMMES, ORANGE, ORANGEÂTRE, ORANGES, ET, POIRE, POIRES
Suppression de mots parasites POMME, POMMES, ORANGE, ORANGEY, ORANGES, POIRE, POIRES
Liste développée des termes de requête POMME, POMMES, ORANGE, ORANGEY, ORANGES, POIRE, POIRES

 

Les termes de requête développés augmentent la probabilité que la requête trouve des documents qui correspondent à l’intention de la requête d’origine. Le texte généré par l’analyseur de mots ou le stemmer au moment de la requête n’est pas stocké sur le disque.

Rupture de mot

La séparation des mots est la division du texte en unités de texte individuelles ou en mots. De nombreuses langues, en particulier celles qui utilisent des alphabets romains, ont une panoplie de séparateurs (tels que des espaces) et une ponctuation utilisés pour discerner des mots, des expressions et des phrases. Les séparateurs de mots doivent s’appuyer sur des heuristiques de langage précises pour fournir des résultats fiables et précis. La rupture de mot est plus complexe pour les systèmes d'écriture basés sur des caractères ou des scripts alphabétiques, où la signification des caractères pris individuellement est déterminée à partir du contexte. Pour plus d’informations sur les considérations linguistiques susceptibles d’affecter l’implémentation de votre analyseur de mots, consultez Considérations linguistiques et Unicode.

Recherche de radical

La recherche Windows applique des générateurs de formes dérivées exclusivement au moment de la requête pour générer des formulaires de mots supplémentaires pour les termes dans FREETEXT et les requêtes de propriétés. Les analyseurs morphologiques effectuent une analyse morphologique et appliquent des règles grammaticales pour générer une liste de formes alternatives ou infléchies pour les mots. Les formes alternatives ont souvent la même forme de tige ou de base. En générant les formes fléchies d’un mot, le service d’indexation retourne des résultats de requête statistiquement plus pertinents par rapport à une requête. Par exemple, une requête en texte intégral pour « compétition de natation » correspond aux documents qui contiennent « nager, nage, nages, nageant, nagé, nagés » ou « rencontre, rencontres, rencontré, rencontrer » et les combinaisons de ces termes.

Certaines langues nécessitent que les termes inlectés soient générés à la fois au moment de l’index et au moment de la requête pour les inflections standard et variant. Dans ce cas, la désinflexion se produit dans le composant segmentateur de mots, avec un travail minimal de désinflexion dans le véritable analyseur morphologique. Par exemple, le segment de mots japonais effectue une lemmatisation à la fois lors de la création d'index et pendant l'interrogation pour permettre à une requête de trouver différentes formes infléchies des termes de recherche.

Normalisation

Les documents de toutes les langues sont stockés dans un seul index. Bien que les mots et les règles linguistiques diffèrent considérablement, il existe certaines considérations, telles que les nombres, les dates et les heures, qui sont gérés de manière cohérente dans tous les analyseurs de mots. Pour plus d’informations sur les considérations relatives à la normalisation pouvant affecter l’implémentation de votre analyseur de mots, consultez Normalisation de la forme de surface.

Mots parasites

Les mots parasites, également appelés mots vides, sont des mots qui ne sont pas des indicateurs significatifs pour le contenu textuel. Le service d’indexation supprime les mots parasites des termes de requête et du contenu inclus dans l’index de recherche en texte intégral. Un décalage est l’occurrence d’un mot dans un document ou dans une liste de termes de requête. Le décalage des mots parasites dans un document ou une requête est enregistré comme vide. La suppression de mots parasites améliore les performances des requêtes en évitant la croissance inutile des index. Il améliore également la pertinence des résultats de requête. Vous pouvez configurer Windows Search pour utiliser des listes de mots parasites pour des langues spécifiques. Ces listes sont utilisées lorsqu’un analyseur de mots est appelé pour cette langue. Par exemple, « the » dans la langue anglaise se produit si souvent qu’il a peu de valeur comme clé unique. « Le » se trouve dans la liste de mots parasites, n’est pas écrit dans l’index de contenu et, s’il est interrogé, ne retourne aucun résultat.

Les mots parasites agissent en tant qu'éléments de remplacement dans les requêtes de phrases. Un document qui contient le texte « wag the dog » est stocké dans l’index avec « wag » à la position 1 et « dog » à la position 3. La requête d’expression « wag dog » ne correspond pas, mais la requête d’expression « wag a dog » correspond, car les informations d’occurrence correspondent. L’expression « wag purple dog » ne correspond pas car « violet » est introuvable dans l’index à l’occurrence 2. Toutefois, une requête pour « wag the dog » retourne des documents qui contiennent « wag violet dog » car il n’existe aucun moyen de déterminer efficacement si le document avait un mot non bruyant entre « wag » et « dog ».

Extension des ressources linguistiques

Implémentation d’un séparateur de mots et d’un lemmatiseur

Considérations linguistiques et Unicode

Résolution des problèmes liés aux ressources linguistiques et aux meilleures pratiques