Un correcteur contextuel français dans Office 2010

Lors de la Conférence Mondiale pour les Partenaires (Worldwide Partner Conference) à La Nouvelle Orléans ce 13 juillet 2009, Microsoft a dévoilé un grand nombre d’informations sur la nouvelle version d’Office, baptisée Office 2010. Une version d’évaluation vient d’être mise à la disposition de milliers d’utilisateurs qui se sont inscrits pour télécharger cette « Microsoft Office 2010 Technical Preview ». Vous pourrez découvrir les nouveautés sur le blog d’Office 2010 ainsi que sur https://backstage2010.fr et regarder de très belles vidéos sur le site www.microsoft.com/office2010.

Les utilisateurs francophones ne seront pas déçus. J’ai parlé à plusieurs reprises sur ce blog du correcteur contextuel anglais et espagnol que nous avons développé pour Office 2007 (les lecteurs du blog en anglais de notre équipe auront aussi lu les divers billets que nous avons écrits à ce sujet). Je suis heureux de vous annoncer que la gamme des outils de correction linguistique pour le français s’est étoffée et qu’un correcteur contextuel s’ajoute désormais au correcteur orthographique et au correcteur grammatical dont j’ai si souvent parlé sur ce blog.

Le correcteur contextuel français d’Office 2010 vous permettra de repérer un beaucoup plus grand nombre de fautes qui échappaient jusqu’à présent aux outils de vérification linguistique traditionnels. Contrairement au correcteur grammatical, qui utilise un analyseur syntaxique, le correcteur contextuel est basé sur des analyses statistiques et l’exploitation de ce que l’on appelle en anglais des « language models », des modèles linguistiques permettant de comparer le texte écrit par l’utilisateur à des énormes listes de fréquences de chaines de mots. Il permet ainsi de repérer des mots qui existent bel et bien en français mais qui sont utilisés de façon incorrecte dans un contexte donné.

Quelques exemples de fautes qu’Office 2010 vous permettra de repérer via un trait ondulé bleu:

Ils on faim. (on à ont)

Elles son malades. (son à sont)

Quand à moi, j’avoue que je sui fier de lui. (Quand à Quant ; sui à suis)

Si je peu me permettre, dans son fort intérieur, elle pense qu’elle a raison. (peu à peux ; fort à for)

Se test montre que le correcteur ne fonctionne pas trop mal. (Se à Ce)

L’installation de la fosse sceptique a pris plus de temps que prévu. (sceptique à septique)

Il arrive cet après midi.(après midi à après-midi)

Mon frère ma dit qu’il ne viendrait pas. (ma à m’a)

Il y a long temps que je l’aime, jamais je ne l’oublierai… (chanson populaire) (long temps à longtemps)

En temps que client de l’hôtel, vous avez gratuitement accès à l’Internet. (temps à tant)

 La copie d’écran ci-dessous illustre ce nouvel outil.

Qu’entend-on par « correcteur contextuel » ? Comme vous le savez, le correcteur orthographique traditionnel souligne en rouge les fautes de frappe (omission d’une lettre, permutation malencontreuse de deux lettres, etc). Le correcteur grammatical traite plus particulièrement les problèmes d’accord entre le nom et l’adjectif, entre un verbe et son sujet, etc… (via un souligné vert). Il est toutefois très difficile de repérer les fautes concernant par exemple les homonymes, c’est-à-dire cette gamme de mots qui se prononcent de la même manière, mais s’écrivent différemment. Pensons par exemple à son/sont, ou on/ont. Si j’écris ils on faim, un correcteur grammatical basé sur un analyseur syntaxique peine à repérer la faute parce que la structure de la phrase fautive est constituée d’un pronom (ils) suivi d’un autre pronom (on) suivi d’un nom (faim). Il est difficile de donner du sens à cette structure, puisqu’il ne s’agit pas d’un problème d’accord au sens traditionnel du terme (comparez avec ils mange du pain, où mange est bien un verbe, mais est mal accordé, ce que le correcteur grammatical repère bien).

Bien sûr, il ne faut pas s’attendre à ce que l’outil repère toutes les fautes possibles et imaginables (aucun outil n’en est capable, sauf si l’on accepte qu’il se trompe aussi très souvent dans son jugement, ce qui irrite généralement l’utilisateur). J’ai abordé à plusieurs reprises le problème de la précision et du rappel (j’en ai aussi parlé en anglais en lisant une évaluation académique de notre correcteur contextuel anglais) et, lors du développement de cet outil, nous avons en permanence tenté d’éviter les fausses alertes (l’outil a une précision très élevée, ce qui signifie qu’il se trompe très peu souvent quand il repère une erreur, mais il restera toujours des fautes qu’il ne pourra signaler). J’ai la faiblesse de croire que ce correcteur s’avèrera très vite indispensable pour bien des utilisateurs d’Office 2010 et qu’il complètera utilement la gamme des outils linguistiques que nous mettons à leur disposition.

Thierry Fontenelle

Microsoft Natural Language Group – Program Manager

Comments

  • Anonymous
    January 16, 2010
    petit cas d'école... oops le correcteur français de Word 2010 ne passe pas le cas d'école suivant: La belle ferme les voile. cette phrase est syntaxiquement correcte or le correcteur suggère une faute sur "les voile" ("la ferme" est ici évidemment la bâtisse, "voile" est le verbe "voiler" conjugué à la 3ème personne du présent de l'indicatif). Je me permets de signaler ce cas, tordu certes, mais c'est L'exemple par excellence de phrase syntaxiquement ambiguë que l'on donne à tous les étudiants en informatique linguistique ! Salutations, Philippe (drouizig.org)