Français québécois, trait d’union et correcteur orthographique

 

J’étais il y a quelques jours au congrès de l’ACFAS à Montréal, où je participais au symposium sur la description linguistique pour le traitement automatique du français. J’avais été invité à y parler des outils de vérification linguistique de Microsoft Office. En me promenant dans les rues de Montréal, j’ai été frappé par une différence très importante entre le français européen et le français tel qu’il est utilisé au Québec. Je veux parler ici des traits d’union, bien plus fréquents en français québécois. Je ne parle pas du trait d’union que l’on trouve dans les clitiques tels que « cette maison-là » ou « ce livre-ci » ou dans les séquences verbe-complément telles que « lisez-moi ce passage » ou « regarde-les ». Je ne parle pas non plus des traits d’union présents dans les mots composés tels que grand-mère, tire-lait ou taille-crayon. Il n’y a pas de différence particulière entre le français « européen » et le français québécois en ce qui concerne ces tournures ou ces mots composés. Par contre, dès qu’il s’agit de nommer les lieux géographiques, on s’aperçoit que le Québécois fait un usage plus important des traits d’union : on ne compte plus les occurrences de ce caractère sur les panneaux de signalisation, qu’il s’agisse du Vieux-Port, du centre-ville, du Vieux-Centre, de la station de métro Université-de-Montréal, du parc Jean-Drapeau, du parc René-Lévesque, du Plateau-Mont-Royal, de l’arrondissement de Ville-Marie, et j’en passe…

J’ai parlé il y a quelque temps des problèmes que les linguistes-informaticiens rencontrent lorsqu’ils doivent d’abord déterminer les frontières des mots. Ce processus, connu en anglais sous le nom de tokenization ou de word-breaking, permet de séparer un point ou une virgule du mot auquel ces signes de ponctuation sont collés, par exemple. Il est nécessaire de déterminer pour une application donnée si l’apostrophe et le trait d’union sont des caractères « séparables » (breaking characters) ou « inséparables ». Comme je l’ai montré précédemment, ces questions sont cruciales et pas toujours si simples à résoudre: le lexique d’un correcteur orthographique ne comprend généralement pas des séquences telles que l’école, s’imagine ou d’hier. On a chaque fois affaire à deux mots (l’+école, s’+imagine, d’+hier). De la même façon, dans « les relations employeurs-employés » ou « le match France-Canada », le trait d’union est « séparable », c’est-à-dire qu’il sépare des tokens distincts. L’ancien correcteur orthographique français d’Office considérait toutefois le trait d’union comme un caractère inséparable (ce qui est tout à fait justifié pour des mots tels que porte-avion, tire-lait ou grand-mère). L’inconvénient était que les composés productifs tels que France-Canada, employeurs-employés, etc. étaient soulignés par le correcteur, qui les considérait comme des formes non correctes, tout simplement parce qu’elles n’étaient pas présentes dans le dictionnaire du correcteur. On n’ose imaginer le cauchemar du lexicographe à qui on aurait demandé d’inclure ces formes dans le lexique. On aurait assisté à une croissance exponentielle (non désirée) du lexique (où s’arrêter? Si on ajoute France-Canada, il faut aussi mettre France-Italie, Belgique-Espagne, patrons-ouvriers, etc…). Impossible de tout prévoir, bien sûr. C’est aussi ce qui explique que ce correcteur soulignait à tort bon nombre d’entités géographiques québécoises telles que celles qui sont citées ci-dessus (du moins toutes celles qui n’étaient pas directement reprises dans le lexique).

En décidant de modifier la nature du trait d’union dans le séquenceur (word-breaker) qui se trouve à la base du nouveau correcteur orthographique français, nous sommes parvenus à réduire de 73% le nombre de fausses alertes, puisque ces combinaisons productives ne sont plus soulignées en rouge et donc plus considérées comme fautives. Plusieurs collègues québécois m’ont fait part de leur satisfaction quant à cette décision qui représente un changement positif très important pour l’utilisateur de nos outils linguistiques : plus question en effet de souligner le mot composé dans l’expression « métro Université-de-Montréal ». Même si le composé n’est pas présent dans le lexique, le correcteur cassant la chaîne sur le trait d’union vérifie chaque unité de façon distincte. On ne verra donc apparaître les soulignements rouges que s’il y a réellement une faute, par exemple dans « métro Universite-de-montréal » (l’accent manque sur Universite et la majuscule est absente sur montréal, ce qui explique que ces deux mots seront soulignés). Le nouveau correcteur orthographique est donc bien plus utile et fiable et cette amélioration est due à un changement de conception du module reconnaissant les mots, sans qu’il ait été nécessaire d’ajouter des milliers d’entrées au dictionnaire. Si vous écrivez Villepin-Sarkozi, le correcteur vous signalera que Sarkozi s’écrit en fait Sarkozy avec -y, mais vous n’aurez pas l’attention inutilement attirée sur une faute inexistante si vous orthographiez ces noms correctement, même en les unissant par un trait d’union. Je me dois évidemment d'ajouter que nous avons mis en place des procédures spéciales pour souligner des fautes très fréquentes telles que portes-avions ou tires-fesses, où il n'est pas question de couper la chaîne de caractères sur le trait d'union et de considérer le mot comme correctement orthographié sous le prétexte que portes ou tires sont des mots corrects (porte- et tire- sont invariables dans ces contextes).

Comme on le voit, un changement apparemment anodin peut avoir des conséquences très importantes pour l’utilisateur. Je suis heureux d’avoir pu constater que ces changements n’étaient pas passés inaperçus auprès des nombreux utilisateurs québécois qui ont téléchargé nos nouveaux outils linguistiques. Je savais qu’ils étaient sensibles à la féminisation des noms de métiers (les professeures, ingénieures et autres auteures que j’ai rencontrées au Canada ne me démentiront pas), de même qu’aux rectifications orthographiques (sait-on que Forum, le journal de l’Université de Montréal est publié en nouvelle orthographe toutes les semaines depuis janvier 2005 et que l’Office québécois de la langue française considère les « nouvelles » graphies comme non fautives?). Le trait d’union est donc une autre facette de ces améliorations linguistiques significatives…

Thierry Fontenelle

Microsoft Speech & Natural Language group

Comments

  • Anonymous
    May 28, 2006
    PingBack from http://tal.univ-paris3.fr/blogtal/index.php?p=532

  • Anonymous
    June 08, 2006
    Votre analyse est très intéressante (je l'apprécie d'autant plus que j'ai fait une thèse sur les mots à trait d'union !). Les quelques remarques qui suivent ne contredisent en rien les solutions que vous proposez. Simplement, elles suggèrent d'autres pistes, plus précises sans doute, mais aussi plus complexes et plus longues à mettre en œuvre.

    Mettons à part le cas des noms propres ("Vieux-Port", "Université-de-Montréal", "René-Lévesque", etc.) : ils sont relativement faciles à traiter, dans la mesure où ils sont  repérables formellement par l'emploi des majuscules. Il semble donc possible de leur réserver un traitement spécial.

    Les autres difficultés proviennent, pour une bonne part, de deux types de structures : la juxtaposition et la surcomposition.

    Le premier type (N0 N1-N2 : par ex. "relations employeurs-employés") se caractérise par la présence de certains noms en position d'introducteurs (N0). Or ces noms peuvent être recensés, dans la mesure où ils relèvent d'un petit nombre de classes sémantiques aisément identifiables. C'est le cas, par exemple, des termes marquant une communication ("dialogue", "rencontre"), une liaison spatiale ("distance", "trajet"), un groupement ("ensemble", "mélange"), une corrélation, ("équivalence", "parité"), un conflit ("lutte", "match"), etc. Un tel recensement permet la reconnaissance automatique de la structure et la validation éventuelle du trait d'union.

    Une autre difficulté apparaît avec ce que j'appellerai la "surcomposition". Des formes comme "salon-salle à manger", "maréchal des logis-chef", "ex-premier ministre" aboutissent à de faux découpages graphiques ("salon-salle", "logis-chef, "ex-premier"). Ici encore, il est possible de mettre en oeuvre un traitement linguistique, en s'appuyant sur des dictionnaires de locutions ou de mots composés ("salle à manger", "maréchal des logis", "premier ministre" doivent être préalablement identifiés comme des unités).

    Ces deux exemples montrent la possibilité de contrôler plus étroitement les occurrences du trait d'union. Une telle démarche ne permet pas seulement d'améliorer la correction orthographique, mais aussi de faciliter l'ensemble des processus liés au traitement automatique (par exemple la traduction). Cela étant, il faut reconnaître que votre solution a le mérite de la simplicité et de l'efficacité.

    S'agissant des noms à trait d'union, je signale l'accès en ligne à un dictionnaire de 12 000 entrées ouvert récemment sur le site du LLI (www-lli.univ-paris13.fr/ressources/moc/index.php). Vos commentaires seront les bienvenus.

    N. B. Petite remarque amusante : dans votre texte, vons indiquez que "Sarkozi s’écrit en fait Sakozy" (sans "r" ?)...

    Michel Mathieu-Colas
    LLI (Laboratoire de linguistique informatique, CNRS / Université Paris 13)
    mmc@lli.univ-paris13.fr

    Références :
    Les mots à trait d'union. Problèmes de lexicographie informatique, CNRS-INaLF, Didier Erudition, Paris, 1994. Voir plus particulièrement, pour les problèmes de séparabilité :"Syntaxe du trait d'union : Structures complexes", Linguisticæ Investigationes, XIX:1, John Benjamins B.V., Amsterdam, 1995.

  • Anonymous
    June 09, 2006
    Il manque des caractères dans l'adresse URL associée à mon dernier message. Je la corrige ici : www-lli.univ-paris13.fr.

  • Anonymous
    June 10, 2006
    The comment has been removed

  • Anonymous
    November 17, 2006
    J’ai installé les mises à jours d’Office 2003 (SP2). Pourquoi lors d'une coupure de mot MANUELLE, le correcteur me dit qu'il  y a une erreur.  Lors de la coupure de mot automatique, cette situation ne se produit pas. Avant d'installer ce correctif, tout était correct. (Dictionnaire Français-Canada)

  • Anonymous
    October 28, 2007
    Lors de mon passage en Belgique il y a quelques mois, j’ai eu le plaisir de retrouver quelques enseignants