Versione stampabile

Tim ALLEN, Charles COONEY, Clovis GLADSTONE

Le Dictionnaire vivant de la langue française, un dictionnaire communautaire

Tim Allen
ARTFL Project
timothy.d.allen@gmail.com

Charles Cooney
ARTFL Project, Université de Chicago
chu.cooney@gmail.com

Clovis Gladstone
ARTFL Project, Université de Chicago
clovisgladstone@gmail.com

Résumé

Le Dictionnaire vivant de la langue française (DVLF - http://dvlf.uchicago.edu) propose une approche expérimentale de compilation de dictionnaires visant à dépasser les limites des dictionnaires classiques. Ce dictionnaire offre une alternative interactive et communautaire aux méthodes traditionnelles de la lexicographie française, réunissant des définitions à partir de dictionnaires de français traditionnels et des définitions soumises par les utilisateurs, des exemples de phrases et des synonymes, ainsi qu'une analyse contextuelle des mots grâce à l'utilisation de diverses techniques de fouilles de données. Cet article traite à la fois du développement conceptuel et technique du DVLF, ainsi que des efforts récents pour repenser et enrichir le site afin de susciter plus d'interaction avec les utilisateurs et d'offrir une image plus représentative du français tel qu'il existe dans la francophonie.

Abstract

Le Dictionnaire vivant de la langue française (DVLF -- http://dvlf.uchicago.edu) is an experimental approach to dictionary compilation that aims to push the boundaries of what typical dictionaries offer. It provides an interactive, community-oriented alternative to traditional methods of French-language lexicography, bringing together user-submitted definitions and definitions from standard French dictionaries, example sentences, and synonyms, as well as a wealth of information on word usage through the use of various computational methods. This article addresses both the conceptual and technical development of the DVLF, as well as recent efforts to redesign and expand the site with the goal of increasing user interaction and providing more comprehensive representation of French as it exists across la francophonie.

Conçu au sein du Projet ARTFL1 en 2008, le Dictionnaire vivant de la langue française – ou DVLF – constitue une approche expérimentale de compilation de dictionnaires offrant une alternative interactive et communautaire aux méthodes traditionnelles de la lexicographie française. Depuis de nombreuses années déjà, l'équipe d'ARTFL travaille à rendre disponible sur le web des dictionnaires traditionnels numérisés. ARTFL a ainsi créé une collection en ligne de dictionnaires historiques appelée « Dictionnaires d’autrefois » comprenant le Thresor de la langue française (1606) de Jean Nicot, le Dictionnaire critique de la langue française (1787-1788) de Jean-François Féraud, cinq éditions du Dictionnaire de l'Académie française (1694, 1762, 1798, 1835 et 1932-1935), ainsi que le Dictionnaire de la langue française d’Émile Littré (1872-1877). ARTFL a également mis en place une quarantaine de dictionnaires consultables en ligne pour le projet DSAL (Digital South Asia Library) de l’Université de Chicago et couvrant près de 25 langues d'Asie du Sud. Avec le DVLF cependant, nous ne voulions pas nous cantonner à une reproduction numérique de textes imprimés, mais proposer un type de dictionnaire vraiment différent. Son originalité devait reposer tant sur une plus grande richesse de contenu tiré d’algorithmes de traitement automatique des langues, que sur une relation nouvelle entre le dictionnaire et ses utilisateurs, relation d’échange où l’utilisateur est à la fois consommateur et producteur de savoir.

Au moment de la création du DVLF, le seul dictionnaire en ligne qui alliait lexicographie traditionnelle et lexicographie expérimentale était Wordnik, un dictionnaire anglophone qui se caractérise par une grande richesse de contenu provenant à la fois de dictionnaires anglais traditionnels et de ressources obtenues sur Internet2. C’est en prenant initialement modèle sur Wordnik que nous avons entrepris le développement d’un dictionnaire communautaire pour le français, soutenu en cela par une subvention de la National Endowment for the Humanities (NEH)3. Notre longue expérience dans le traitement informatique des langues – génération de concordances sur des grands corpus de textes, repérage automatique des collocations, et mise à disposition de ces technologies à une audience mondiale à travers Internet – a constitué dès le départ un atout certain dans la constitution de notre corpus de données. À l’origine de la création du DVLF se trouve cette conviction que la puissance de l’ordinateur peut servir à enrichir grandement les outils lexicographiques traditionnels. Ce peut être à travers la capacité des machines à ingérer et à traiter des données lexicographiques à une échelle sans précédent, ou comme dispositif permettant de réunir une grande diversité d’utilisateurs au sein d’une même communauté linguistique, chose que nous voyons comme une source quasi-inépuisable d’enrichissement de notre contenu4. C’est tout le contraire des dictionnaires traditionnels, qui ne peuvent être modifiés continuellement – c’est d’autant plus vrai pour les dictionnaires imprimés qu’on ne peut rééditer à chaque changement d’entrée –, et qui ne sont ainsi pas en mesure d’évoluer au même rythme que la langue qu’ils définissent.

L’objectif du DVLF a été dès le départ double : intégrer tous les dictionnaires français traditionnels mis en ligne par ARTFL au fil des années au sein d’une même interface, tout en créant un environnement dans lequel la communauté des utilisateurs aurait la possibilité d’évaluer, de critiquer et d'ajouter du contenu aux ressources préexistantes. En somme, nous avons cherché à combiner une méthodologie lexicographique traditionnelle – où les lexicographes déterminent le sens d’un mot et son histoire, et fournissent des exemples d'utilisations tirés de sources extérieures – et des technologies nouvelles issues du Web, à l’exemple du Urban Dictionary, le dictionnaire en ligne d’anglais non-standard créé par des internautes ; du Dico des mots, un dictionnaire pour le français aussi créé par des internautes ; ou encore du Dictionnaire de la Zone, un dictionnaire auquel chacun peut contribuer, mais qui se limite à l'argot urbain5. Le Wiktionnaire, dictionnaire communautaire issu de la plateforme Wikipedia, nous a également servi de modèle. Comme le DVLF, les entrées du Wiktionnaire incluent des ressources lexicographiques traditionnelles, telles que les prononciations standard, des définitions écrites par des lexicographes, et des phrases d’exemple généralement extraites de sources plus anciennes qui correspondent aux anciens dictionnaires inclus sur le site du DVLF (comme l’édition de 1932-1935 du Dictionnaire de l'Académie française). Si tout utilisateur peut éditer les entrées, ou en créer de nouvelles, la fonctionnalité d’édition du Wiktionnaire nécessite néanmoins une certaine connaissance des procédures de codage du site, ce qui constitue un véritable frein pour des lecteurs occasionnels qui souhaiteraient contribuer à son contenu sans pour autant devoir connaître ces procédures. Dans le cadre du DVLF, un de nos objectifs majeurs était de proposer un portail facile d’accès qui n’exige aucune connaissance particulière de la part de l’utilisateur – il est possible de contribuer simplement en évaluant une phrase d’exemple à la manière du Urban Dictionary – afin d’encourager autant que possible les contributions extérieures. D'un point de vue du contenu proprement dit, une limite importante du Wiktionnaire est qu’il ne possède pas de corpus de phrases d’exemple illustrant l’usage à la fois historique et contemporain d’un mot donné. Or nous voulions précisément que le DVLF puise dans un réseau mondial de sources françaises, car il s’agissait dès l’origine de créer une ressource reflétant la langue française dans toute sa diversité.

Ainsi, durant la phase de développement du projet, un important travail d’acquisition de nouvelles données textuelles a été accompli afin d’enrichir notre fond d'exemples d'usage de mots. Face à la masse de textes que nous avons alors accumulée, nous avons entrepris des expériences d'apprentissage automatique sur ces données afin de développer un système de classement pour les exemples et les définitions. C’est une fois arrivés au terme de ce long effort de rassemblement et d’organisation de nos ressources lexicographiques que nous nous sommes consacrés au développement d’une interface pour le site du DVLF, ainsi qu’à un système de contribution pour la communauté d’utilisateurs. À la fin de la période de subvention en janvier 2011, nous avons lancé la première version officielle du DVLF.

Dans les pages qui suivent, nous allons faire un tour des fonctionnalités offertes par cette première version du DVLF. Ce sera l'occasion d’évaluer le succès de notre projet, et de mettre en lumière les défis autour de la dimension communautaire de ce dictionnaire, un engagement nécessaire si l’on veut pouvoir se distinguer d'autres dictionnaires électroniques également disponibles sur Internet. Cette première expérience, couplée aux statistiques que nous avons recueillies sur les utilisateurs du site, nous a amenés à repenser les fonctionnalités et le contenu du DVLF. C’est ce qui a conduit à une entière refonte du site et au lancement de la deuxième version du DVLF, officiellement mise en ligne en janvier 2017.

Description de la première version du DVLF

Dès le départ, le site du DVLF a été conçu pour être facile d’approche, l’interface ne devant pas être un frein à l’utilisation du dictionnaire, mais au contraire présenter le contenu de manière à guider l’utilisateur vers l’information recherchée. Comme on peut le voir sur l’image d’une entrée type du DVLF (voir figure 1), nous offrons un ensemble varié de ressources lexicographiques, et cette diversité nous impose d’organiser l’information que nous présentons de façon claire et bien définie. C’est pour cette raison que nous avons conçu une présentation de nos ressources sur trois colonnes. Sur le côté gauche de la page, on trouve un index alphabétique, au centre, les définitions de mots tirés d’une sélection de dictionnaires suivi des exemples d’utilisations, et enfin sur la droite la prononciation, les synonymes, les antonymes, et une courbe de fréquence montrant l'usage d’un mot au fil du temps. Bien entendu, la quantité d'information affichée varie d’un mot à l’autre.

Comment fonctionne le bloc de définitions

Les définitions qui se trouvent dans le DVLF viennent de huit dictionnaires historiques : le Thresor de la langue française de Jean Nicot (1606), cinq différentes éditions du Dictionnaire de l'Académie française (1694, 1762, 1798, 1835, 1932-1935), le Dictionnaire critique de la langue française de Féraud (1787-1788), et le Dictionnaire de la langue française de Littré (1872-1877). Le DVLF fournit également des extraits des définitions et des liens vers les entrées du Trésor de la langue française informatisé, le seul dictionnaire « moderne » qui se trouve sur le site. Nous proposons aussi les définitions d’un dictionnaire d’argot qui s’appelle le Bob6. Si l’on inclut la totalité des définitions de chaque dictionnaire, on peut, selon le terme consulté, obtenir beaucoup de texte à l’écran (le mot grand a cent seize entrées, par exemple), rendant la recherche d’information difficile et malaisée. Nous avons donc choisi de n’afficher dans leur intégralité que les définitions des deux dictionnaires les plus modernes, et de minimiser celles issues des autres dictionnaires, laissant cependant aux utilisateurs la possibilité d’y accéder par un simple clic (voir figure 2 où la troisième entrée est ouverte après que l’utilisateur aura cliqué dessus).

Comment fonctionnent les exemples d’utilisations ?

Inspiré par Gudrun Ledegen, le DVLF, dans son extensibilité quasiment illimitée, essaie d’ouvrir le dictionnaire aux « autres domaines où la variation se manifeste, autres domaines qui sont indissociables de celui du lexique, et de mettre à la disposition de l’utilisateur des analyses des rares traits morphosyntaxiques qui trouvent difficilement leur place dans les dictionnaires, mais particulièrement fortement les usages. » (LEDEGEN 2008 : 273) Pour fournir un maximum d’informations sur les usages, le DVLF rassemble des exemples d’utilisations de deux corpus. Le premier corpus est une ressource statique et disponible gratuitement qui s’appelle Corpatext7, et qui comprend deux mille sept cents textes du domaine public pour un total de trente-sept millions de mots. Le second corpus a été réuni par ARTFL pour être utilisé dans le DVLF. Cette dernière collection de textes est composée de centaines de milliers de pages web francophones (y compris des revues scientifiques, des journaux français et suisses et des sites web sur le style de vie québécois) dont le contenu textuel a été extrait et divisé en phrases. Chaque phrase a ensuite été automatiquement associée à une ou plusieurs entrées suivant son contenu. Le DVLF affiche toujours un indicateur de la source de chaque exemple, et fournit si possible des liens vers la page web dont la phrase est tirée (voir figure 3).

Afin de limiter et d’optimiser les données affichées par le site, nous avons entrepris de classer les exemples par pertinence. Nous avons d’abord choisi d’inclure jusqu’à dix phrases de chacun des deux corpus et de ne sélectionner que celles où le mot recherché était situé parmi les cinq premiers mots de la phrase8. Plus tard nous avons ajouté un mécanisme permettant à nos utilisateurs de voter pour chaque phrase et ainsi de fournir un classement pour chaque exemple. À travers ce vote, nous donnons aux utilisateurs la possibilité de promouvoir un exemple vers le haut de la liste. Un autre critère que nous considérons à cette étape est la similitude entre phrases et définitions. Ce système attribue un score à chaque phrase, en fonction du nombre de mots qu’ont en commun un exemple et toutes les définitions du terme correspondant. Dans ce modèle, phrases et définitions sont hachées en groupes de mots de différentes longueurs, jusqu'à cinq mots, puis comparés les uns aux autres. Les résultats sont calculés de façon à ce que les groupes de mots plus longs reçoivent le plus de points. Ainsi, une chaîne de cinq mots qui se trouve dans un exemple et dans une définition vaut plus qu’une chaîne correspondante de deux mots. Une fois l’analyse terminée, les scores sont comptabilisés pour chaque phrase, normalisés selon leur longueur respective, et ajoutés à notre base de données où ils se combinent avec le vote des utilisateurs du site afin de fournir un score final qui indique le positionnement de la phrase sur le site. Ce mouvement des exemples d’usages selon les votes, qui se passe entièrement automatiquement sur le site du DVLF, est à notre connaissance unique parmi les dictionnaires en ligne.

Renseignements supplémentaires

Sur le côté gauche de la page se trouve un index alphabétique des entrées qui précèdent et suivent le mot recherché, simulant ainsi l'expérience de navigation d’une page de dictionnaire imprimée. L’objectif ici est bien entendu d’aider les utilisateurs à trouver d'autres termes liés à leur requête initiale (voir figure 4). Cet index peut aussi aider les personnes qui apprennent le français à trouver un mot quand ils sont incertains de l’orthographe. Dans le cas de figure où le mot recherché ne se trouve pas dans le dictionnaire – qu’il soit mal orthographié ou non – le DVLF offre des suggestions de mots proches dont la sélection se base sur la proximité orthographique du terme recherché.

En utilisant des données empruntées au laboratoire CRISCO de l'Université de Caen9, nous offrons aussi une sélection de synonymes et d'antonymes pour un grand nombre de mots. Cette ressource se situe dans une colonne étroite sur la droite de la page (voir figure 5). Cette colonne contient également des indications de prononciation que nous avons extraites du TLFi, ainsi qu’une page intégrée de WordReference.com donnant accès à des traductions dans de nombreuses langues pour des mots individuels et des expressions idiomatiques.

Dans cette première version du DVLF, nous avons considéré la possibilité d’ajouter pour chaque entrée les collocations de mots les plus fréquentes sous la forme de « nuages de collocations », une pratique alors très en vogue pour signifier l’importance des mots en fonction de leur taille de police. Cependant, une fois que nous avons commencé à développer l’interface utilisateur du DVLF, nous sommes arrivés à la conclusion que l’ajout d’un nuage assez grand pour être utile (c’est-à-dire lisible) nuirait à la cohérence générale du site. Nous avons choisi de présenter à la place un simple graphique de séries temporelles indiquant la fréquence des mots au fil du temps10 (voir figure 5). S’il est vrai que les sources pour ces fréquences sont de nature littéraire et peuvent ne pas être représentatives de certains termes plus techniques, les séries temporelles fournissent néanmoins une esquisse fascinante de la façon dont l’usage des mots peut évoluer à travers les siècles. D’autre part, l’élément graphique est aussi un contrepoint visuel efficace qui s’oppose aux zones de texte qui composent le reste du site.

Contributions des utilisateurs

Si le DVLF contient plus de cent vingt-cinq mille entrées dans son lexique, on ne peut espérer qu’il soit un jour exhaustif puisque la langue évolue à un rythme bien plus rapide que tout dictionnaire. Faire participer les utilisateurs du DVLF, des locuteurs modernes du français, a été dès le départ un objectif primordial de notre projet, car seule cette participation peut permettre à notre dictionnaire de s’enrichir indépendamment des ressources lexicographiques traditionnelles. Afin d’encourager cette participation, nous avons placé au bas de chaque page du site un lien qui mène à une nouvelle page où les utilisateurs peuvent ajouter des définitions ou des exemples à une entrée existante (voir figure 6). Si un mot recherché ne possède pas d’entrée dans le DVLF, nous proposons à l’utilisateur d’ajouter ce terme à notre lexique avec une définition appropriée. Toutes ces nouvelles contributions sont ajoutées immédiatement à la base de données du DVLF et elles sont tout de suite rendues visibles aux autres utilisateurs du site.

Au début du projet, nous avions prévu de créer un système qui permettrait aux utilisateurs de créer des comptes pour contribuer au site, suivre leurs contributions, cataloguer des mots, et aussi créer des listes de mots pour leur propre usage, et pour les partager avec autrui. Au cours du développement du site, cependant, nous avons préféré simplifier le processus et supprimer presque tous les obstacles à la participation des utilisateurs, nous limitant à un système simple d'authentification reCaptcha11, servant à filtrer toute contribution automatique via un programme informatique. Cette décision a été grandement motivée par la volonté d'encourager autant que possible les contributions.

Quel succès pour le DVLF ?

Quand nous avons lancé le site en janvier 2011, nos attentes demeuraient modestes, même si l'on espérait rencontrer le même type de succès que notre prédécesseur anglophone, Wordnik. Dès février 2011, nous avons commencé à recueillir des statistiques d’utilisation grâce à Google Analytics12. Le premier mois a vu environ une vingtaine de visiteurs par jour, puis ce nombre s’est amplifié et stabilisé pour atteindre entre 500 et 1000 utilisateurs quotidiens. Entre février 2011 et décembre 2016, nous avons accueilli un peu plus d’un million de visiteurs qui ont consulté plus de deux millions de pages sur le site. Ce trafic semble suivre les rythmes de l'année scolaire : nous observons un nombre croissant d’utilisateurs en automne et en hiver, puis un ralentissement au cours de l'été. Sans surprise, ces visiteurs viennent majoritairement de pays francophones : la France, le Canada, la Belgique, la Suisse, l’Algérie, Haïti, le Sénégal, la Tunisie et le Maroc. D’autres pays tels que les États-Unis, le Royaume-Uni, l’Espagne, le Brésil, la Corée du Sud ou le Liban figurent également dans ce lot de tête, suggérant que le DVLF est utilisé non seulement par des locuteurs de langue française natifs, mais aussi par des francophiles et des personnes apprenant le français partout dans le monde.

Dans la mesure où notre projet avait pour objectif de créer un dictionnaire communautaire où les contributions de la communauté d’utilisateurs devaient s’ajouter aux ressources lexicographiques, une autre mesure de notre succès est de savoir si nous avons réussi à attirer des contributeurs parmi les visiteurs du site. Dans la figure 7, on peut voir quelques exemples de ces soumissions d'utilisateurs. Ainsi l’exemple du mot patachonnage nous est présenté accompagné d’une histoire intéressante et personnelle sur la façon dont l’utilisateur lui-même a découvert le mot et qu’il définit comme l’« ensemble des aléas d'un développement initial où les choses ne se déroulent pas exactement comme prévu, entraînant une consommation de temps et de ressources supplémentaires, difficiles à prévoir avec précision ». On a recueilli aussi des définitions qui attisent la curiosité tel samara, un « mot d'origine bambara, [qui] signifie « chaussure », utilisé en Afrique de l’Ouest dans le français d’Afrique ». On aurait aimé avoir plus d’informations sur ce mot, et l’on espère en obtenir davantage dans le futur, peut-être grâce à un nouvel utilisateur. Enfin, on a le cas du mot compurgation, dont les circonstances d’inclusion en font un exemple à part. Voici ce que notre utilisateur anonyme écrit à la suite de la définition qu'il a ajoutée : « J'ai trouvé ce mot dans la version française (volume 10) de l’Histoire la Civilisation [sic], de Will Durant, page 156 (édition Cercle du bibliophile). Il est entre guillemets. Je ne suis pas sûr qu’il ait sa place dans un dictionnaire de la langue française ». En somme, notre contributeur n’est pas sûr du statut du mot, mais juge néanmoins utile d’en rapporter la définition pour le gain de tous. Entré dans le dictionnaire, il a maintenant le potentiel d’être réutilisé par quiconque lirait sa définition, le délestant ainsi de son caractère incertain. Ce type de contribution est un exemple parfait de ce que nous entendons par Dictionnaire vivant de la langue française : un mot au statut indéterminé, perdu dans un livre, prend vie par la vertu seule de sa définition au sein d’une ressource libre d’accès.

Si nous avons été grandement encouragés par toutes les contributions faites au DVLF, force est de reconnaître que l’engagement des utilisateurs n’a pas atteint le niveau que l’on espérait au lancement de notre projet. Nous avons reçu environ 300 nouvelles définitions et phrases d’exemples entre février 2011 et décembre 2016, c'est-à-dire une moyenne de 50 contributions par an. De même, nous avons recueilli à peu près mille cinq cents votes pour les exemples d’utilisations. Il est difficile toutefois de se prononcer sur le sens de ce dernier chiffre. Est-ce que notre sélection et notre classement des exemples convenaient à la majorité des utilisateurs, qui ne ressentaient alors pas le besoin de voter ? Ou est-ce que cette section du site n’a été consultée que par une minorité de nos visiteurs ? Quelle qu’en soit la raison véritable, ce chiffre n’était guère à la hauteur de nos espérances.

Ce succès inégal ne doit toutefois pas nous faire oublier que le DVLF est un site qui est maintenant référencé par plusieurs agrégateurs de dictionnaires électroniques qui ont inclus notre site parmi les ressources lexicographiques qu’ils suggèrent. Ainsi en est-il de l’agrégateur Lexilogos, ou de TerminoParesse13. Un autre site, Lexicool.com, comprend le DVLF parmi d’autres dictionnaires établis de longue date, tels que le Larousse ou le Collins14. Par ailleurs, le DVLF est également utilisé comme outil dans certains cours de français à l’Université de Chicago.

Réflexions autour des limites du DVLF

Conscients du succès en demi-teinte du DVLF, nous avons, au cours de l’année 2016, entrepris de revisiter le projet dans son intégralité. Comme nous l’avons évoqué précédemment, l’engagement des utilisateurs sur le site, encourageant parfois, n’avait pas évolué au point où nous pouvions véritablement affirmer que nous avions créé une communauté autour du DVLF. Taux de rebond et statistiques de consultation suggéraient que la plupart des utilisateurs ne demeuraient sur notre site que pour une brève session, ne consultant dans la plupart des cas qu’une seule entrée. Il est peut-être vrai que ce genre d’interaction est typique des ressources numériques de référence, mais nous ne pouvions nous empêcher de penser que nous aurions pu en faire plus pour encourager les visiteurs à explorer davantage nos ressources. Que pouvions-nous faire pour convaincre les utilisateurs de faire défiler le site, de consulter les exemples et de voter pour leurs phrases préférées ? Est-ce que la création d’un système de gestion d’utilisateurs plus robuste encouragerait des interactions supplémentaires ? Et quand bien même nous réussirions à encourager plus d’engagement des visiteurs, aurions-nous la capacité interne à modérer la qualité des soumissions des utilisateurs ? Serait-ce encore même nécessaire ?

D’autre part, certains aspects de la première version du DVLF ne répondaient pas vraiment à nos aspirations. Une de nos principales préoccupations tournait autour de la taille et de la diversité de notre corpus d’exemples. Nous savions que près des trois quarts des mots présents dans l’index du DVLF n’avaient pas d’exemples associés, et nous savions aussi que l’étendue géographique de notre corpus ne couvrait seulement que quatre ou cinq pays francophones. Nous nous sommes aussi aperçu que nous ne capturions pas de variation régionale intéressante et authentique au sein des pays francophones les plus grands, tels que la France ou le Canada. Cette absence de variation régionale est, bien sûr, aggravée par le fait que la plupart des sources de notre corpus étaient de nature journalistique et représentaient donc plutôt un français standardisé.

Ces questions mises à part, nous avions également besoin de reconsidérer la base technique sur laquelle le dictionnaire a été fondé. Une des premières découvertes que nous avons faite en examinant en profondeur les statistiques de Google Analytics, c’est la part importante d’utilisateurs, environ 40%, consultant notre site depuis des appareils mobiles (téléphone ou tablette). Notre interface n’était nullement adaptée à ce type d’appareil, et il nous a tout de suite semblé que cette limitation du DVLF était importante à corriger si l’on souhaitait attirer davantage de visiteurs. De plus, l’architecture technique sur laquelle reposait le site commençait à dater, ce qui a conduit à des pannes de parfois plusieurs heures consécutives. Somme toute, il nous est devenu évident que si l’on voulait relancer le DVLF, il nous fallait repenser toute la couche logicielle afin de proposer un site qui soit moderne et fiable pour notre communauté d’utilisateurs.

Vers le DVLF 2.0

Quand nous avons commencé à envisager de revoir le DVLF en profondeur, nous nous sommes rapidement rendu compte qu’il fallait concentrer avant tout notre effort sur la diversification de nos données. Munis des statistiques de Google Analytics qui nous montraient que nos utilisateurs provenaient de l’ensemble des pays de la francophonie, il nous a paru essentiel d’ajouter un contenu plus représentatif de la richesse de la langue française. Nous avons ainsi enrichi notre base d'exemples par des phrases tirées d'un ensemble de pays d’Afrique, de Nouvelle-Calédonie et de Belgique. De même, nous avions noté le manque d’exemples pour tous les termes plus techniques de notre lexique, et nous avons donc cherché à compléter nos sources littéraires et généralistes par des journaux plus spécialisés comme L’automobile ou Science et Vie. Cette diversification nous a ainsi amenés à presque doubler le nombre d’exemples d’usages (de 400 000 à 700 000), et à proposer des exemples pour plus de 5 000 termes qui n’en avaient pas précédemment. Nous sommes certes encore loin de pouvoir offrir des exemples pour tous les mots du lexique (environ 122 000), mais nous espérons pouvoir régulièrement nourrir notre base de données de nouveau contenu couvrant davantage de mots.

Ce n’est qu’après avoir recueilli suffisamment de nouvelles données que nous avons entrepris la réarchitecture du site. Jugeant que l’interface du DVLF était tout à fait fonctionnelle dans la manière dont les ressources étaient organisées à l’écran, nous n’avons pas voulu repenser ce qui semblait constituer une manière efficace de présenter notre contenu aux visiteurs. Nous avons seulement nettoyé le thème, le rendant plus clair afin de focaliser davantage l’attention de nos lecteurs sur le texte et non sur des éléments graphiques (voir figure 8). Loin d’oublier la proportion importante d’utilisateurs consultant notre site depuis un appareil mobile, nous avons conçu notre interface pour qu’elle s’adapte aux différentes tailles d’écran, modifiant l’organisation de la page quand les informations sont trop condensées (voir figure 9). Nous en avons également profité pour offrir des suggestions de termes dans la case de recherche, à la manière des moteurs de recherche comme Google ou Bing (voir figure 10).

Mais le changement peut-être le plus important de cette version 2.0 du DVLF est dans la plus grande mise en avant des possibilités de contributions. Tandis que dans l’ancienne interface, nous ne proposions directement à l’utilisateur de contribuer que si le terme recherché n’avait pas été trouvé dans le lexique (il existait aussi un lien permanent au bas de la page, mais bien petit et facilement ignorable), nous avons cette fois-ci multiplié les liens permettant de soumettre du nouveau contenu au DVLF. Comme on peut le voir dans la figure 11, on trouve désormais des boutons à différents endroits de l'interface, positionnés de manière à ne laisser aucun doute sur la nature communautaire du DVLF. On peut noter que nous proposons désormais à nos utilisateurs de contribuer aussi à notre base de synonymes/antonymes, qui est loin d'offrir des résultats pour tous les termes du lexique.

Grâce à cette mise à jour de l'interface du site, nous sommes revenus sur notre décision de ne pas inclure de données de collocations sur le site. Les écrans d’ordinateur devenus de plus en plus grands depuis la sortie du DVLF en 2011, il était maintenant envisageable d’inclure davantage de contenu sur le site sans pour autant risquer de surcharger nos pages d’entrée. Tirées directement d’une base de près de 7 000 textes littéraires allant du Moyen Âge à la fin du XXᵉ siècle, ces collocations, que nous avons placées immédiatement sous les synonymes/antonymes (voir figure 12), contextualisent les termes recherchés en montrant les mots les plus employés dans leur environnement immédiat.

Souhaitant par ailleurs mettre à profit les dernières avancées en matière de linguistique informatique et de traitement automatique du langage naturel, nous avons conduit une analyse approfondie – utilisant un algorithme de réseaux de neurones15 – de notre corpus français de 7 000 textes afin d'en dégager un ensemble de mots associés par leur contexte. Un des grands intérêts de cette approche est que nous pouvons obtenir des associations de deux termes liés par le contexte de leur utilisation sans que ces mots n'aient forcément été présents dans un même contexte au sein d'une même œuvre. Après avoir longuement évalué l'utilité de ces mots associés, nous avons conclu qu’ils offraient dans la majorité des cas une richesse supplémentaire aux données contextuelles du DVLF, et nous les avons donc inclus sur le site (voir figure 13).

Parmi les autres changements notables dans cette nouvelle version du Dictionnaire vivant de la langue française, l’infrastructure de recherche du site a été complètement réécrite, offrant désormais une plus grande stabilité et une performance bien supérieure avec un traitement des requêtes de 10 à 20 fois plus rapide. Lors de cette réécriture, nous en avons également profité pour grandement faciliter la capacité de notre base de données à intégrer de nouvelles ressources (qu'il s'agisse de dictionnaires, d'exemples d'usages, ou autre), et à créer une interface de programmation d'applications – ou API – facile d’accès et ouvrant la voie au développement aisé d’applications tierces utilisant nos ressources lexicographiques.

Les résultats de ce travail en profondeur sur le contenu et la couche logicielle du DVLF sont encore difficiles à évaluer (d’autant plus qu'un problème technique a empêché les utilisateurs de contribuer au contenu pendant plusieurs semaines). On a néanmoins constaté que nos visiteurs demeuraient bien plus longtemps sur le DVLF pour consulter nos ressources. Ainsi sommes-nous passés de 1,5 pages visionnées pour la première version du site à plus de 3 pages depuis la mise en ligne de cette nouvelle version. Tandis que 80% de nos utilisateurs ne restaient sur le site que le temps d’une consultation, la tendance s’est maintenant complètement renversée et 80% de nos visiteurs consultent désormais plus d’une page lors de leur visite. Nous avons aussi récemment remarqué l’apparition de définitions visiblement liées à l’actualité, peut-être une conséquence du renouvellement de l’interface qui invite plus à la contribution. Ainsi, nous notons qu’un utilisateur a ajouté le terme burkini le 5 décembre 2016 (voir figure 14), peu de temps après que le terme avait commencé à apparaître dans des articles de presse et des mèmes16 sur internet. Les mois qui viennent devraient nous en apprendre sur le succès de notre tentative d’encourager plus de contributions.

Finalement, à travers le lancement du DVLF 2.0, nous avons pris le parti de l’extensibilité, conscients que le Dictionnaire vivant de la langue française ne peut demeurer vivant que si nous le maintenons régulièrement à jour, enrichissant son contenu pour refléter l’évolution de la langue, et les premiers chiffres dont nous disposons aujourd’hui semblent indiquer que nous sommes sur la bonne voie. Dans le futur, nous avons pour projet d'intégrer de nouveaux dictionnaires issus des pays de la francophonie, et nous voudrions aussi développer un contenu multimédia, en incorporant par exemple un outil pour enregistrer et jouer les prononciations des utilisateurs. Nous espérons aussi collaborer avec d’autres groupes de chercheurs travaillant sur le même type de dictionnaire. Récemment, par exemple, nous avons partagé le code-source du DVLF avec des chercheurs du Colegio de México qui aimeraient créer une ressource semblable au DVLF, mais autour de la langue espagnole telle qu’elle existe au Mexique. Le travail que ces collègues vont entreprendre à partir de notre code et avec une nouvelle base d'utilisateurs nous sera d'un très grand intérêt pour le développement futur du DVLF.

Au fur et à mesure que cette expérience de compilation de dictionnaires et d’interactions avec nos visiteurs se poursuit, nous accueillons à bras ouverts tout commentaire ou suggestion de notre communauté d’utilisateurs, francophones et francophiles, étudiants et lexicographes. Les ressources proposées par le DVLF n’existent qu’à travers le travail ininterrompu de générations de lexicographes et nous attendons avec impatience le développement du dictionnaire avec un nouveau groupe d’experts, nos utilisateurs. En effet, développer une lexicographie communautaire pour la francophonie nécessite l’interaction constante entre un groupe diversifié d’utilisateurs. Si d’un point de vue technique, nous avons réussi avec le DVLF à développer un ensemble cohérent de ressources combinant dictionnaires traditionnels, technologies nouvelles de traitement de la langue et contributions extérieures, son succès demeure étroitement lié à son usage continuel, à l’engagement de nos utilisateurs. Somme toute, le DVLF demeurera vivant tant qu’il demeure un lieu où les utilisateurs peuvent intégrer leur propre usage de la langue.

Figures

Figure 1 : Page d’entrée du site bêta du DVLF
allen 1

Figure 2 : Bloc de définitions dans le site bêta du DVLF
allen 2

Figure 3 : Bloc d’exemples d’usages dans le site bêta du DVLF
allen 3

Figure 4 : Index alphabétique du site bêta du DVLF
allen 4

Figure 5. Colonne de ressources lexicographiques du site bêta du DVLF.
allen 5

Figure 6. Page de soumission d’utilisateurs
allen 6

Figure 7 : Exemples de soumissions d’utilisateurs
allen 7

Figure 8 : La nouvelle interface du DVLF 2.0
allen 8

Figure 9 : L'interface mobile du DVLF 2.0
allen 9

Figure 10 : Suggestions de termes à rechercher
allen 10

Figure 11 : Mise en avant des possibilités de contributions
allen 11

Figure 12 : Collocations du terme préfigurer
allen 12

Figure 13 : Mots associés à illusion
allen 13

Figure 14 : Définition de burkini d’un contributeur
allen 14

Références bibliographiques

 

HALLIDAY, Michael Alexander Kirkwood, « Some lexicogrammatical features of the Zero Population Growth text », in WEBSTER, Jonathan, Linguistic Studies of Text and Discourse, Londres, Continuum, 2002, p.197-227.

LEDEGEN, Gudrun, « En contrepoint : autres expériences, autres regards », in BAVOUX, Claudine (sous la direction de), Le français des dictionnaires. L’autre versant de la lexicographie française, Bruxelles, De Boeck Supérieur, 2008, p.269-276.

KLEIN, Wolfgang et GEYKEN, Alexander, « Das ‘’Digitale Wörterbuch der Deutschen Sprache DWDS“ », in Heid, Ulrich, et al., Lexicographica 26, 2010, p. 79–96.

1
The Project for American and French Research on the Treasury of the French Language, ou Projet ARTFL, est un laboratoire informatique créé au début des années 1980 en collaboration avec le Laboratoire ATILF (Analyse et Traitement Informatique de la Langue Française), le CNRS, et l'Université de Chicago. Son objectif est de promouvoir la recherche scientifique autour de la base de données numérique de Frantext, dont les œuvres ont servi de source pour la mise au point du Trésor de la langue française (http://atilf.atilf.fr/)

2
Wordnik s'appuie sur un grand nombre de ressources du web pour enrichir ses définitions de mots allant des exemples d'utilisations à partir d'un corpus croissant de phrases en anglais tirées de Twitter, à des photos Flickr, des prononciations audio, des outils d'analyse de corpus, ou encore des annotations générées par ses utilisateurs. Le site de Wordnik est disponible à l'adresse suivante : https://www.wordnik.com/

3
Le développement du DVLF a été initialement soutenu par une subvention de deux ans de la National Endowment for the Humanities (NEH), agence gouvernementale américaine qui finance de nombreux programmes liés aux sciences humaines aux États-Unis. (cf https://www.neh.gov/)

4
Plusieurs années après la sortie du DVLF, nous avons découvert un projet allemand qui avait également pour objet de mêler traitement automatique des langues et lexicographie traditionnelle. Ce projet, Digitales Wörterbuch der deutschen Sprache (DWDS), a été développé à la même époque que le DVLF, et offre des fonctionnalités semblables à celles que nous proposons sur notre site. Pour plus d'informations, voir l'article de Klein et Geyken en bibliographie.

5
On pourrait également citer l'initiative d'Oxford University Press en 2015 - « Oxford Global Language s» - qui se situe dans le même esprit que le DVLF. Les Living Dictionaries d'Oxford (https://ms.oxforddictionaries.com/, par exemple) permettent aux utilisateurs de contribuer au contenu et de classer les définitions soumises par d'autres utilisateurs. L'objectif est de fournir des ressources aux locuteurs de langues pour lesquelles il n'existe aucune ressource lexicographique de haute qualité sur Internet.

6
http://www.languefrancaise.net/Bob/.

7
http://www.lexique.org/public/corpatext.php

8
L'idée que ce mot pourrait être le thème de la phrase vient du domaine de la linguistique fonctionnelle (voir HALLIDAY, Michael Alexander Kirkwood, « Some lexicogrammatical features of the Zero Population Growth text », in WEBSTER, Jonathan, Linguistic Studies of Text and Discourse, Londres, Continuum, 2002, p.200).

9
http://www.crisco.unicaen.fr/cgi-bin/cherches.cgi

10
Pour ce faire, nous nous sommes appuyés sur les quelque 3 200 textes littéraires de la base de données d'ARTFL-Frantext: http://artfl-project.uchicago.edu/content/artfl-frantext

11
C'est un système d'authentification développé par Google qui sert à vérifier que l'utilisateur est une personne et non une machine. Ce système repose sur la reconnaissance de caractère sur des images : https://www.google.com/recaptcha/intro/

12
Google Analytics (https://www.google.com/intl/fr/analytics/) est un outil proposé gratuitement par Google et que l'on peut facilement ajouter à un site web afin de compiler un nombre impressionnant de statistiques sur les visiteurs : temps de visite sur le site, nombre de pages visionnées par session, provenance géographique des utilisateurs, etc.

13
http://terminotrad.com/TerminoParesse/Navigation.html

14
http://www.lexicool.com/french-dictionary-translation.asp

15
L'algorithme en question s'appelle Swivel et fait partie d'une vague nouvelle de techniques d'apprentissage automatique visant à analyser les relations entre les mots, tels que Word2Vec ou Glove (Noam Shazeer, Ryan Doherty, Colin Evans, Chris Waterson, Swivel: Improving Embeddings by Noticing What's Missing, https://arxiv.org/abs/1602.02215)

16
Néologisme que Wikipédia définit de la manière suivante : « Un mème (de l'anglais meme ; calqué sur gène, sans rapport et à ne pas confondre avec le français même) est un élément culturel reconnaissable, répliqué et transmis par l'imitation du comportement d'un individu par d'autres individus. L’Oxford English Dictionary définit le meme comme « un élément d'une culture (prise ici au sens de civilisation) pouvant être considéré comme transmis par des moyens non génétiques, en particulier par l'imitation » (https://fr.wikipedia.org/wiki/Mème). Pour son utilisation sur Internet, on peut consulter l’article du Monde « Le même, ou l’art du détournement humoristique sur Internet » (http://www.lemonde.fr/technologies/article/2012/05/01/le-meme-ou-l-art-du-detournement-humoristique-sur-internet_1693705_651865.html)

Per citare questo articolo:

Tim ALLEN, Charles COONEY, Clovis GLADSTONE, Le Dictionnaire vivant de la langue française, un dictionnaire communautaire, Repères DoRiF n. 14 - Dictionnaires, culture numérique et décentralisation de la norme dans l’espace francophone , DoRiF Università, Roma dcembre 2017, http://www.dorif.it/ezine/ezine_articles.php?id=384

Ritorna alla Barra di Navigazione