Micaela ROSSI, Cécile FRÉROT, Caroline DJAMBIAN, Giada D’IPPOLITO

 

Rôle et apport des verbes pour la construction et la modélisation de connaissances spécialisées du patrimoine scientifique et technique

 

 

Micaela Rossi
Università di Genova
micaela.rossi@unige.it

Cécile Frérot
Université Grenoble Alpes
cecile.frerot@univ-grenoble-alpes.fr

Caroline Djambian
Université Grenoble Alpes
caroline.djambian@univ-grenoble-alpes.fr

Giada D’Ippolito
Università di Genova
giada.dippolito@edu.unige.it


Résumé
Dans cette contribution, nous nous interrogeons sur l’importance des verbes présents dans un corpus spécialisé selon une approche onto-terminologique. Traditionnellement négligés dans les analyses terminologiques, les verbes jouent souvent un rôle fondamental dans la structuration des concepts d’un domaine. Leur nature de concepts relationnels peut en faire des vecteurs de relations génériques, ou bien de relations partitives, susceptibles de s’avérer précieuses dans l’élaboration d’ontologies formelles. Nous testerons cette hypothèse dans le domaine des TI, dans le cadre du projet ITinHeritage (DJAMBIAN, ROSSI, D’IPPOLITO 2023).

Abstract
In this contribution, we examine the importance of the verbs present in a specialised corpus using an onto-terminological approach. Traditionally neglected in terminological analyses, verbs often play a fundamental role in structuring the concepts of a domain. Their nature as relational concepts may make them vectors of generic relations, or partitive relations, which may prove valuable in the development of formal ontologies. We will test this hypothesis in the IT domain, as part of the ITinHeritage project (DJAMBIAN, ROSSI, D’IPPOLITO 2023).


Introduction

Les années 90 marquent un tournant dans l’histoire de la terminologie en lien avec de nouvelles orientations (FABER, L’HOMME 2022). Favorisée dans son essor par l’exploitation de grands corpus informatisés, la terminologie textuelle (BOURIGAULT, SLODZIAN 1999) a été une composante essentielle de ce renouveau, répondant à des besoins liés à des applications mettant en jeu des textes.

Le développement d’outils permettant l’extraction des verbes a contribué à questionner l’existence d’une terminologie verbale (BOURIGAULT, JACQUEMIN 2000) et à explorer son fonctionnement linguistique dans les textes spécialisés. Le récent article de Marie-Claude L’Homme (2022), et la réflexion que l’auteure propose (Can adjectives and verbs be terms ?) témoigne de la prégnance de cette question en terminologie qui traverse la discipline, empruntant différentes voies théoriques et portant sur divers domaines disciplinaires (e.g. CONDAMINES 1993 ; LERAT 2002 ; LORENTE 2002 ; TELLIER 2008 ; L’HOMME 2012 ; SANCHEZ-CARDENAS, FREROT 2021). La création ou l’enrichissement de ressources terminologiques sous-tend la réalisation de ces travaux.

Notre étude s’ancre dans une approche pluridisciplinaire en Humanités Numériques qui offre un cadre inexploré pour l’étude des verbes. C’est une rencontre entre terminologie, sciences de l’information et informatique dans le cadre du projet ITinHeritage (DJAMBIAN, ROSSI, D’IPPOLITO 2023), qui a présidé à sa réalisation. Le corpus est constitué des métadonnées provenant de différents musées européens, organisées en graphe de connaissances. Son contenu se démarque donc de l’objet habituellement exploré en terminologie textuelle. Nous avons extrait du corpus la part langagière constituée de descriptions textuelles[1] qui portent sur des objets matériels (machines).

Nous cherchons à appréhender dans quelle mesure le lexique verbal contribue à l’émergence de relations conceptuelles dans le domaine. En tant que lexèmes relationnels, les verbes sont davantage susceptibles que les substantifs de révéler les structures notionnelles existant au sein d’un domaine. Sur le plan méthodologique, nous explorons premièrement le corpus avec la plateforme Sketch Engine (KILGARRIFF et al. 2014). Nous dégageons un ensemble de lemmes verbaux dont on fait l’hypothèse qu’ils contribuent à l’organisation conceptuelle (exemple : intégrer, présenter, contenir, disposer, comporter, composer)[2]. Nous observons le fonctionnement des verbes notamment avec la fonctionnalité Word Sketch et identifions des patrons lexico-syntaxiques mettant en jeu une relation conceptuelle donnée, qui pourront servir d’amorce à la construction d’un dictionnaire et d’une ontologie du domaine.

1. Description du contexte : le projet ITinHeritage

L’UNESCO définit les Technologies de l’Information (TI) comme « l’ensemble d’outils et de ressources technologiques permettant de transmettre, enregistrer, créer, partager ou échanger des informations, […] » (UNESCO 2023). On ne compte plus à ce jour les objets informatisés et l’évolution trop rapide et massive des TI n’a pas laissé le temps à l’étude. Se pencher sur ce patrimoine est un enjeu crucial de compréhension du monde actuel et de son évolution sociétale depuis la deuxième moitié du XXe siècle. Notre approche résolument patrimoniale, interdisciplinaire et intersectorielle, part des espaces muséaux des TI. Le London Science Museum (Royaume-Uni), le Conservatoire pour l’Informatique et la Télématique (ACONIT) (France), le NAM-IP (Belgique), le Museo del calcolo (Italie), le Homecomputermuseum (Pays-Bas) et le le Heinz Nixdorf MuseumsForum (HNF) (Allemagne) participent activement à notre réseau en expansion. Le projet de recherche ITinHeritage vise à mener une réflexion épistémologique sur la question des TI en mettant au cœur de la question du patrimoine l’histoire d’une mutation sociétale et l’émergence de nouveaux savoirs en termes de représentations du monde.

Il s’agit, premièrement, de définir ce patrimoine complexe à circonscrire. Pour ce faire, il nous faut le questionner à travers ses savoirs cristallisés sous diverses formes, ce champ n’ayant jamais été exploré. Les expressions de ce savoir sont d’abord explicites, par l’objet physique, qui est caractéristique des patrimoines scientifiques et techniques contemporains auxquels nos études pourront s’étendre et que la dimension technologique forte rend peu lisibles et saisissables par le non-initié. Cet objet physique tend à une immatérialisation croissante : l’artefact et sa documentation numérisés, les logiciels (1/3 de certaines collections) et les données sont autant d’objets immatériels qui forment les nouvelles collections de la science. Toutefois, l’expression des savoirs de ce patrimoine est aussi tacite. C’est le langage de spécialité qui l’exprime et nous pouvons l’étudier grâce aux experts du domaine et aux traces qu’ils ont formalisées. Or, l’étude des diversités linguistiques nous permettra de construire une dialectique entre science et public, deux sphères qui peinent pour l’instant à se rencontrer, et d’étudier l’évolution conjointe langue-technologie (DJAMBIAN, ROSSI, D’IPPOLITO 2023).  Le travail vise la construction d’une onto-terminologie du patrimoine des TI, est réalisé premièrement sur Protégé, puis dans un deuxième temps, sur l’éditeur TEDI (ontoTerminology editor), plus accompli que Protégé pour la création d’onto-terminologies sur la base du principe de différenciation spécifique (logique aristotélicienne) et selon les normes ISO 704 et 1087 (ROCHE 2019).

Car s’intéresser à la façon dont les experts nomment leur domaine, c’est s’intéresser à la façon dont ils le conceptualisent. Seul le langage assure le transfert des concepts, soit les savoirs consensuels. C’est pourquoi, sur la base d’un travail d’extraction lexicale, nous modélisons les savoirs du patrimoine des TI par une ontologie reflétant la conceptualisation du monde des TI. Basée sur les méta-ontologies CIDOC-CRM et l’Europeana Data Model, l’ontologie ITinHeritage intègre OWLTime pour être diachronique et représenter les évolutions technologiques. Outre sa vocation à modéliser formellement les connaissances du patrimoine des TI pour mieux les transmettre, elle structure également un graphe de connaissances (knowledge graph), creuset du patrimoine des TI, qui recueille l’ensemble des métadonnées décrivant les collections des musées. Initialement fournies dans des formats très hétérogènes et structurées selon des visions du domaine divergentes, ces données ont dû être harmonisées. Pour ce faire, nous les avons adaptées aux recommandations de l’Europeana Data Model (EDM) en ne conservant que les sept classes cœur, et aux principes FAIR (Findable, Accessible, Interoperable, Reusable). L’objectif était de structurer ces données de façon cohérente et de les préparer à une diffusion large, pour les rendre accessibles sur le web et réutilisables, notamment dans le cadre de travaux scientifiques (science ouverte).  Ces données ont été converties au format CSV (Comma-Separated Values) présentant les données tabulaires en format texte ouvert, séparées par des virgules. Il est à l’heure actuelle, le format le plus utilisé pour publier des métadonnées sur le web des données, c’est-à-dire pour les ouvrir. Puis, nous les avons converties dans le langage RDF (qui est un modèle de graphe basé sur le triplet « sujet – prédicat – objet », relativement à la logique de description qui régit la construction d’ontologies, et permettant de décrire formellement des ressources web et des métadonnées selon les paradigmes du web sémantique (Linked Open Data (LOD)). Les données ont enfin été synchronisées avec les musées pour que chaque nouvelle entrée dans leur collection soit répercutée dans notre système. Le graphe de connaissances, qui compte à ce jour plus de 25500 artefacts, pérennise ainsi le patrimoine des TI et le rend accessible au plus grand nombre en ouvrant et liant sémantiquement les données sur le web. L’accès aux connaissances est rendu possible par une plateforme web conçue dans une approche Interface-Homme-Machine (IHM), permettant de découvrir les artefacts par navigation dans les concepts de l’ontologie et par interrogation en langage naturel.

2. Le corpus d’étude et la place du verbe

Nous avons choisi de limiter notre matériau d’étude aux métadonnées provenant de l’un des musées contributeur au projet, couvrant environ 13 000 artefacts en langue française. Ce corpus comprend un ensemble de champs, tels que fournis par le musée, structurant les données : domain, title (nom des objets), constructor, model, description, key words, dimension, material, place, use, etc. Afin d’être exploitables par des outils d’extraction lexicale, les données ont été converties sous Excel depuis le format CSV, qui fournit déjà les données en tableur au format texte. Le contenu des champs présente un caractère atypique et hétérogène, qui le démarque de l’objet textuel habituellement exploré en terminologie textuelle, ou plus largement en terminologie basée sur corpus. Etant donné la perspective textuelle que nous adoptons dans cet article, nous avons sélectionné le contenu des champs qui concentrent la plus importante composante textuelle, à savoir les champs Description et Use illustrés respectivement par les extraits (1) et (2) qui portent sur des objets matériels, notamment des machines, et sur leurs modalités de fonctionnement :

(1) L’appareil est contenu dans un coffret métallique de type industriel. On trouve à l’arrière le bloc alimentation et les connecteurs permettant un ensemble de liaisons standards (ordinateur, HP-IB…). A côté des emplacements libres permettent d’insérer différents types de cartes d’acquisition de données (conversion analogue-digital…). En face avant, un ensemble de boutons permettent de sélectionner les interfaces et les fonctions utilisées.
(2) Ce calculateur ne comporte pas de logiciel, seulement une programmation très succincte sur des tableaux de connexion reliés à la tabulatrice, dans lesquels on enfonce des “fiches banane” pour connecter tel ou tel circuit logique. Une petite mémoire de travail à lignes à retard est connectée à la tabulatrice et permet d’injecter des résultats en cours d’opération.

Comme le montrent les données du Tableau 1 ci-dessous, la taille des corpus (dorénavant corpus Description et corpus Use) est à ce stade relativement limitée, mais elle offre déjà un matériau d’exploration qui pourra être complété par la suite.

En première intention, nous avons utilisé un outil d’extraction automatique de terminologie (TermoStat)[3], que nous avons par la suite écarté de notre étude, car il ne correspondait pas à notre besoin d’observer les verbes en tant que chaîne de caractères, sans a priori sur leur statut terminologique. En effet, un outil ou un logiciel d’extraction automatique de terminologie produit une liste de candidats termes, qui correspondent à des mots ou à des suites de mots susceptibles de constituer des unités terminologiques. Les candidats termes de nature nominale prédominent dans les résultats produits et bien que TermoStat puisse également extraire des candidats termes de nature verbale, nous souhaitions pouvoir accéder à l’ensemble des verbes du corpus. In fine, notre besoin se situait davantage dans les fonctionnalités offertes par un concordancier.  Nous nous sommes alors orientés vers ce type d’outil, largement éprouvé en terminologie basée sur corpus. Nous avons privilégié la plateforme d’exploitation de corpus Sketch Engine[4] (KILGARRIFF et al. 2014). Nous nous sommes tout d’abord intéressées à la répartition des catégories grammaticales verbe, nom et adjectif dans les corpus Description et Use. Les résultats produits par Sketch Engine permettent d’observer le nombre de lemmes et la fréquence totale pour chaque catégorie comme l’illustrent les données du Tableau 2 ci-dessous.

Si le nombre de lemmes fait la part belle aux noms dans les corpus Description et Use, la fréquence totale met au jour une proportion de verbes non négligeable. En effet, tout en étant nettement inférieure à la catégorie nominale, la catégorie verbale représente respectivement plus de 21% et de 26% de l’ensemble des occurrences dans chaque corpus. Par ailleurs, si le nombre de lemmes adjectivaux avoisine celui des lemmes verbaux, la proportion de verbes[5] est nettement supérieure à celle des adjectifs (26,2% vs. 12,9% dans le corpus Use). A l’issue de cette exploration préliminaire en corpus, ces premières données nous semblent légitimer l’étude du verbe[6] dans une perspective d’analyse terminologique.

3. Les verbes dans notre corpus d’étude : réflexions pour une première typologie

Comme il ressort des pages précédentes, une première exploration de notre corpus semble justifier pleinement de s’intéresser aux unités verbales dans l’étude terminologique. Comme l’affirme L’Homme, cette prise en compte s’impose étant donnée la nature même du domaine qui fait l’objet de notre analyse : « In some domains, such as computing where activity concepts are prevalent, it would be odd to overlook verbs » (L’HOMME, 2022 : 248).

Comment catégoriser et classifier les unités verbales contenues dans notre corpus ?

Bien que le rôle des verbes soit amplement sous-estimé dans les recherches en terminologie, les critères d’identification et de classification des verbes dans les discours experts ont déjà fait l’objet d’études : L’Homme cite à ce propos Condamines (1993) qui identifie les verbes spécifiques à un domaine donné, et les verbes qui acquièrent un sens spécifique dans un domaine donné.

Lerat (2002) ajoute à cette typologie la catégorie des verbes support, une catégorie qui, comme nous le verrons, s’avère productive dans le corpus d’ITinHeritage.

Lorente (2002) distingue enfin quatre catégories verbales :

  1. Verbes qui constituent des termes ;
  2. Verbes que l’auteure qualifie de « phraséologiques » (et qui correspondent aux verbes support) ;
  3. Verbes qui ont la fonction d’organisateurs du discours ;
  4. Verbes « connecteurs » qui ont la fonction d’exprimer des relations entre concepts.

Cette dernière typologie est particulièrement intéressante dans le cadre de notre étude.

Nous espérons, par l’analyse des verbes dans notre corpus, pouvoir tester une méthodologie d’analyse conciliant une approche sémasiologique (axée sur l’étude du comportement du lexique dans les textes) et une approche onomasiologique, visant la représentation des connaissances expertes contenues dans le corpus par le biais d’une ontologie formelle.

Une première analyse de notre corpus, élaborée à l’aide de la plateforme Sketch Engine, permet de confirmer (du moins partiellement) la richesse de la typologie verbale esquissée par Lorente (2002). Les corpus Description et Use révèlent la présence de trois catégories verbales :

  1. Les verbes que l’on pourrait qualifier « d’appartenance exclusive » au domaine de l’informatique[7], et qui véhiculent des concepts propres à ce domaine : nous citerons entre autres les verbes perforer, s’enficher, enficher ;
  2. Les verbes support ou « phraséologiques » selon Lorente (2002), qui ne constituent pas des termes à part entière, mais qui pourraient être qualifiés, comme l’affirme Prandi (2024), de « technicismes collatéraux » (SERIANNI 1985), à savoir des marqueurs lexicaux qui indiquent l’appartenance d’un texte ou discours à un domaine d’activité précis, sans pour autant désigner des concepts d’appartenance exclusive à ce domaine. C’est le cas par exemple des verbes réaliser (un diagnostic) ou effectuer (un câblage) dans notre corpus ;
  3. Les verbes que Lorente définit comme « connecteurs », à savoir des verbes de la langue générale susceptibles de signaler des relations conceptuelles dans le corpus. Cette dernière catégorie est tout particulièrement intéressante aux fins de notre travail de systématisation des connaissances du domaine, en ce qu’elle rassemble des verbes normalement exclus de l’analyse terminologique, appartenant à la langue générale, mais qui ont la fonction de verbaliser des relations conceptuelles dans le domaine. C’est le cas par exemple des verbes inclure ou comprendre.

La distribution de ces trois catégories dans les deux corpus Description et Use n’est pas homogène, ce qui est tout à fait prévisible si l’on compare les deux typologies textuelles, Description étant orientée vers la définition des objets et des artefacts qui forment une partie du patrimoine des musées, alors que Use a l’objectif d’offrir une contextualisation historique et de décrire les usages faits de ces machines. Cette différence ressort de premiers résultats de l’extraction verbale – nous reproduisons ci-dessous les 50 verbes les plus fréquents dans les deux corpus, extraits à l’aide de Sketch Engine :

Lemme verbal Fréquence (occurrences) Fréquence relative
Etre 3034 21952,10
Avoir 687 4970,69
Permettre 395 2857,96
Intégrer 245 1772,66
Présenter 233 1685,84
Pouvoir 228 1649,66
Contenir 207 1497,72
Trouver 204 1476,01
Comporter 171 1237,24
Disposer 170 1230,01
Utiliser 163 1179,36
Composer 156 1128,71
Faire 154 1114,24
Posséder 136 984,00
Donner 132 955,06
Comprendre 124 897,18
Voir 106 766,94
Equiper 96 694,59
Porter 94 680,12
Situer 90 651,18
Prendre 89 643,94
Connecter 87 629,47
Placer 86 622,24
Sortir 78 564,35
Constituer 77 557,12
Imprimer 77 557,12
Fabriquer 76 549,88
Destiner 76 549,88
Perforer 76 549,88
Munir 73 528,18
Former 72 520,94
Ecrire 67 484,76
Doter 67 484,76
Concevoir 65 470,29
Agir 65 470,29
Appeler 65 470,29
Recevoir 63 455,82
Développer 57 412,41
Produire 55 397,94
Brancher 54 390,70
Fonctionner 52 376,23
Fournir 51 369,00
Partir 50 361,76
Proposer 49 354,53
Servir 49 354,53
Computer 47 340,06
Assurer 47 340,06
Afficher 45 325,59
Dater 45 325,59
Enregistrer 44 318,35

Tableau 3 – Verbes dans le corpus Description

 

Lemme verbal Fréquence (occurrences) Fréquence relative
Etre 2957 23738,03
Avoir 1199 9625,26
Utiliser 658 5282,25
Permettre 570 4575,81
Pouvoir 340 2729,43
Faire 251 2014,96
Donner 236 1894,54
Servir 176 1412,88
Destiner 149 1196,13
Partir 128 1027,55
Voir 128 1027,55
Développer 106 850,94
Intégrer 104 834,88
Mettre 102 818,82
Perforer 101 810,80
Réaliser 96 770,66
Fournir 89 714,46
Connecter 89 714,46
Devoir 85 682,35
Concevoir 82 658,27
Fonctionner 78 626,16
Disposer 70 561,94
Equiper 70 561,94
Effectuer 69 553,91
Créer 68 545,88
Agir 68 545,88
Devenir 66 529,83
Connaître 65 521,80
Proposer 63 505,74
Fabriquer 61 489,69
Contenir 61 489,69
Prendre 60 481,66
Ecrire 55 441,52
Vendre 55 441,52
Remplacer 53 425,47
Constituer 51 409,41
Appartenir 50 401,38
Afficher 50 401,38
Présenter 48 385,33
Installer 44 353,22
Offrir 44 353,22
Trouver 44 353,22
Décrire 43 345,19
Indiquer 43 345,19
Comprendre 43 345,19
Assurer 42 337,16
Sortir 42 337,16
Doter 42 337,16
Aller 42 337,16
Imprimer 41 329,13

Tableau 4 – Verbes dans le corpus Use

La distribution d’un échantillon des verbes que nous avons retenus comme les plus pertinents aux fins de notre analyse, organisés dans les trois catégories que nous avons identifiées, est explicitée dans les tableaux ci-dessous[8] :

 

Lemme verbal Description
(fréq. occ.)
Use
(fréq. occ.)
Brancher 54 37
Enregistrer 44 24
Imprimer 77 41
Installer 25 44
Lancer 11 38
Perforer 76 101
Programmer 21 37
Stocker 20 31
Enficher/s’enficher 16  ∅

Tableau 5 – Verbes d’appartenance exclusive

 

Lemme verbal Description (fréq. occ.) Use (fréq. occ.)
Réaliser 42 96
Effectuer 39 69

Tableau 6 – Verbes support

 

Lemme verbal Description
(fréq. occ.)
Use
(fréq. occ.)
Intégrer 245 104
Présenter 233 48
Contenir 207 61
Comporter 171 22
Composer 156 27
Posséder 136 38
Comprendre 124 43

Tableau 7 – Verbes “connecteurs”

La fréquence élevée des verbes « connecteurs » dans le corpus Description est à notre avis un indice intéressant pour l’analyse linguistique dans une perspective terminologique. Notre hypothèse est en effet que des verbes comme intégrer, présenter, contenir, comprendre, appartenir, qui ne seraient pas pris en compte en tant que termes à part entière, peuvent s’avérer utiles afin d’identifier les relations entre concepts[9], et par conséquent, dans une étude des réseaux sémantiques sous-jacents aux réseaux conceptuels, au sein du domaine, notamment en vue d’une automatisation de l’extraction de ces relations (par exemple : par des LLMs (Large Language Models). Dans notre étude, cette catégorie verbale semble être liée à l’expression de la relation générique ou bien de la relation partitive, deux relations que l’on retrouve plus particulièrement dans la description des artefacts du patrimoine et qui occupent une place importante dans la construction d’onto-terminologies.

Citons l’exemple du verbe appartenir, qui pourrait exprimer une relation générique. Ce verbe totalise 50 occurrences dans le corpus Use ; une analyse ultérieure de ce verbe[10] met en évidence son association avec des termes comme lignée et famille. Le score de spécificité calculé par TermoStat suggère une relation intéressante entre le terme inclusif et celui qui est inclus[11]. La fonction Concordance de Sketch Engine permet de vérifier que le verbe appartenir pourrait être utilisé pour décrire une relation hyperonymique/hyponymique, comme il ressort de ces exemples :

Le micro-ordinateur MO5 NR appartient à la lignée des télés-ordinateurs
Il appartient à la famille des minis-ordinateurs
Il appartient à la lignée des ordinateurs individuels que le constructeur britannique Sinclair cherche à rendre accessible pour un usage domestique

Analysons le premier exemple : le micro-ordinateur MO5 NR appartient à la catégorie plus large de la lignée des télés-ordinateurs. Télé-ordinateur pourrait à son tour être classifié comme un hyperonyme de micro-ordinateur, le micro-ordinateur étant un type de télé-ordinateur, qui est une catégorie plus large.

Il s’avère alors intéressant d’analyser dans le détail le profil combinatoire de ces verbes dans le corpus, afin de mieux décrire leur potentiel comme marqueurs de configuration de relations partitives ou génériques, qui peuvent soutenir la hiérarchisation des concepts au sein de l’onto-terminologie du patrimoine des TI Notre démarche de va-et-vient entre analyse des corpus et formalisation de l’ontologie (DJAMBIAN, ROSSI, D’IPPOLITO 2023) nous permet de concilier une méthodologie d’analyse sémasiologique, fondée sur les données textuelles, avec une approche onomasiologique, visant la constitution d’une ontologie formelle[12].

4. Etude de cas : présenter, intégrer, contenir

Le classement des lemmes verbaux par fréquence d’occurrences proposé dans le tableau 3 (voir ci-dessus partie 3) montre la présence des trois verbes « connecteurs » intégrer, présenter et contenir dans le haut du tableau, occupant respectivement les rangs 4, 5 et 7 dans le corpus Description. Nous faisons l’hypothèse que ces verbes de la langue générale contribuent à l’organisation conceptuelle, en particulier pour la relation partitive. Dans ce contexte, nous cherchons à caractériser le profil lexico-syntaxique de ces verbes et à identifier la (ou les) relation(s) conceptuelle(s) à l’œuvre dans le corpus. Notre étude de cas porte sur le corpus Description qui contient pour les trois verbes une fréquence d’occurrences plus élevée que dans le corpus Use.

Notre démarche outillée à partir de corpus s’appuie notamment sur la fonctionnalité Word Sketch proposée dans Sketch Engine. Cette fonctionnalité offre une représentation synthétique du comportement grammatical d’un mot et de ses cooccurrents en identifiant des relations grammaticales, que nous illustrons dans la Figure 2 ci-dessous avec la relation grammaticale « sujet » du lemme contenir.

Notre analyse combine les résultats de l’analyse automatique issue de Word Sketch à une analyse manuelle via un retour au corpus et l’utilisation de la fonctionnalité Concordance pour explorer les occurrences en contexte que nous cherchons à quantifier.

Nous illustrons notre démarche à travers une analyse du lemme présenter puis des lemmes contenir et intégrer dans le corpus Description.

4.1. Présenter

La fréquence d’occurrences du lemme présenter dans Sketch Engine est égale à 233. Un retour au corpus associé à une analyse manuelle nous permet d’identifier qu’une grande partie des occurrences correspond au verbe pronominal se présenter (123 occ., soit 52,7%). Une analyse de ces occurrences fait émerger un ensemble de patrons lexico-syntaxiques dont le détail figure dans le Tableau 8 ci-dessous.

Le corpus révèle que le verbe se présenter est fortement associé au groupe prépositionnel sous la forme de. Des restrictions lexico-syntaxiques se manifestent ainsi nettement à travers le patron (1) X se présenter sous Ø, {la, une} forme (de) Y qui représente par ailleurs 88,6% (109 occ.) de l’ensemble des occurrences du verbe se présenter (123 occ.). Les restrictions lexicales concernent l’objet Y instancié notamment dans le corpus par boîtier, bloc, rectangle, armoire, tablette, machine ou coffret comme dans l’exemple La Freebox V2 se présente sous la forme d’un coffret métallique rectangulaire noir. Notons ici que la très faible fréquence des patrons (2)[13] X se présenter comme {la, un(e)} Y et (3) X se présenter sous l’aspect de Y, dont on peut pourtant faire l’hypothèse d’une équivalence sémantique avec le patron (1), vient renforcer la présence de patrons lexico-syntaxiques propres au domaine d’étude.

En ce qui concerne les relations conceptuelles, les patrons (1) à (3) nous semblent porteurs d’une relation générique dans notre corpus d’étude, ce qui a été mis au jour dans d’autres domaines spécialisés, notamment dans le domaine de la volcanologie (LEFEUVRE 2017). Les patrons (4) à (6) font quant à eux émerger une relation spatiale comme dans l’exemple : « L’imprimante Hewlett-Packard Deskjet 610C se présente sous capot plastique » dans lequel la préposition sous introduit cette relation (on notera ici l’absence d’article défini ou indéfini). La spatialité est également présente avec la préposition dans comme l’illustre l’exemple : « Elle se présente dans un coffret plat de protection en double coque métallique épaisse ».

 

Si l’on s’intéresse à présent au verbe présenter, on observe que ce dernier entretient notamment une relation grammaticale mettant en jeu un objet direct (38 occ.). C’est sur ces occurrences que nous portons notre attention. Notre analyse met au jour le patron lexico-syntaxique X présenter Det Y dans lequel l’objet direct Y est instancié par le lexique spécialisé bus de communication, imprimante, configuration, clavier, prise de branchement, ou bien décrochement. Ce patron est porteur d’une relation méronymique comme dans les exemples suivants, où le verbe présenter est synonyme de comporter :

La face arrière présente, comme traditionnellement pour ce type d’appareils, la prise de branchement du cordon d’alimentation, l’interrupteur secteur à bascule, la bouche d’aération d’un petit ventilateur (à gauche), plus une importante quantité de connecteurs
À l’extrémité extérieure, la carte présente 2 prises standard USB 2.0 et une micro-sortie audio

En revanche, lorsque Y est instancié par des noms tels que design, modèle ou forme, la relation partitive n’est pas identifiée comme l’illustre l’exemple « Apple présente ce nouvel ordinateur comme une amélioration importante » : présenter est ici synonyme de afficher ou proposer. Notre analyse montre ainsi que des contraintes lexicales orientent la relation entretenue entre un verbe et ses arguments (relation objet dans notre étude).

4.2. Intégrer et contenir

Nous nous focalisons sur la relation grammaticale objet obtenue avec le Word Sketch pour le verbe intégrer. Un retour au corpus montre qu’il s’agit plus particulièrement du participe passé intégré (115 occ.), utilisé pour former un ensemble de termes à vocation nominale. Nous listons ci-dessous l’ensemble de ces termes assortis de la fréquence d’occurrences :

circuit ~ (41), circuit ~ Sharp LI2002 4L (2), clavier ~ (22), lecteur ~ (4), lecteur de disquettes ~ (10), lecteur de cassette ~ (6), écran ~ (6), unité ~ (2), haut-parleur ~ (3), imprimante ~ (3), annuleur d’écho numérique ~ (2), poignée ~ (2), écran à tube cathodique ~ (1), microprocesseur ~ (1), commande ~ (2), port de connexion directement ~ (2), pavé tactile ~ (2), lecteur de cartouches ~ (2), disque dur ~ (2)

 Le verbe intégrer est également utilisé à la voix active dans le patron X intégrer Det Y, l’objet Y étant instancié par le lexique[14] spécialisé suivant (fréquence d’occurrences indiqué entre parenthèses) :

clavier (6), lecteur (3), processeur (6), unité centrale, de commande (3), port (3), calcul (2), logement (2), microprocesseur (1), alimentation électrique (2)

Nous illustrons ci-dessous l’emploi de ce patron dans le corpus Description :

Le PowerBook 540c intégrait un processeur à 33 MHz
Il est monté de série pour les unités centrales des TO7 et TO9, qui intègrent un logement de rangement avec trappe
Le pied intègre l’alimentation électrique et la série de cartes logiques composant l’unité centrale

Ces extraits du corpus font émerger la relation partitive qu’introduit le verbe intégrer, ce que l’analyse du verbe contenir permet également de mettre au jour. L’analyse de l’ensemble des occurrences en contexte (209[15]) permet d’identifier deux patrons : X contenir Det Y et Y (être) contenu dans X.

Le patron X contenir Det Y est le plus fréquent avec 82,7% de l’ensemble des occurrences du verbe contenir. Dans ce patron, le verbe est utilisé à la voix active avec des formes verbales à l’indicatif (107 occ.), au participe présent (58 occ.) ou à l’infinitif (8 occ.) comme l’illustrent successivement les exemples suivants :

Ce boîtier contient une carte électronique sur circuit imprimé epoxy dont une partie, dotée de contacts dorés
Tiroir contenant deux lecteurs de disquettes 8 pouces
Cette machine a la particularité de ne contenir aucune interface de communication classique

Le patron Y (être) contenu dans X permet quant à lui de préciser la localisation de l’objet, comme l’illustre l’exemple : « Ce disque dur est contenu dans une cartouche noire ». Les deux patrons identifiés permettent de caractériser le profil lexico-syntaxique du verbe à l’étude et de dégager une relation partitive.

 

L’outil d’exploration de corpus Sketch Engine que nous avons utilisé pour observer le fonctionnement des verbes dans notre corpus d’étude nous a permis, grâce à la fonctionnalité Word Sketch, d’identifier un ensemble de patrons lexico-grammaticaux pour les verbes testés. Cette mise au jour de patrons doit à présent s’accompagner d’une élaboration de requêtes dans Sketch Engine suivie d’une « projection » de ces requêtes dans un corpus enrichi. Dans le prolongement de cette première étude, nous envisagerons de poursuivre notre analyse avec d’autres verbes que nous avons identifiés dans le corpus comme contribuant à l’organisation conceptuelle à l’instar de trouver, comporter, composer ou comprendre. Par ailleurs, dans la perspective onto-terminologique vers laquelle nous tendons, cette exploration linguistique appelle à mener des réflexions sur les problématiques liées à l’automatisation à mettre en œuvre dans le cadre de la création d’une ontologie.

Conclusions et perspectives

En 2022, L’Homme se demandait si les études en terminologie pourraient bénéficier simultanément d’une approche axée sur la sémantique lexicale et d’une approche axée sur la formalisation des connaissances expertes :

Given the differences between the assumption of lexical-based and knowledge-based approaches and the principle on which they rely, the question is whether they can be used simultaneously in terminology work (L’HOMME 2022 : 259)​

Le projet décrit dans les pages précédentes nous semble constituer une tentative de réponse à ce questionnement, en ce qu’il se base sur une méthodologie hybride, qui cherche à concilier une approche sémasiologique, orientée vers l’analyse des corpus issus du patrimoine muséal, et une approche onomasiologique, orientée vers la structuration des connaissances expertes sous forme d’ontologie.

La rencontre de ces deux approches est difficile et parfois très délicate, mais elles nous semblent toutes les deux incontournables pour une étude fine et exhaustive du patrimoine de connaissances et de termes propres au domaine IT : s’il est fondamental de pouvoir retracer et mutualiser, grâce aux technologies dont nous disposons, les concepts qui forment la charpente des connaissances expertes dans ce domaine aussi riche et changeant, il est aussi impossible de procéder à une étude des connaissances sans analyser la construction des concepts en discours, dans l’usage des experts, à travers et dans les textes.

Notre étude exploratoire révèle enfin la nécessité d’intégrer à long terme les corpus collectés des musées avec d’autres sources textuelles et discursives, et elle pose un problème fondamental pour les chercheurs qui décident de travailler sur des projets fortement interdisciplinaires, à savoir le choix des outils techniques les plus appropriés pour les différents genres d’analyse : entre concordanciers, plateformes d’analyse et d’extraction en ligne, applications pour la construction d’ontologies, la terminologie a désormais à sa disposition un large éventail d’outils. Au-delà de l’enthousiasme éphémère qui accompagne toujours les avancées technologiques, la réflexion théorique s’impose, afin de définir les supports qui peuvent s’avérer les plus performants dans la description des concepts et des termes dans un domaine donné.

 

Bibliographie

BOURIGAULT, Didier, SLODZIAN, Monique, « Pour une terminologie textuelle », Terminologies nouvelles, n. 19, 1999, p. 29-32.​

BOURIGAULT, Didier, JACQUEMIN, Christian, « Construction de ressources terminologiques », in PIERREL, Jean-Marie (éd.), Ingénierie des langues, Hermès, Paris, 2000, p. 215-233.​

CONDAMINES, Anne, « Un exemple d’utilisation de connaissances de sémantique lexicale : acquisition semi-automatique d’un vocabulaire de spécialité », Cahiers de lexicologie, n. 62(1), 1993, p. 25-65.

CORNU, Gérard, Linguistique juridique, Montchrestien, Paris, 2000.

DJAMBIAN, Caroline, ROSSI, Micaela, D’IPPOLITO, Giada, « La médiation des objets aux savoirs scientifiques et techniques, terminologie et représentation ontologique du patrimoine des Technologies de l’Information : le projet de recherche ITinHeritage », Actes de la conference TOTh, Chambéry, 2023.​

FABER, Pamela, L’HOMME, Marie-Claude (éds.), Theoretical Perspectives on Terminology: Explaining terms, concepts and specialized knowledge, John Benjamins, Amsterdam/Philadelphia, 2022.​

LERAT, Pierre, « Qu’est-ce qu’un verbe spécialisé ? Le cas du droit », Cahiers de lexicologie, n. 80(1), 2002, p. 201-211.​

L’HOMME, Marie-Claude, « Le verbe terminologique : un portrait de travaux récents », in NEVEU, Franck. et al. (éds.), Actes du 3e Congrès mondial de linguistique française, Lyon, France, EDP Sciences, 2012.​

L’HOMME, Marie-Claude, « Terminology and Lexical Semantics », in FABER, Pamela, L’HOMME, Marie-Claude (éds.), Theoretical Perspectives on Terminology: Explaining terms, concepts and specialized knowledge, John Benjamins, Amsterdam/Philadelphia, 2022, p. 237-259.​

KILGARRIFF, Adam, BAISA, Vít, BUŠTA, Jan, JAKUBÍČEK, Miloš, KOVÁŘ, Vojtěch, MICHELFEIT, Jan, RYCHLÝ, Pavel, SUCHOMEL, Vít, « The Sketch Engine: ten years on », Lexicography, n. 1, 2014, 7-36.​

LEFEUVRE, Luce, Analyse des marqueurs de relations conceptuelles en corpus spécialisé : recensement, évaluation et caractérisation en fonction du domaine et du genre textuel, Thèse de Doctorat, Université Toulouse 2, 2017.

LORENTE, Mercé, « Verbos y discurso especializado », Estudios de Lingüística del Español (ELiEs), n. 16, 2002. http://elies.rediris.es/elies16/Lorente.html.

PRANDI, Michele, “Lessico e terminologie di specialità: dalla polisemia ai tecnicismi collaterali”, seminario per il ciclo La lingua dello studio: il lessico, GISCEL Veneto 2024.  https://www.insegnandoitaliano.it/2024/06/10/lessico-e-terminologie-di-specialita-dalla-polisemia-ai-tecnicismi-collaterali/ (cons. le 07/08/2024).

ROCHE, Christophe, PAPADOPOULOU, Maria, « Mind the Gap: Ontology Authoring for Humanists », in Proceedings of JOWO – Joint Ontology Workshops, Graz, 2019. https://ceurws.org/Vol-2518/.

SÁNCHEZ-CÁRDENAS, Beatriz, FRÉROT, Cécile, « Vers un modèle d’analyse des verbes semi-spécialisés. Le cas de traiter/treat dans les domaines médical et environnemental », in FRÉROT, Cécile, PECMAN, Mojca (éds.), Des corpus numériques à l’analyse linguistique en langues de spécialité, UGA Éditions, Grenoble, 2021.​

SERIANNI, Luca, « Lingua medica e lessicografia specializzata nel primo Ottocento », in La Crusca nella tradizione letteraria e linguistica italiana. Atti del Congresso Internazionale per il IV centenario dell’Accademia della Crusca (Firenze, 29 settembre-2 ottobre 1984), Accademia della Crusca, Firenze, 1985, p. 255-287.

TELLIER, Charlotte, Verbes spécialisés en corpus médical : une méthode de description pour la rédaction d’articles terminologiques, Thèse de doctorat, Université de Montréal, 2008.​

UNESCO, « Technologies de l’Information et de la Communication (TIC) », Glossaire, 2023.


[1] Exemple : « L’appareil est contenu dans un coffret métallique de type industriel. On trouve à l’arrière le bloc alimentation et les connecteurs permettant un ensemble de liaisons standards (ordinateur, HP-IB…). A côté des emplacements libres permettent d’insérer différents types de cartes d’acquisition de données (conversion analogue-digital…). En face avant, un ensemble de boutons permettent de sélectionner les interfaces et les fonctions utilisées ».

[2] Qui figurent parmi les 33 lemmes verbaux les plus fréquents du corpus (1126 lemmes verbaux extraits par Sketch Engine).

[3] Accessible en ligne à l’adresse https://termostat.ling.umontreal.ca/index.php (site consulté le 28 août 2024).

[4] Accessible en ligne à l’adresse https://www.sketchengine.eu/ (site consulté le 28 août 2024).

[5] Correspondant à l’ensemble des formes verbales apparaissant dans le corpus.

[6] Une précision s’impose toutefois : il s’agit des données brutes qui sont affichées, les lemmes verbaux comportent une part d’erreurs d’étiquetage que nous avons pu observer, et qu’il pourrait être intéressant de quantifier. Sketch Engine a par exemple catégorisé comme verbe l’occurrence technologier dans l’extrait de corpus suivant : Le numéro se décode de la façon suivante : – SN : boîtier standard plastique – 74 : technologier TTL – L : Low Power (faible consommation).

[7] L’étiquette « d’appartenance exclusive » est utilisée par Cornu (2000) pour la terminologie juridique, mais elle nous semble également appropriée dans notre contexte informatique.

[8] Dans cette classification, une précision s’impose : les catégories que nous avons identifiées ne sont pas étanches. Certains verbes (tels que présenter), que nous avons classés dans la catégorie des verbes connecteurs, peuvent parfois se retrouver dans le corpus avec la fonction de verbes supports. L’analyse plus fine au paragraphe 4 permet de mieux identifier les fonctions de ce verbe dans le corpus.

[9] Le terme concept est ici considéré dans son acception en terminologie. Nous sommes conscientes que ces concepts renvoient parfois à ce que, dans une ontologie, on appellerait des instances – comme nous le verrons par la suite.

[10] Réalisée cette fois à l’aide du logiciel TermoStat.

[11] Appartenir-lignée (73,17) ; appartenir-famille (56,93).

[12] L’ontologie du projet ITinHeritage est construite sur les relations génériques ; toutefois, nous avons jugé intéressant d’élargir notre réflexion sur les verbes aussi à la relation partitive, qui pourrait s’avérer intéressante aux fins de l’élaboration de représentations ontologiques.

[13] Exemple extrait du corpus Description : « L’ensemble micro-ordinateur Power Mac G4 Cube d’Apple se présente en effet comme un cube gris-aluminium ».

[14] Nous indiquons ici la tête du syntagme lorsqu’il s’agit d’un terme complexe (exemple : logement > logement de rangement).

[15] L’analyse automatique de Sketch Engine indique 207 occurrences mais un retour au corpus montre une fréquence d’occurrences égale à 209.


Micaela ROSSI, Cécile FRÉROT, Caroline DJAMBIAN, Giada D’IPPOLITO, « Rôle et apport des verbes pour la construction et la modélisation de connaissances spécialisées du patrimoine scientifique et technique », Repères DoRiF, n. 33 – Le statut du verbe dans les discours spécialisés entre théorie et pratique(s), DoRiF Università, Roma, dicembre 2025, https://www.dorif.it/reperes/micaela-rossi-cecile-frerot-caroline-djambian-giada-dippolito-role-et-apport-des-verbes-pour-la-construction-et-la-modelisation-de-connaissances-specialisees-du-patrimoine-scientifique-et/

 

ISSN 2281-3020

Quest’opera è distribuita con Licenza Creative Commons Attribuzione – Non commerciale – Non opere derivate 3.0 Italia.