Manuel BARBERA, Elisa CORINO, Carla MARELLO, Cristina ONESTI
Entre l’écrit et l’oral : le corpus NUNC-FR pour l’analyse de la communication sur réseaux
Manuel Barbera
Università di Torino
manuel.barbera@unito.it
Elisa Corino
Università di Torino
elisa.corino@unito.it
Carla Marello
Università di Torino
carla.marello@unito.it
Cristina Onesti[1]
Università di Torino
cristina.onesti@unito.it
Résumé
Nous espérons fournir une démonstration del’utilité du corpus NUNC-FR pour l’analyse de faits linguistiques de la communication sur réseaux qui ne peuvent être exclusivement limités à la dimension de la seule langue écrite. Le sigle NUNC (NewsGroups UseNet Corpora) indique une suite multilingue de corpus – page d’accueil http://www.bmanuel.org/projects/ng-HOME.html ‒ disponibles en libre consultation sur le portail www.corpora.unito.it
On trouve dans NUNC des textes de newsgroup (newsletter group ou groupes de discussion) c’est-à-dire une forme de communication sur le web (précisément UseNet et non pas World Wide Web), comparable aux forums de discussion et composée de fils de discussion (discussion thread) de questions-réponses organisées selon une taxinomie précise, avec des cadres argumentatifs étiquetés « hiérarchies », sur une base aussi bien géographique que nationale et/ou thématique.
Les données ont été recueillies au cours des années 2000-2010 (les newsgroups ont atteint le sommet de leur popularité au début du siècle). La section de français, NUNC-FR, « épurée » à travers des opérations de nettoyage, dénombre 295.849.126 tokens (102.524 lemmes).
Abstract
Between the written and the spoken word: the NUNC-EN corpora for the analysis of communication on networks
The present paper aims at showing the usefulness of the NUNC-FR corpus for analysing linguistic facts of Computer Mediated Communication, with its peculiarities of blending written and spoken aspects of language. The acronym NUNC (NewsGroups UseNet Corpora) indicates a suite of multilingual corpora – home page: http://www.bmanuel.org/projects/ng-HOME.html – developed at the University of Turin and freely available at www.corpora.unito.it, providing the linguistic community with recent written data of a particular form of textual interaction.
Newsgroups (newsletter group or discussion groups) are a form of communication on the web, made of threads discussion organized according to a precise taxonomy, with argumentative frameworks labeled “hierarchies”, on a geographic as well as national and/or thematic basis. They show not only the availability of a great quantity of textual data, but also a contemporary lively language presenting a wide variety of styles and topics; the textual interest for ‘quoting’ phenomena; the lexicographic and sociological interest in UseNet as a “folk taxonomy”.
Data was collected during the 2000-2010 period (newsgroups reached the peak of their popularity at the beginning of the century). The French section, NUNC-FR, “purified” through cleaning operations, counts 295,849,126 tokens (102,524 lemmas).
1. Corpus de langues sur le web
Le sigle NUNC (NewsGroups UseNet Corpora) indique une suite multilingue de corpus – page d’accueil http://www.bmanuel.org/projects/ng-HOME.html ‒ disponibles en libre consultation sur le portail www.corpora.unito.it. C’est grâce à une intuition de Manuel Barbera que ce travail pluriannuel ‒ poursuivi par une équipe de l’Université de Turin à l’intérieur de laquelle la linguistique, l’informatique et la pensée computationnelle se sont rencontrées pour donner lieu à de nombreux corpus ‒ a pu être réalisé.
IMAGE 1: La page d’accueil de www.corpora.unito.it
On trouve dans NUNC des textes de newsgroup (newsletter group ou groupes de discussion) c’est-à-dire une forme de communication sur le web (précisément UseNet et non pas World Wide Web), comparable aux forums de discussion (cf. LOMBART, FAIRON, 2020) et composée de fils dediscussion (discussion thread) de questions-réponses organisées selon une taxinomie précise, avec des cadres argumentatifs étiquetés « hiérarchies », sur une base aussi bien géographique que nationale et/ou thématique.
La conversation avance à travers l’envoi de messages (posts) rangés selon leur titre (subject) et structurés justement comme des chaînes en séquence – cf. image 2, qui montre aussi la visualisation typique des utilisateurs d’Agent (le newsreader le plus diffusé, qui a été employé pour télécharger les textes aussi). La visualisation sur corpus est différente, elle montre le fil de discussion come un texte continu, cf. image 3, qui peut présenter un seul message long ou plusieurs messages avec une reprise constante, sous forme de citation, du texte original des messages précédents[2]. La recherche affiche jusqu’à 1000 mots de contexte et on arrive à saisir les tendances discursives (bien qu’elles ne soient pas ordonnées comme dans Agent).
IMAGE 2 : Un exemple de page-écran du newsreader Agent
IMAGE 3 : Un exemple de page-écran du Corpus “NUNC – Motori Francese
Recherche de bagnole, contexte 100 mots
Les données ont été recueillies au cours des années 2000-2010 (les newsgroups ont atteint le sommet de leur popularité au début du siècle).
De nombreuses motivations de recherche nous ont portés à choisir ce type de données linguistiques (cf. BARBERA,2007). D’abord ce choix garantit l’accès à un grand nombre de textes : la section de français, NUNC-FR, par exemple, même si elle a été « épurée » à travers des opérations de nettoyage, dénombre encore 295.849.126 tokens (102.524 lemmes). Il faut en outre considérer que, dans le panorama actuel des corpus de langue française, NUNC-FR est l’un des rares corpus en libre accès et sans conditions sur le web, donc sans besoin d’inscription ou de paiement.
En deuxième lieu, les textes présentent une Umgangssprache contemporaine réelle très variée, aussi bien en ce qui concerne les registres employés que les thèmes abordés (pour approfondir cet aspect cf. § 2.1).
Enfin nous pouvons affirmer que ce matériel est légalement disponible, à travers Creative Commons Public Licences, aspect non négligeable dans la corpus linguistics[3].
Les noms de newsgroups de UseNet sont constitués de niveaux séparés par un point comme les noms de domaine : pour les hiérarchies thématiques la partie la plus importante du nom est la première, qui montre une des huit hiérarchies établies en 1987[4], par exemple soc.* dans soc.culture.religion. Les hiérarchies nationales sont, au contraire, classées par thèmes en partant du bas, c’est-à-dire que le code ISO du pays est la première indication, suivie d’un sujet qui peut être restreint avec des noms moins génériques : ex. fr. droit, fr. droit.international, fr. droit.international.assurances.
Parmi les désavantages d’utiliser les textes de UseNet, il faut mentionner les nombreux problèmes posés par le passage à jeux de caractères (charset) différents et par la présence de courrier indésirable, de messages OT (“Out of Topic” hors thème). On a réduit ces aspects problématiques à travers de logiciels de filtrage, tokenisation et balisage à plusieurs niveaux préparés par les experts informatiques du groupe de recherche (cf. BARBERA, COLOMBO, 2010).
Les exemples tirés des corpus NUNC peuvent être intéressants pour des études morphosyntaxiques, glotto-didactiques ou bien en tant que documentation sur l’acclimatation d’emprunts et néologismes. D’un point de vue plus strictement textuel, c’est l’intérêt pour le phénomène du quoting (c’est-à-dire la reprise d’unecitation, qui est à l’ordre du jour dans les newsgroups et qui est utilisée par les usagers dans la plupart des cas de façon totalement ciblée et consciente), qui nous a conduits à ce choix, analysé de plus près dans Marello 2007a.
Dans la suite de corpus NUNC, nous disposons aussi bien de corpus génériques que de sous-sections spécialisées, et il en est de même en ce qui concerne la langue française : en plus du corpus générique divisé en NUNC Français (Ie partie) (173.703.875 tokens) et NUNC Français (IIepartie) (122.145.251
tokens)[5], nous avons créé des sous-corpus spécialisés :
- un corpus spécialisé sur la cuisine : NUNC Cuisine française (4.900.590 tokens);
- un corpus spécialisé sur les moteurs : NUNC Moteurs français (8.684.354 tokens);
- un corpus spécialisé sur la photographie : NUNC Photographie française (5.825.891 tokens).
Les corpus de la suite NUNC se servent de Corpus WorkBench, issu de l’Institut für maschinelle Sprachverarbeitung (IMS) de Stuttgart (cf. HEID, 2007), du logiciel d’interrogation Corpus Query Processor (CQP par CHRIST, SCHULZE, 1996, CHRIST et alii. 1999) et, pour le balisage des parties de discours, du TreeTagger (SCHMID, 1994).
2. Le caractère particulier des communications dans les newsgroups
Le discours numérique écrit a été analysé sous différents aspects en ayant recours à des étiquettes différentes de façon à tenter d’en cerner les éléments caractérisants, dans la perspective aussi d’une étude ancrée aux aspects typiques de la Communication Médiée par les Réseaux (CMR) : la dichotomie habituelle entre l’écrit et l’oral a été enrichie par les notions d’écrit-oral, oral-écrit, écriture liquide, écriture brève, oral rapide (à cet égard voir, entre autres, ANDROUTSOPOULOS, 2011, FIORENTINO, 2004, 2010, PISTOLESI, 2004, 2014) ; en général notre point de vue est le même que celui qui a été exprimé dans Allora, 2009.
Ce qui, du point de vue du medium, est une communication transmise à travers un code graphique, se présente, d’un point de vue conceptuel, comme une oscillation entre des marques de spontanéité/immédiateté et des aspects plus formels, de distance : la communication est écrite et hors ligne, mais elle présente un degré d’interactivité semblable à celle d’une communication face à face. Comme CORINO (2007 : 229), l’avait déjà indiqué, UseNet était, à l’époque, le seul medium qui, avec IRC (Internet Relay Chat), permettait une communication p:p(« plusieurs- à-plusieurs ») ; elle se différencie d’un côté de la communication orale puisqu’elle est écrite (il y a donc une manifestation de planification d’un texte) et de l’autre, de la communication orale et de IRC vu qu’elle est asynchrone.
Les usagers se servent de la proximité spatiale (selon les définitions de KOCH, ÖSTERREICHER, 1985) qui est absente dans le code écrit : même s’il ne s’agit pas d’une proximité spatiale réelle, on peut remarquer une proximité virtuelle, liée à un sens étroit d’appartenance à une communauté existant à l’intérieur d’un newsgroup[6], qui réduit la distance ontologique chez les locuteurs : d’où une libéralisation de la langue et la focalisation sur les destinateurs typique du code parlé[7].
2.1 Une Umgangssprache contemporaine
Dans la perspective d’une analyse consciente du phénomène newsgroup nous jugeons fondamental le concept exprimé par le terme de Spitzer Umgangssprache qui « nous a semblé bien indiqué pour designer la variété de langue la plus largement représentée dans l’ensemble des corpus mis en œuvre par le groupe, c’est-à-dire celle des newsgroup, puisqu’elle nous permet de contourner la discussion langue orale vs langue écrite pour souligner le but de la communication»[8] (MARELLO 2007b : x).
Il ne s’agit pas d’une notion nouvelle, si nous considérons le domaine des langues romanes et les questions liées au « latin dit vulgaire » : Spitzer déjà l’avait appliquée à la langue italienne « italienische Umgangssprache » (SPITZER, 1922/2007), dans une perspective différente mais comparable à la nôtre. « L’analogie paraît assez correcte, vu qu’il s’agit, en termes très généraux, d’une langue commune, usuelle et moyenne qui ne peut être délimitée sociologiquement ou thématiquement et qui est plus proche de la langue orale, même si elle est en réalité écrite, et pour laquelle la dichotomie écrit-oral n’est pas vraiment pertinente»[9] (BARBERA 2007 : 7). La catégorie de l’oral, pour reprendre les mots de NENCIONI (1983/1976 : 178)[10], tout comme celle de l’écrit, se distingue ultérieurement donc, dans une variété de types qui ne peut être oubliée. « S’il est vrai, d’une part, que pour parvenir à bien définir la structure d’une langue, la confrontation avec une autre est très utile et que, d’autre part, pour bien saisir les caractéristiques de la langue parlée, il est tout à fait utile de la comparer à l’écrit, il est tout aussi vrai, et à plus forte raison, que, pour déterminer les phénomènes saillants et constants de la langue parlée, une comparaison intraspécifique des différents types d’oral est indispensable»[11].
Umgangssprache est une étiquette que Spitzer avait déjà utilisée, pourtant ce n’est pas lui qui l’avait inventée (pour l’histoire et la préhistoire de la notion, cf. BARBERA, MARELLO 2011 : 160-164) ; il l’a reprise, comme nous l’avons déjà dit, de la tradition d’études sur le « latin vulgaire » (ce qui avait déjà été déduit par WUNDERLICH, 1894), point sur lequel, par ailleurs, il était en accord avec Hofmann (cf. HOFMANN, 1926, 1929), qui toutefois se penchait sur la dimension psychologique, « émotionnelle » et philologique, alors que Spitzer privilégiait la dimension quasi-pragmatique, « conversationnelle » et textuelle.
La langue écrite et orale que nous retrouvons dans les NUNC n’est, en effet, ni une langue écrite scolaire ni une langue destinée à faire l’objet d’une publication, mais « une langue écrite pour communiquer sur des arguments concrets comme si on était en train de discuter face à face entre personnes passionnées mais en général civiles et après tout moyennement cultivées, tout en sachant pertinemment qu’on est en train d’écrire. La communication « écrite » des newsgroups est une langue écrite d’usage ». (BARBERA, MARELLO 2011 : 165).
3. Quoting dans les newsgroups
Comme anticipé dans le § 2, le quoting est presque constamment présent dans les textes que nous analysons :
Si dans une conversation orale nous pouvons identifier des phénomènes de reprise, de répétitions et de redondance qui aident les interlocuteurs à surmonter les problèmes liés à l’absence d’un texte auquel il puissent faire référence et jouent le rôle d’indicateurs dans le processus de focalisation, la nature écrite du newsgroup permet de garder constamment explicite l’ensemble d’entités et d’objets qui sont au centre de l’attention des locuteurs/scripteurs à travers l’utilisation du quoting : les messages d’un newsgroup présentent une reprise constante, sous forme de citation, du texte original des messages précédents ou d’une partie de ceux-ci d’habitude facilement repérables grâce au signe « ‘ > ‘» au début de chaque ligne de texte reportée[12]. (CORINO 2007 : 232)
Nous pouvons diversifier les cas de figure selon leur position et la fonction qu’ils revêtent dans le quoting du discours.
- a) Si le quoting se trouve au début du message, il peut avoir une fonction d’accrochage au texte, portant parfois à la disparition des liens traditionnels (conjonctions, locutions conjonctives temporelles, gérondif et participes). Il existe des formes intermédiaires entre le déploiement de l’information et sa simple répétition : paraphrases, reprises du prédicat ou anaphores résomptives. Il est assez usuel de trouver le quoting du message immédiatement précédent ou du message auquel on répond de façon ciblée : il peut même s’agir de la reprise de deux ou plusieurs messages pour répondre à une intervention ou à tous les messages précédents du fil (thread).
- b) En d’autres circonstances, nous notons que seulement une partie du message précédent est reprise, en isolant une phrase ou un concept pour y répondre de façon ciblée.
- c) Enfin, il existe aussi un quoting « fragmenté » : le message se place de façon précise en réponse à des phrases extrapolées des messages précédents du thread. L’ellipse joue, dans ce cas, un rôle de mécanisme cohésif (unie à des anaphores résomptives, de reformulations, des proformes et des marques discursives).
Il ne s’agit pas d’une nouvelle technique (ou de réinventer continuellement la roue, mais de la redécouvrir) : pensons à la structure de la tenson médiévale, que nous avons exemplifiée, dans le schéma suivant, avec celle célèbre d’Arnaut Daniel. Les caractéristiques sont les mêmes : les messages de réponses (replies) peuvent réagir à un message (post) qui n’est pas le dernier du fil, tout en démontrant une connaissance des post qui suivent.
IMAGE 4 : La tenson entre Truc Malecs, Raimons de Durfort et Arnaut Daniel sur Na Ena (textes de Contini 1936, p. 228-230 et Eusebi 1984, p. 4).
Il s’agit d’un phénomène qui n’est pas rare de nos jours non plus, si nous considérons par exemple la possibilité de répondre, de façon ciblée, aux messages de WhatsApp :
IMAGE 5 : exemples de quoting d’une intervention précédente sur WhatsApp
4. La langue des NUNC-FR
L’interrogation des NUNC-FR nous permet d’analyser la langue vivante qui circule sur le web, celle que Jacques Anis a analysée dans le français oral et écrit dans les SMS et les chats (ANIS, 1999). C’est un français écrit qui recourt abondamment aux marqueurs discursifs comme ceux que Lefeuvre a analysés dans le discours oral spontané : bon et quoi qui contribueraient à la démarcation des unités syntaxiques verbales autonomes, bon en les ouvrant, quoi en les fermant, (LEFEUVRE, 2011). De manière plus générale Beeching 2007 offre un bon répertoire pour d’autres formes de marqueurs discursifs.
Nous proposons ci-dessous un rapide tour d’horizon d’exemples oral-écrit tirés des NUNC en français Dans (1) on peut voir que le ne devant liront manque :
(1) j’espère[13] qu’elles liront pas ce messages sinon je risque d’en prendre plein la tête
Même des recherches très simples comme celles visant à isoler les contextes d’un mot, nous rendent des résultats significatifs pour avoir un aperçu sur un échantillon de la langue française contemporaine, qui occuperait moins de place dans d’autres corpus.
Voir l’utilisation du pronom interrogatif quoi[14] :
(2a) Salut, c’est quoi[15] un rednecks ???
(2b) C’est quoi un corse de Corses ?
(2c) Vous faites quoi à Pâques ?
ou de formes familières comme hein [word= ‘hein’] :
(3) C’est tout pareil mais ça fuse ! ;-) FOUTUS tu parle toujours trop toi hein !!!!!!!
Dans le but de repérer une réduplication du pronom sujet, on peut unir la recherche par mot à celle par partie du discours POS ; dans ce cas le mot toi est suivi d’un autre pronom personnel : [word=’toi’] [pos=’PRO :PER’].
IMAGE 6 : Recherche en NUNC-FR du pronom personnel toi immédiatement suivi d’un autre pronom personnel
D’autres exemples avec moi je :
(4a) l’ AFPA de Beaumont !! Vous avez un problème ? J’ ai la solution ! Bretzel le valeureux A non moi je ne veux pas ni de girafe ni de percieng, pas mon truc.
(4b) Expliquez vous justement sur ce qui ne va pas, parce que moi je n’ ai rien compris à votre problème.
Il existe de nombreux cas où l’écrit numérique montre une imitation évidente de l’oral et en même temps des caractéristiques typiques de l’écriture rapide des SMS.
(5) Instituez le réseau en association, rencontrez les membres, vivez votre période de ” vacance ” non comme une souffrance mais comme un enrichissement. A vous de participer pour contribuer à l’amélioration de ces objectifs et à la réalisation de ce réseau. Entre nous le judaïsme c’est la base du catholicisme hein ! Et je vois pas pkoi un prefet pourrait pas se rendre a une messe apres une ceremonie qui implique des dirigeants religieux. C’ est pas le prefet qui invite le curé a venir faire la messe tous les jour a l’ hotel de police. Bon Et puisqu’on en est a l’ ihistoire[16] sachez que la france a fait gros buisness du chanvre, indien ou non, il servait a treser les cordage et les voiles de la marine !
Une recherche sur l’endroit où les marqueurs du discours se trouvent est fort intéressante, par exemple la position de quand même à la fin d’énoncé : [word= ‘quand’][word= ‘même’][pos=’PUN’]. Les NUNC nous permettent en effet de faire des recherches qui exploitent les signes de ponctuation, et dans les exemples (5 a, b, c), nous retrouvons certains aspects du phénomène déjà bien expliqué dans Beeching 2007.
(5a) C’ est bien, le fichage, quand même.
(5b) Et c’ est un Nobel de littérature ( quand même ! ) Donc il est précieux.
(5c) Ah oui ! ça c’ est sûr ! t’ aurais pas du ! Ant _ deus :: tout à fait. :: ils sont mignons, les deux petits, quand même.
Voir aussi une illustration de l’emploi de comme ça [word= ‘comme’] [word= ‘ça’] :
(6a) Et des fois, il se remet à zéro ( heure, date, km, consommation… ) et puis cela s’ arr ête sans que je ne fasse qqe chose… comme ça . Merci d’ avance de vos conseils.
(6b) Au sujet des responsabilités collectives dans le conditionnement en question : franchement et tout à fait honnêtement, honnêtement, capable d’ apprendre à ta fille, réelle ou virtuelle, que ce n’ est pas mal de baiser avec des inconnus, comme ça , un soir ? Tu supportes l’ id ée, s’ il s’ agit de ta fille, ta soeur ou ta mère ?
5. Conclusion
Déjà en 1996 la sociolinguiste Françoise Gadet écrivait :
On ne peut plus désormais opposer oral (spontané, avec ses scories) et écrit (travaillé, livré comme produit fini), ni écrit fait pour durer et oral volatile. […] Il ne suffit pas de définir les deux ordres en termes de chenaux, il faut regarder de près comment chacun des deux fonctionne. (GADET 1996 : 16)
Et elle l’affirmait quand l’écriture sur réseaux n’avait pas encore connu un grand essor et n’avait donc pas encore clairement montré à quel point des modalités de diffusion à distance des « mots », cette oralité secondaire (ONG, 1982) qui se transmet par écrit, contribuerait à répandre l’oral à travers des formes d’échanges différentes par rapport à une proximité sociale immédiate.
Nous espérons, à travers ces brèves réflexions sur la communication francophone en ligne, telle qu’elle apparaît dans les corpus NUNC, avoir fourni une démonstration de leur utilité pour l’analyse de faits linguistiques qui ne peuvent être exclusivement limités à la dimension de la seule langue écrite.
Références bibliographiques
AA.VV., Introduction à la nétiquette, Traduit de l’anglais (Network Working Group 1995) en 1996 par Gilles Missonnier, Françoise Picard, Laifa Ahmadi et Serge Belleudy, en ligne :
http://www.snv.jussieu.fr/SAV/doc/UFR%20927%20-%20La%20n%E9tiquette,%20l%27%E9thique%20des%20Internautes.pdf [consulté le 08/01/2020].
ALLORA, Adriano, « Variazione diamesica generale nelle Comunicazioni Mediate dalla Rete », Rassegna Italiana di Linguistica Applicata, n° 3, 2009, p. 147-170.
ANDROUTSOPOULOS, Jannis K., « Language change and digital media : A review of conceptions and evidence », in KRISTIANSEN, Tore, COUPLAND, Nikolas (éd.), Standard languages and language standards in a changing Europe, Oslo, Novus, 2011, p. 145-161.
ANIS, Jacques (éd.), Internet, communication et langue française, Paris, Hermès Science Publications, 1999.
ANTONELLI, Giuseppe, L’italiano nella società della comunicazione, Bologna, Il Mulino, 2007.
BARBERA, Manuel, « Per la storia di un gruppo di ricerca. Tra bmanuel.org e corpora.unito.it », in
BARBERA, Manuel, CORINO, Elisa, ONESTI, Cristina (éd.), Corpora e linguistica in rete, Perugia, Guerra, 2007, p. 3-20.
BARBERA, Manuel, COLOMBO, Simona « Pre-Processing Normalization Procedures for Newsgroup Corpora », in MONEGLIA, Massimo, PANUNZI, Alessandro (éd.), Bootstrapping information from corpora in a cross-linguistic perspective, 2010, Firenze University Press, p. 175-91.
BARBERA, Manuel, MARELLO, Carla, «Tra scritto-parlato, Umgangssprache e comunicazione in rete : i corpora NUNC», in ANTONINI, Anna, STEFANELLI, Stefania (éd.), Studi di grammatica italiana, vol. XXVII-2008, Atti del Convegno internazionale di studi per Giovanni Nencioni, Pisa-Firenze 4-5 mai 2009, Firenze, Le lettere, 2011, p. 157-185.
BARBERA, Manuel, CORINO, Elisa, ONESTI, Cristina (éd.), Corpora e linguistica in rete, Perugia, Guerra, 2007.
BEECHING, Kate, « La co-variation des marqueurs discursifs bon, c’est-à-dire, enfin, hein, quand même, quoi et si vous voulez : une question d’identité ? », Langue Française, n° 154, 2007/2, p. 78-93.
BERRUTO, Gaetano, «Per una caratterizzazione del parlato: l’italiano parlato ha un’altra grammatica?», in HOLTUS, Günther, RADTKE, Edgar (éd.), Gesprochenes Italienisch in Geschichte und Gegenwart, Tübingen, Narr, “Tübinger Beiträge zur Linguistik”, n° 252, 1985, p. 120-153.
CERRUTI Massimo, CORINO Elisa, ONESTI Cristina, Formale e informale. La variazione di registro nella comunicazione elettronica, Roma, Carocci, 2011.
CHRIST Oliver, SCHULZE Bruno M[aximilian], HOFMANN Anja, KÖNIG Esther, « The IMS Corpus Workbench: Corpus Query Processor (CQP). User’s Manual », Stuttgart, Institut für maschinelle Sprachverarbeitung, August 16, 1999 (CQP V2.2), en ligne: http://corpora.dslo.unibo.it/TCORIS/cqpman.pdf [consulté le 08/01/2020].
CHRIST Oliver, SCHULZE Bruno M[aximilian], « CWB. Corpus Work Bench, Ein flexibles und modulares Anfragesystem für Textcorpora », in FELDWEG Helmut, HINRICHS Erhard W. (éd.), Lexikon und Text: wiederverwendbare Methoden und Ressourcen zur linguistischen Erschließung des Deutschen, Tübingen, Max Niemeyer Verlag, “Lexicographica.Series maior”, n° 73, 1996, p. 121-133, en ligne : http://cwb.sourceforge.net/files/ChristSchulze1996.pdf [consulté le 08/01/2020].
CIURCINA Marco, RICOLFI Marco, « Le Creative Commons Public Licences per i corpora. Una suite di modelli per la linguistica dei corpora », in BARBERA, Manuel, CORINO, Elisa, ONESTI, Cristina (éd.), Corpora e linguistica in rete, 2007, Perugia, Guerra, p. 127-132.
CONTINI, Gianfranco, « Per la conoscenza di un sirventese di Arnaut Daniel », Studi Medievali, ns. IX, 1936, p. 223-231.
CORINO Elisa, « NUNC est disputandum. Aspetti della testualità e questioni metodologiche », in BARBERA, Manuel, CORINO, Elisa, ONESTI, Cristina (éd.), Corpora e linguistica in rete, Perugia, Guerra, 2007, p. 225-252.
DANIEL, Arnaut, Il sirventese e le canzoni, a cura di Mario Eusebi, Milano, All’insegna del pesce d’oro, 1984.
FIORENTINO, Giuliana, «Scrivere come si parla – Variabilità diamesica e CMC: il caso dell’e-mail», Horizonte, n° 8, 2004, p. 83-110.
FIORENTINO, Giuliana, «Forme di scrittura in rete: dal web 1.0 al web 2.0», in APRILE, Marcello (éd.), Lingua e linguaggio dei media. Atti del Seminario di Lecce (22-23 settembre 2008), Roma, Aracne, 2010, p. 193-206.
GADET, Françoise, « Une distinction bien fragile : oral/écrit », Tranel, n° 25, 1996, p. 13-27.
HEID, Ulrich, Il Corpus WorkBench come strumento per la linguistica dei corpora. Principi ed applicazioni, in BARBERA Manuel, CORINO Elisa, ONESTI Cristina (éd.), Corpora e linguistica in rete, Perugia, Guerra, 2007, p. 89-108.
HELD, Gudrun, SCHWARZE, Sabine, Testi brevi. Teoria e pratica della testualità nell’era multimediale, Frankfurt a. M., Peter Lang, 2011.
HOFMANN, Johann Baptist, Lateinische Umgangssprache, Heidelberg, Carl Winter, 1929, “Indogermanische Bibliothek” I.i.17.
HOFMANN, Johann Baptist, « Der Begriff Umgangssprache », Indogermanische Forschungen, xlvii, 1929, p. 209-213.
KOCH, Peter, ÖSTERREICHER Wulf, « Sprache der Nähe – Sprache der Distanz. Mündlichkeit und Schriftlichkeit im Spannungsfeld von Sprachtheorie und Sprachgeschichte », Romanistisches Jahrbuch, XXXVI, 1985, p. 15-43.
LEFEUVRE, Florence, «Bon et quoi à l’oral : marqueurs d’ouverture et de fermeture d’unités syntaxiques à l’oral », Linx – Revue des linguistes de l’Université Paris Ouest Nanterre La Défense, n° 64-65, 2011, p. 223-240.
LOMBART, Erika, FAIRON, Cédrick « Spécificités de communication des forums de discussion », Corpus, 21, 2020, p. 1-16, en ligne : http://journals.openedition.org/corpus/5356 [consulté le 08/01/2020].
MARELLO 2007a = MARELLO, Carla, « Does Newsgroups “Quoting” Kill or Enhance Other Types of Anaphors? », in KORZEN, Iørn, LUNDQUIST, Lita (éd.), Comparing Anaphors between Sentences, Texts and Languages, Samfundslitteratur Press Frederiksberg, 2007, p. 145-157.
MARELLO 2007b = MARELLO, Carla, « L’italiano ed altre lingue nella varietà dei corpora. Una introduzione », in BARBERA, Manuel, CORINO, Elisa, ONESTI, Cristina (éd.), Corpora e linguistica in rete, 2007, Perugia, Guerra, p. vij-xij.
NENCIONI 1983/1976 = NENCIONI, Giovanni, Parlato-parlato, parlato-scritto, parlato-recitato, in Strumenti critici, XXIX, 1976, p. 1-56; ensuite dans NENCIONI 1983, p. 126-179.
NENCIONI, Giovanni, Di scritto e di parlato. Discorsi linguistici, Bologna, Zanichelli, 1983. (“La parola letteraria”, 6).
ONESTI, Cristina, «“Niusgrup” Si scrive così? Grafie in rete », in BARBERA, Manuel, CORINO, Elisa, ONESTI, Cristina (éd.), Corpora e linguistica in rete, Perugia, Guerra, 2007, p. 253-270.
ONG, Walter J., Orality and Literacy. The Technologizing of the World, London and New York, Routledge, 1982.
PISTOLESI, Elena, Il parlar spedito. L’italiano di chat, e-mail e sms, Padova, Esedra, 2004.
PISTOLESI, Elena, « Scritture digitali », in ANTONELLI, Giuseppe, MOTOLESE, Matteo, TOMASIN, Lorenzo (éd.),Storia dell’italiano scritto. Italiano dell’uso, vol. III, Roma, Carocci, 2014, p. 349-375.
SABATINI, Francesco, « L’italiano dell’uso medio: una realtà tra le varietà linguistiche italiane », in HOLTUS, Günter, RADTKE, Edgar (éd.), Gesprochenes Italienisch in Geschichte und Gegenwart, Tübingen, Gunter Narr, 1985 “Tübinger Beiträge zur Linguistik” Bd. 25, p. 120-153.
SABATINI, Francesco, «“Rigidità-esplicitezza” vs “elasticità-implicitezza”: possibili parametri massimi per una tipologia dei testi», in SKYTTE, Gunver, SABATINI, Francesco (éd.), Linguistica testuale comparativa: in memoriam Maria-Elisabeth Conte. Atti del Convegno interannuale della Societa di Linguistica Italiana, Copenhagen 5-7 février 1998, Kobenhavn, Museum Tusculanum Press, 1999, p. 141-172.
SCHMID, Helmut, « Probabilistic Part-of-Speech Tagging Using Decision Trees », paper presented at the International Conference on New Methods in Language Processing, Manchester (UK), 1994; version actualisée PS/PDF online sur le site internet : https://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/tree-tagger1.pdf [consulté le 08/01/2020].
SPITZER, Leo, Italienische Umgangssprache, Bonn, Kurt Schroeder, 1922. Versione italiana: CAFFI, Claudia, SEGRE, Cesare (éd.), Lingua italiana del dialogo, traduzione di Livia Tonelli, Milano, il Saggiatore, 2007.
WUNDERLICH, Hermann, Unsere Umgangssprache in der Eigenart ihrer Satzfügung, Weimar und Berlin, Verlag von Emil Felber, 1894.
[1]
Ce travail est le résultat d’une étroite collaboration entre les auteurs, toutefois le § 1 est de Cristina Onesti, le § 2 de Manuel Barbera, le § 3 de Elisa Corino, le § 4 de Carla Marello. Traduction française de Carole Conti. Les auteurs remercient les organisateurs ainsi que les intervenants de la Journée d’études Corpus, réseaux sociaux et analyse du discours, Gênes 20 novembre 2019, où Elisa Corino a présenté cette contribution.
[2]
On a choisi les fils de discussions les plus riches de messages et, par conséquent, de mots. Les adresses électroniques ont été effacées, mais parfois la reprise (quoting) en contient et ces adresses permettent de déceler les interventions des différents participants.
[3]
Cf. CIURCINA, RICOLFI 2007.
[4]
LesBig8 Hierarchies sont le fruit d’un remaniement connu sous le nom de Great Renaming : aux sept d’origine – comp.* (informatique générale), misc.* (divers), news.* (fonctionnement des groupes de discussion), rec.* (loisirs), sci.* (sciences), soc.* (société), talk.* (débats) – dans les années 1990, fut ajoutée la hiérarchie humanities.* pour couvrir les aspects « lettres » et « sciences humaines »
[5]
Chiffres tirés de BARBERA 2007 : 6.
[6]
Voir les notations dans Onesti, 2007 en ce qui concerne les règles qu’il faut respecter à l’intérieur d’une communauté (la netiquette) ; les rapports entre les usagers de longue date d’un newsgroup assimilés à des rapports fraternels, comme cela peut être déduit de l’emploi d’appellatifs ; la dimension historique « de se rapporter à des messages ou à de vieux échanges qui datent de quelques mois mais bien connus de la plupart des usagers » (2007 : 254). Tous ces éléments indiquent un sens d’appartenance qui, inévitablement, influence la notion de rapprochement susmentionnée.
[7]
Les résultats d’égocentrisme repris par Berruto en termes d’importance émotive et de discours focalisé sur les actants sont évidents (BERRUTO 1985 : 143).
[8]
“[che] ci è parso ben adatto per indicare la varietà di lingua più largamente rappresentata nell’insieme di corpora allestiti dal gruppo, cioè quella dei newsgroup, perché ci permette di scavalcare la discussione lingua scritta vs. lingua parlata per sottolineare lo scopo della comunicazione”.
[9]
“L’analogia sembra abbastanza buona, in quanto si tratta, molto in soldoni, di una lingua comune, usuale e media, non tematicamente o sociologicamente delimitabile, più vicina al parlato ma di fatto scritta, e per la quale, in realtà, la dicotomia scritto-parlato non è veramente pertinente”.
[10]
Nencioni était allé plus loin dans la réflexion, en se penchant d’un côté vers la notion de langue commune moyenne pour laquelle la dichotomie écrit/oral n’est pas vraiment pertinente et qui deviendra l’uso medio chez Sabatini (cf. Sabatini, 1985), et de l’autre en enrichissant le contexte des variations diamésiques oral/oral, oral/écrit, oral- récité.
[11]
“Se a definire la struttura di una lingua è utilissimo il suo confronto con un’altra […] e a ben cogliere i caratteri del parlato è utilissimo il suo confronto con lo scritto; così, e a più forte ragione, a determinare i fenomeni salienti e costanti del parlato è indispensabile il confronto intraspecifico tra vari tipi di parlato”.
[12]
“se in una conversazione orale possiamo individuare fenomeni di ripresa, ripetizione e ridondanza che aiutano gli interlocutori al superamento della mancanza di un testo a cui riferirsi e fungono da indicatori nel processo di focalizzazione, la natura scritta del newsgroup permette di mantenere costantemente esplicito l’insieme di entità ed oggetti che costituiscono il centro dell’attenzione dei parlanti/scriventi attraverso l’uso del quoting : i messaggi di un newsgroup presentano cioè una costante ripresa citazionale del testo originale di messaggi precedenti o di parti di essi, di solito visibilmente riconoscibili perché accompagnati dal segno di maggiore “>” all’inizio di ogni riga di testo riportata”.
[13]
L’absence d’accents est « normale » dans ce type de media.
[14]
Recherche : [word= ‘quoi’].
[15]
On a mis en caractères gras les mots dont on discute. Aucune modification n’a été apportée aux exemples analysés.
[16]
Il est d’usage de tolérer les fautes de frappe.
Per citare questo articolo:
Manuel BARBERA, Elisa CORINO, Carla MARELLO, Cristina ONESTI, « Entre l’écrit et l’oral : les corpus NUNC-FR pour l’analyse de la communication sur réseaux », Repères DoRiF, n. 22 – Corpus, réseaux sociaux, analyse du discours, DoRiF Università, Roma ottobre 2020, https://www.dorif.it/reperes/entre-lecrit-et-loral-les-corpus-nunc-fr-pour-lanalyse-de-la-communication-sur-reseaux/
ISSN 2281-3020
Quest’opera è distribuita con Licenza Creative Commons Attribuzione – Non commerciale – Non opere derivate 3.0 Italia.