Laura ABOU HAIDAR, La voix mène le jeu : la dimension vocale et prosodique du discours pédagogique

Laura ABOU HAIDAR

La voix mène le jeu : la dimension vocale et prosodique du discours pédagogique

Laura Abou Haidar
Université de Grenoble, LIDILEM
Laura.Abou-Haidar@univ-grenoble-alpes.fr

Résumé
L’exploration de la dimension vocale et prosodique du discours pédagogique des enseignants de français langue étrangère met en lumière des phénomènes acoustiques qui s’éloignent des schémas prosodiques du « français standard » tels qu’ils sont décrits habituellement. Dans le cadre du projet de recherche DISPIP-FLE qui porte sur un corpus audio de cours de français langue étrangère (ABOU HAIDAR 2022), des spécificités vocales et prosodiques sont repérées et décrites : formes intonatives remarquables, proéminences prosodiques, ponctuation du discours. La prise en compte de ces phénomènes dans les dispositifs de formation initiale et continue serait pertinente, compte tenu de ce qui ressort de leurs multiples fonctions dans l’action enseignante.

Abstract
The exploration of the vocal and prosodic dimension of the academic speech of teachers of French as a Foreign Language (FFL) highlights acoustic phenomena which do not comply with the prosodic patterns of “standard French” as they are usually described. As part of the DISPIP-FLE research project which focuses on an oral corpus of FFL lessons (ABOU HAIDAR 2022), specific vocal and prosodic features are identified and described: remarkable intonational forms, prosodic prominences, punctuation of speech. These phenomena should be taken into account in initial and ongoing training programs, given their multiple functions in teaching.

1. Introduction

Cette étude exploratoire s’inscrit dans le projet de recherche PROSODIP-FLE (ABOU HAIDAR 2022) qui se propose d’explorer la dimension vocale et prosodique du discours pédagogique d’enseignants de français langue étrangère (désormais FLE), avec pour finalité d’identifier des axes de formation continue sur la parole et la voix à destination de ce public de praticiens. Le discours pédagogique des enseignants de FLE est un objet d’étude privilégié dans le domaine des sciences du langage et de la didactique (PARPETTE 1997 ; BOUCHARD 1999 ; CICUREL 2011). Ce « modèle omniprésent et (…) référence fondamentale pour les apprenants » (ABOU HAIDAR 2022) est d’autant plus important à prendre en compte que les auteurs mettent en avant aussi bien sa complexité que son caractère « polyphonique » (PARPETTE 1997), dimension qui renvoie entre autres aux fonctions de l’enseignant dans la classe : celui-ci est en effet « informateur », « animateur » ou « évaluateur » (DABENE 1984). La « diversité des rôles » de l’enseignant est ainsi mise en avant :

expert de sa discipline, il apporte des connaissances ;

chargé de faire acquérir des connaissances, il met en œuvre des procédures d’aide à l’apprentissage, à travers des consignes d’exercices, des questions de découverte, des questions de vérification etc. ;

régulateur, il veille au bon déroulement de l’enseignement, organise la vie pratique de la classe, rappelle à l’ordre ;

en relation avec des élèves qu’il connait individuellement, qu’il fréquente régulièrement, il veille à la dimension relationnelle, crée une connivence.
(PARPETTE 2004)[*]

Certes, le discours pédagogique ne fait pas l’objet d’un enseignement/apprentissage dans le cadre de la formation initiale ou continue des enseignants et futurs enseignants de FLE. Les praticiens ne sont généralement pas formés à l’impact des phénomènes spécifiques à l’oralité sur leur « action enseignante » (CICUREL 2016). Alors que c’est principalement à travers sa parole et sa voix que l’enseignant organise et met en œuvre cette action enseignante, mais aussi à travers son corps qui a toute sa place dans les processus mis en œuvre (TELLIER & CADET 2014). On peut aisément imaginer « l’imprégnation perceptive, plurisensorielle et multimodale nécessairement mise en œuvre par les apprenants » (ABOU HAIDAR 2022) compte tenu de leur exposition massive au discours pédagogique au cours de leur apprentissage : c’est ce discours adressé, que ce soit au groupe-classe dans son ensemble, ou bien à un apprenant en particulier, voire à soi dans le cadre de séquences auto-adressées, qui constitue notre objet d’étude.

Cet intérêt a été renforcé par l’avènement de la crise sanitaire, qui a eu pour conséquence la généralisation du masque dans la classe : on a assisté à une prise de conscience du rôle prépondérant de la voix et des variations prosodiques dans un contexte pédagogique, ainsi que des mimiques faciales, dont les apprenants ont été partiellement privés à partir du moment où la face de l’enseignant a été masquée (ABOU HAIDAR 2020).

Ces éléments ainsi posés, plusieurs raisons président au choix d’opérer une entrée dans le discours pédagogique par la voix et la prosodie. On sait que la prosodie joue un rôle dans la « hiérarchisation des informations » (MATASCI-GALAZZI & PEDOYA-GUIMBRETIERE 1987) ; or le discours pédagogique, du fait de sa polyphonie, des paramètres contextuels dans lesquels il est énoncé, des savoirs et savoir-faire qu’il véhicule, ainsi que des stratégies spécifiques à l’enseignant, est un discours dans lequel l’information est nécessairement hiérarchisée ; il est donc tout à fait pertinent d’explorer les modalités et les marques de cette hiérarchisation à travers les dimensions vocales et prosodiques. De plus, la prise en compte des fonctions de la prosodie (LHOTE 1990 ; VAISSIERE 2015) dans le discours pédagogique pourrait contribuer à éclairer les stratégies mises en place par l’enseignant, ainsi que leur perception par les apprenants ; sans oublier le rôle primordial de la prosodie dans la perception et la mémorisation des énoncés (LLORCA 2001). Si l’on admet l’impact de la parole et de la voix de l’enseignant, parmi d’autres facteurs, dans les processus d’enseignement et d’apprentissage, encore faut-il identifier les paramètres prosodiques qui permettent de caractériser cette voix enseignante. D’autant qu’il existe un couplage très étroit entre la dimension prosodique et les autres dimensions du discours, comme le notent LACHERET-DUJOUR et BEAUGENDRE (1999 : 13) : « l’intonation, au carrefour de la syntaxe, de la sémantique et de la pragmatique, assume une fonction essentielle dans la répartition de l’information au sein de l’énoncé ».

Au-delà de la caractérisation de la voix et de la prosodie du discours de l’enseignant, il nous paraît important d’intégrer dans la réflexion à long terme les questions suivantes :

Quelles compétences vocales et prosodiques sont attendues chez les enseignants de FLE ?
Qu’est-ce qui relève du « style vocal » et du « profil prosodique » individuel (GUIMBRETIERE 2000), et qu’est-ce qui relève de la professionnalisation de la parole et de la voix de l’enseignant ? Celle à laquelle l’auteure fait référence en évoquant « la voix professorale », ou encore AUTESSERRE et al. (2006) pour qui il s’agit d’un « outil professionnel ».
Outre la gamme fréquentielle vocale, les corrélats acoustiques de la polyphonie du discours enseignant sont aussi intéressants à prendre en compte. En effet, si « le discours pédagogique (…) porte la marque des différentes fonctions de l’enseignant » (ABOU HAIDAR 2022), dans quelle mesure ces marques se traduisent-elles sur le plan acoustique, à travers des indices vocaux et prosodiques mesurables ?
Que peut-on convertir ou transposer sur le plan de la formation ?

Pour illustrer nos propos, la présente contribution, qui a un caractère exploratoire, porte sur des analyses d’extraits de cours de FLE en présentiel datant d’avant la crise COVID de trois enseignantes expérimentées[†], ayant le français comme langue première. Les extraits retenus correspondent à des « macro-séquences monologales » (BERTRAND & al. 2007 ; ABOU HAIDAR 2022) qui permettent à l’enseignant de déployer son discours dans la durée, nous y reviendrons.

2. La dimension vocale et prosodique du discours pédagogique

Une clarification terminologique est nécessaire : si les dimensions vocale et prosodique sont imbriquées, elles ne renvoient pas tout à fait à la même réalité physiologique, acoustique, perceptive ou langagière.

2.1 Caractérisation de la voix de l’enseignant

Est vocal ce qui se rapporte à la voix, cette « signature sonore » (KONOPCZYNSKI 2005) individuelle et unique à chaque être humain. Les définitions de la voix rendent compte du caractère complexe de cet objet si difficile à appréhender que ce soit à travers une approche objective ou subjective, prenant en compte sa dimension perceptive notamment.

LANDERCY & RENARD (1977 : 236) définissent la voix comme étant un « complexe sonore dont le support est fourni par le ton laryngien et auquel peuvent s’ajouter d’autres signaux apparentés aux bruits pour constituer la parole ». Pour LHOTE (1980 : 228), « la capacité d’émettre des sons et de chanter est une propriété de la voix ». MICHEL & WENDHAL (1971) considèrent la voix comme étant « une série multidimensionnelle d’événements mesurables, ce qui signifie qu’une seule phonation peut être mesurée de différentes manières »[‡]. De nombreux auteurs mentionnent entre autres des paramètres renvoyant à la capacité pulmonaire, à la gamme fréquentielle, à l’onde glottique, ou des indices acoustiques tels que le jitter et le shimmer qui permettent une analyse très fine de l’onde sonore et des déviations périodiques. Au fil des ans, les chercheurs se sont orientés vers le concept de « qualité vocale », que l’on peut considérer avec PARRET (2002 : 39) comme étant un « produit tonal complexe résultant d’une série de facteurs hétérogènes », tout autant objectifs (par exemple résultat de la forme et du volume des cavités de résonance et des organes articulateurs) que subjectifs ou perceptifs (i.e. voix perçue comme rauque, craquée, etc…).

Ces éléments nous paraissent importants à prendre en compte car la voix est un outil professionnel pour l’enseignant. On sait que « les troubles de la voix chez les enseignants représentent une pathologie réelle et bien documentée en ORL et en phoniatrie »[§]. Ces troubles peuvent résulter d’un forçage vocal, qui peut se manifester par des cris ou une tension trop importante au niveau du larynx. Le champ de la prévention et du soin est en pleine expansion depuis quelques décennies : pour donner un exemple parmi d’autres en France, on peut citer la Mutuelle générale de l’éducation nationale (MGEN[**]), qui est un véritable acteur de la prévention des pathologies que rencontrent les enseignants sur le plan vocal, et qui organise notamment des rencontres interprofessionnelles de réflexion et de sensibilisation.

Dans le domaine de la Didactique du français langue étrangère, signalons les recherches pionnières de MOUSTAPHA-SABEUR (2008) sur la voix et la prosodie de l’enseignant, que ce soit en lien avec son « agir professoral », ou dans une perspective multimodale, articulant la voix avec le corps (voir également TELLIER & CADET 2014).

Parmi les nombreux paramètres intéressants à prendre en compte sur le plan vocal concernant le discours pédagogique, nous en retiendrons quelques-uns dans cette contribution. Pour commencer, nous nous attarderons sur le registre vocal des enseignants dans l’exercice de leur fonction : ce paramètre correspond à « la gamme de variation de la fréquence fondamentale » dans la parole (LANDERCY & RENARD 1982 : 233). Le registre vocal est affecté par des paramètres contextuels dans lequel le discours est réalisé : par exemple dans une activité de conversation, le registre vocal des femmes est compris entre 196 Hz et 392 Hz (HENRICH BERNARDONI 2001), soit un intervalle correspondant à une octave. Certains auteurs (BSIRI 2010) se sont intéressés au registre vocal des voix d’enseignants dans l’exercice de leur fonction. Les travaux mettent en avant la capacité de couvrir une large gamme fréquentielle, aussi bien dans les fréquences élevées que dans les fréquences basses. Ces résultats se démarquent de ce qui est habituellement admis pour les voix féminines dans un contexte professionnel autre que didactique : les femmes auraient tendance à aller plus volontiers vers des fréquences graves. Le registre vocal des enseignantes et enseignants est un des paramètres qui seront explorés dans ce projet.

2.2 Action enseignante et structure prosodique

De nombreux auteurs mettent en lumière les fonctions de la prosodie, à l’instar de VAISSIERE (2015) qui en cite plusieurs : « lexicale, démarcative, pragmatique, comportementale, émotionnelle, identificatrice, stylistique ». On sait que tout orateur a recours à la prosodie pour capter l’attention de son auditoire : de la même manière, l’enseignant utilisera des « stratégies intonatives pour accrocher les apprenants » (MOUSTAPHA-SABEUR 2016). De plus, l’enseignant est en position haute dans la classe : la gestion de la répartition de la parole relève de sa responsabilité. On sait qu’il utilise la prosodie pour inciter les apprenants à la prise de parole (Op. cit.), mais aussi « comme indice de contextualisation du discours didactique » dans les interactions verbales avec les apprenants dans la classe (BOUHRIS 2010).

Outre la dimension interactionnelle, la prosodie possède des fonctions plus strictement didactiques, en lien étroit avec l’action enseignante : que ce soit en acquiesçant, en réaction d’encouragement à l’égard de l’apprenant qui s’exprime oralement (voir par exemple les « aknowledgment tokens » de SIKVELAND & al. 2021), en formulant une évaluation positive à travers l’intonation (HELLERMANN 2003), ou encore en effectuant un feed-back (SKIDMORE & MURAKAMI 2010) en réponse à la production de l’apprenant tout en s’alignant sur la forme prosodique produite d’une manière « concordante » (SZCZEPEK REED 2006). L’enseignant accompagne et guide les apprenants à travers la structure prosodique de son discours, et étaye ses propos avec des formes prosodiques spécifiques :

La recherche montre que les locuteurs ont recours à la prosodie à pour de nombreuses finalités communicatives, notamment pour amplifier des éléments nouveaux ou importants dans un énoncé ; pour donner de la cohérence à un discours partagé, en indiquant comment les tours de parole des différents participants sont liés et assemblés dans un texte cohérent ; et pour exprimer leur position émotionnelle en constante évolution à l’égard de l’interaction en cours.[††]
(SKIDMORE & MURAKAMI 2010 : 69)

Traditionnellement, les études se sont donc plus volontiers focalisées sur les séquences interactionnelles enseignant-apprenant(s) et ont permis de mettre en lumière des phénomènes prosodiques remarquables. Pour notre part, ce sont les « macro-séquences monologales » (BERTRAND & al. 2007 ; ABOU HAIDAR 2022) que nous visons en priorité : ce sont en effet des séquences qui peuvent être explicatives, déclaratives, informatives, argumentatives, etc., et qui se déroulent sur des périodes temporelles relativement longues. Le principal intérêt de la prise en compte des macro-séquences est de pouvoir mettre en lumière la structuration prosodique qui affecte les constituants de taille inférieure et qui agit, au choix, comme une charpente ou une partition dans laquelle il peut être pertinent de croiser des données appartenant à différents niveaux. En outre, la prise en compte de ce temps long devrait permettre de mieux comprendre la contribution de la prosodie à l’organisation du discours pédagogique et la hiérarchisation qui s’instaure entre différents constituants. L’enseignant se doit de maintenir le groupe-classe attentif sur le long terme, tout en déroulant un discours adressé qui est doublement articulé, car :

centré sur l’apprenant qui en est la principale cible,
ainsi que sur les savoirs (et savoir-faire) qui en constituent l’essence même.

3 Le projet PROSODIP-FLE

3.1 Présentation du corpus

Le corpus PROSODIP-FLE[‡‡] est constitué d’enregistrements sonores de cours de FLE dispensés au CUEF de l’université Grenoble Alpes : ce centre universitaire d’études françaises est un centre de référence pour l’enseignement du français dans toutes ses acceptions (français langue étrangère ou seconde, sur objectifs spécifiques, etc.), dans lequel officient de nombreux enseignants et formateurs expérimentés. Sept enseignant.e.s[§§] (cinq femmes et deux hommes) ont accepté que les séances de cours de FLE dispensés auprès de publics adultes hétérogènes en classe soient enregistrés. Ce sont environ 32 heures de cours qui ont été collectées, à l’aide d’un enregistreur numérique professionnel audio de la marque Zoom et d’un micro-cravate. Les enseignants ont renseigné un formulaire de consentement. Le matériel de collecte de données sonores a été installé avant le début des cours par des étudiants vacataires qui n’ont pas assisté aux séances pour éviter d’apporter un élément parasite supplémentaire à travers leur présence.

Le corpus dans son ensemble couvre une large palette de niveaux du Cadre européen commun de référence pour les langues (CONSEIL DE L’EUROPE 2000) : depuis le niveau A1 jusqu’au niveau C1. La contribution actuelle porte sur des cours destinés à des apprenants de niveau B2 du CECRL, et se focalise uniquement comme évoqué plus haut sur les productions de trois enseignantes. Compte tenu du nombre d’heures collectées et du contenu des séances de cours, les macro-séquences monologales sont très massivement présentes.

3.2 Traitement des données

Les données sonores numérisées ont subi la même procédure de traitement :

Conversion des fichiers audio en format .wav ;
Découpage des fichiers en sous-fichiers d’une vingtaine de minutes chacun ;
Traitement préalable sous le logiciel d’enregistrement et de traitement du son Audacity[***], disponible en open source : filtrage des bruits et suppression de séquences parasites ;
Constitution et numérotation des échantillons ;
Transcription et codage sous Praat (BOERSMA & WEENINK 2001) : création des tires, transcription orthographique et phonétique, repérage et codage des unités (syllabes, groupes) et faits prosodiques ;
Analyse acoustique des données : mesures de l’intensité sonore (I, mesures en décibel – dB), de la variation de la fréquence fondamentale (F0, mesurée en Hertz – Hz), ainsi que de l’écart tonal en fonction des besoins.

La figure 1 permet d’illustrer d’une manière schématique un type de tracé parmi les nombreux qui servent de support aux études qui sont réalisées dans le cadre du projet PROSODIP-FLE : variation de l’amplitude au cours du temps (tracé oscillographique), couplée à la variation du fondamental (courbe de couleur bleue) et à la variation de l’intensité (courbe de couleur verte).

Figure 1 – Représentation schématique d’un tracé visualisant un oscillogramme, la variation du fondamental (en Hz) ainsi que de l’amplitude (en dB) de l’énoncé Ah non pas à condition que justement non (EnsB)

Lorsque cela semble opportun, une représentation spectrographique est proposée, permettant notamment de visualiser certains indices acoustiques caractéristiques des sons de la parole, par exemple les formants des voyelles, les bruits de friction des consonnes fricatives, les barres d’occlusion des consonnes occlusives, etc… comme c’est le cas dans la figure 2.

Figure 2. Visualisation spectrographique : formants vocaliques, bruits de friction, barres d’occlusion, ainsi que la variation du fondamental, sur l’énoncé Quelque chose prononcé [keʃoz] (EnsB)

3.3 Eléments d’analyse : du repérage auditif à l’analyse acoustique

Privilégier une approche qualitative des données consiste, avant toute chose, à passer en revue le corpus dans le cadre d’une étape préliminaire dans laquelle l’écoute a toute sa place. A l’ère des métadonnées et des très grands corpus, des opérations de calcul de plus en plus rapides sur des données de plus en plus massives, l’écoute, qui est un procédé particulièrement chronophage et éminemment subjectif, peut apparaître comme un choix assez saugrenu. Néanmoins, cela nous a semblé une évidence : le calculateur le plus sophistiqué serait en incapacité de détecter les implicites les plus subtils et les intentions de communication des enseignants. Une première écoute experte et stratégique est valable à plus d’un titre :

La perception auditive fait partie des compétences spécifiques élaborées que maîtrisent les spécialistes de l’oral, qu’ils soient chercheurs, didacticiens, linguistes, phonéticiens…, ou praticiens.
L’imprégnation perceptive d’un discours dans sa globalité permet de repérer des phénomènes langagiers dans lesquels les manifestations prosodiques sont une composante parmi d’autres, dans un contexte didactique spécifique (linguistique, communicative, pragmatique, individuelle, culturelle, etc.).
Le repérage d’unités remarquables sur le plan auditif est lui-même une étape préalable à la mise en place de tests perceptifs de plus grande ampleur destinés à des apprenants, de manière à pouvoir croiser les résultats de l’analyse acoustique avec les modalités de perception des phénomènes observés : les paramètres acoustiques repérés dans l’étape préliminaire sont-ils « signifiants » sur le plan perceptif à plus grande échelle ?
Ce repérage devrait également permettre d’orienter les futurs entretiens d’auto-confrontation avec les enseignants eux-mêmes : les résultats de l’analyse sont-ils conformes avec le discours que les praticiens formulent sur l’utilisation stratégique (ou non !) de la structure prosodique du discours qu’ils adressent aux apprenants ?

4 Résultats préliminaires

4.1 Exploration de la dimension vocale dans le corpus PROSODIP-FLE

Les analyses acoustiques préliminaires du registre vocal de ces trois enseignantes (cf. Figure 3) vont dans le sens d’une gamme fréquentielle plus large que celle de référence pour la conversation en français, avec des écarts tonaux très importants entre la valeur minimale et maximale de la fréquence fondamentale, F0 : alors que l’écart tonal habituellement observé pour la conversation est de 6 tons, il est de 10,5 tons chez la première enseignante (EnsA), 8,5 tons chez la deuxième (EnsB) et 8 tons chez la troisième (EnsC). Les valeurs fréquentielles maximales mesurées sont respectivement de 494Hz pour EnsA, 493Hz pour EnsB et 490Hz pour EnsC. On est donc bien au-delà de la valeur de 392Hz qui correspond habituellement[†††] à la valeur maximale d’une voix féminine dans une conversation.

Pour ce qui est des valeurs fréquentielles les plus basses de F0 mesurées dans le corpus, elles ne se démarquent pas toutes, ni autant, de la valeur minimale observée pour la conversation (196Hz) : elles sont respectivement de 150Hz (EnsA), 189Hz (EnsB) et 200Hz (EnsC). A noter qu’une valeur de F0 de 150Hz est relativement grave par rapport aux moyennes habituellement relevées pour les voix féminines.

Figure 3. Registre vocal des enseignantes EnsA, EnsB et EnsC, comparé aux valeurs de référence dans la conversation pour les femmes

Comme évoqué dans une publication antérieure sur le corpus PROSODIP-FLE :

La gamme de variation de F0 est supérieure (…) à la gamme de variation habituellement admise pour les femmes, et en particulier, elle s’élargit vers les aigus. Cela va dans le sens de ce qui est habituellement admis pour la voix des enseignants, qui a tendance à être « projetée » sur un registre fréquentiel plus aigu dans le cadre du discours pédagogique, que dans des activités de conversation ordinaires, au sein de la classe ou à l’extérieur.
(ABOU HAIDAR 2022)

Si le registre vocal est un paramètre important à prendre en compte, il est nécessaire d’effectuer un focus sur la manière dont les enseignantes jonglent entre différents registres, en fonction de plusieurs paramètres, notamment du rôle qu’elles endossent. Une distinction importante est perceptible, et acoustiquement mesurable, entre la voix projetée, c’est-à-dire la voix comme « instrument d’action sur l’espace environnant » (LE HUCHE & ALLALI 1991) adoptée par ces enseignantes, et leur voix dans des échanges ordinaires avec des apprenants ou la classe : la figure 4 illustre ce phénomène sur une courte séquence dans laquelle l’enseignante commence par un échange conversationnel avec les apprenants, avant de débuter le cours à proprement parler et d’adopter sa posture d’enseignante et sa voix projetée. Dans la première partie de cet extrait, la fréquence fondamentale et l’amplitude sont relativement basses, par rapport à l’extrait suivant au cours duquel l’enseignante adopte un registre plus aigu, et une intensité sonore plus forte, ce qui caractérise la voix projetée, didactique, professorale, adressée à l’auditoire, que l’enseignante adoptera dans la majorité des séquences de son cours.

Figure 4. Passage d’un registre d’échange ordinaire (F0=>200Hz à 220Hz) à un registre plus aigu (F0=> 300Hz à 420 Hz) et une intensité sonore plus haute, correspondant à la « voix projetée »

Le dernier phénomène qui sera abordé dans la présente contribution concerne la présence de séquences verbales que nous qualifions de « para-didactiques » dans la mesure où elles accompagnent des actions qui ne sont pas à proprement parler didactiques, mais auxquelles l’enseignante a recours : voilà voilà, on y arrive, je branche juste, je vais me mettre sur le padlet… Sur le modèle des « séries » de François Gouin[‡‡‡], l’enseignante commente son action à voix haute, en ralentissant son débit, en adoptant un registre fréquentiel plus bas que celui de la voix projetée, et en tentant de retenir l’attention des apprenants de manière à ce que celle-ci ne se dissipe pas ; à travers ces énoncés para-didactiques, la finalité de l’enseignante consiste clairement à ne pas « perdre » le groupe-classe, et non pas à expliciter ce qu’elle est en train de faire : elle pourrait brancher son appareil ou se mettre sur le padlet sans accompagner son action par une description explicite. Ces séquences para-didactiques constituent aussi des parenthèses vocales par rapport à la voix projetée, elles ont sans doute une fonction phatique de maintien du contact avec le groupe-classe.

4.2 Analyse prosodique des macro-séquences monologales

Après avoir exploré quelques phénomènes d’ordre vocal, venons-en à la dimension prosodique.

Une première étape d’écoute a permis de repérer, dans les macro-séquences monologales, des formes prosodiques qui méritent qu’on s’y attarde sur le plan acoustique. Dans ces macro-séquences, les enseignantes endossent plusieurs rôles, mais surtout, elles présentent, expliquent, illustrent, reformulent, commentent, détaillent, questionnent, reprennent, effectuent un feed-back, etc. De toute évidence, il s’agit d’un discours d’une complexité extrême. Dans ce qui suit, un focus sera effectué sur trois phénomènes :

La locution figée « c’est-à-dire », dans le cadre de séquences explicatives du type « X c’est-à-dire Y » ; cette locution rend compte d’une des fonctions principales de l’enseignant : quel que soit le cadre méthodologique de référence, quel que soit le rôle ou le statut de l’enseignant, l’une de ses principales missions consiste à expliquer et clarifier les savoirs à faire acquérir, ou les savoir-faire.
Un deuxième phénomène, de proéminence prosodique, qui s’éloigne de la forme canonique « accent final » et qui est couplé avec une focalisation intonative remarquable ;
Un dernier phénomène, de « ponctuation prosodique », à travers les mots-outils.

4.2.1 La locution figée « c’est-à-dire »

Si l’explication n’est pas l’apanage exclusif du métier d’enseignant, elle en constitue néanmoins une caractéristique particulièrement robuste : expliquer fait partie intégrante du discours pédagogique. Il s’agit pour l’enseignant de « faire comprendre, éclaircir » (Larousse), de rendre intelligible par l’apprenant en tenant compte du stade d’apprentissage. Dans les séquences explicatives du corpus, on observe en général une récurrence de la locution « c’est-à-dire » mais aussi de formes proches (i.e. « ça veut dire »). Sur le plan prosodique (Figure 5), cette locution est en quelque sorte « annoncée » par un contour intonatif fortement ascendant qui la précède, et qui est réalisé avec une valeur maximale de F0 ; cette forme intonative est d’autant plus remarquable qu’elle est systématiquement suivie par un décrochage intonatif de 4 à 5 tons ; on peut postuler l’existence d’une « alerte perceptive » formulée sur le plan intonatif par l’enseignant, à travers ce décrochage ; la locution explicative elle-même est réalisée avec une modulation intonative généralement montante, sur un modèle continuatif mineur (DELATTRE 1966). Une modélisation de cette forme prosodique est proposée en Figure 6.

Figure 5. Illustrations de la représentation prosodique de la locution c’est-à-dire et de ses variantes

Figure 6. Représentation du motif intonatif caractéristique de la locution explicative « X c’est-à-dire Y » : Rehaussement intonatif majeur / Décrochage / Rehaussement mineur

Ce décrochage intonatif vers le bas, qui peut être aussi qualifié de rupture intonative, pourrait « rendre compte d’une fonction énonciative spécifique à laquelle les enseignantes ont recours dans le cadre d’une double stratégie : interne, relative à l’organisation thématique de leur discours pédagogique, et externe, d’alerte adressée aux apprenants » (ABOU HAIDAR 2022). Si toutes les occurrences de la locution « c’est-à-dire » ne sont pas produites conformément à ce schéma prosodique, ce dernier permet une transition intonative entre un contour montant majeur H2-H4 et un contour mineur H2-H3.

4.2.2 Les proéminences prosodiques

Le phénomène de proéminence correspond à la « mise en valeur perceptive d’une syllabe, qui se manifeste par la perception d’un accent » (AVANZI & al. 2007 : 10). Le discours pédagogique se prête plus volontiers à la mobilisation de ce procédé, plutôt que la notion d’accent, « trop polysémique et trop empreinte de considérations théoriques » comme le signalent à juste titre AVANZI & al. (Op. cit.). Compte tenu de son caractère perceptif, la proéminence donne la priorité à la manière dont la saillance affecte l’unité en se démarquant des autres unités adjacentes.

Les résultats préliminaires du corpus PROSODIP-FLE mettent en avant des proéminences initiales, médianes et finales, qui peuvent tout autant affecter une syllabe isolée quelle que soit sa position, que plusieurs syllabes successives. Il est intéressant d’observer que la proéminence peut affecter des verbes renvoyant à une action pédagogique spécifique (RENforcer, CORRIger, POURSUIvre le travail) que ce soit ou non une action propre à l’enseignant (JE VAIS VOUS RENdre, je voulais JUSTE REV(e)nir) [voir Figure 7.a à 7.e).

Figure 7.a

Figure 7.b

Figure 7.c

Figure 7.d

Figure 7.e

Figure 7.f

Figure 7.g

Figure 7.h.

Les proéminences peuvent également porter sur des éléments faisant référence aux supports d’enseignement (Figure 7.f), aux ressources ou objets d’étude (Figure 7.g) ; elles peuvent aussi permettre à l’enseignante de faire une focalisation sur l’apprenant lui-même en tant qu’acteur de son apprentissage ayant des objectifs propres (que l’enseignant énonce à travers son discours), à travers une adresse directe (Figure 7.h).

Par la diversité de ces exemples, le recours aux proéminences prosodiques correspond sans doute à une stratégie discursive qui permet à l’enseignante, en fonction de l’intention didactique du moment, d’opérer un guidage à destination des apprenants, en mettant en avant sur le plan prosodique des objets didactiques, des ressources, des procédés, et plus généralement, n’importe quel paramètre de la situation didactique.

4.2.3 La ponctuation prosodique à travers les mots-outils

Tics langagiers ou véritables unités discursives stratégiques ? Ces « petits mots » comme on a coutume de les désigner, qui peuvent se prêter à une répétition machinale sans intentionnalité particulière, sont explorés dans la littérature pour leurs diverses fonctions de « ponctuation », ou de « scansion » (BOUCHARD 2002 ; MOREL & DANON-BOILEAU 1998). Ces mots-outils (alors, mais, donc, et, voilà, etc.) sont très présents dans le discours pédagogique, ils varient en fonction de l’enseignante, et semblent remplir diverses fonctions.

Dans une publication antérieure (ABOU HAIDAR 2022), il a été observé que les mots-outils tels que ‘alors, et, donc, mais…’ étaient d’autant plus mis en valeur qu’ils étaient précédés et suivis de pauses silencieuses occupant une proportion de 74% de la durée totale de la séquence, le mot-outil occupant une proportion de 26% en moyenne sur la séquence totale :

PAUSE ‖ MOT-OUTIL ‖ PAUSE

Figure 8. Illustration du temps total de pause silencieuse entourant le mot-outil « mais » (ABOU HAIDAR 2022)

« Cette distribution temporelle renforce le statut de ‘ponctuant sonore’ remarquable de ces mots-outils dans le discours pédagogique, et contribue à leur force illocutoire » (ABOU HAIDAR 2022).

L’analyse du corpus fait ressortir d’autres phénomènes. Comme illustré à travers la Figure 9, voilà voilà est produit par une des enseignantes après une pause silencieuse très longue au cours de laquelle des branchements de matériel sont effectués. La production de « voilà voilà » pourrait être destinée aux apprenants pour les aider à patienter et leur annoncer la fin des opérations techniques, ainsi qu’un réamorçage du discours pédagogique (et de la séquence de cours). Mais cette production pourrait aussi être un réflexe langagier de l’enseignante sans intentionnalité communicative particulière. Sur le plan prosodique, les valeurs du fondamental et de l’amplitude sont inférieures à celles que l’enseignante va adopter dès lors qu’elle terminera ses opérations techniques (et qu’elle mettra fin à son rôle de « technicienne ») et qu’elle reprendra son rôle d’enseignante, à travers sa voix projetée, après la pause silencieuse.

Figure 9. Ponctuation simultanée du discours et des opérations techniques

La configuration suivante (illustrée à la Figure 10) est quelque peu différente : deux ponctuants successifs, ok et alors, d’une durée respective de 0,393s et 0,580s, alternent avec des pauses plus longues (1,656s et 1s), et sont produits sur des niveaux fréquentiels et d’amplitude inférieurs à ceux que l’enseignante adopte lorsqu’elle reprend son discours et sa voix projetée après la pause (au programme…).

Figure 10. Succession de ponctuants qui précèdent la voix projetée

Ces ponctuants du discours peuvent être produits par l’enseignante comme commentaires auto-adressés ; ils peuvent aussi accompagner des opérations techniques extra-didactiques (i.e. brancher du matériel) : ils constituent sans doute également des alertes perceptives pour capter l’attention des apprenants pendant des temps morts sur le plan pédagogique, ou pour annoncer de nouvelles actions. Les pauses qui délimitent les frontières de ces mots outils semblent aider à leur mise en relief perceptive. Quant à leurs contours intonatifs, l’amplitude à laquelle ils sont produits, ou leur durée, ces paramètres varient en fonction de facteurs divers, qu’ils soient d’ordre sémantique ou relatifs à l’intentionnalité didactique, et sur lesquels il conviendra de se pencher d’une manière plus approfondie.

5. Discussion

L’analyse prosodique de la voix projetée d’enseignants de FLE comporte bien des défis. Cette étude exploratoire a permis d’identifier des phénomènes vocaux et prosodiques qui constituent un marqueur de l’action enseignante et des stratégies mises en œuvre ; à ce titre elles méritent d’être intégrées en tant que telles dans les formations initiales et continues des enseignants et futurs enseignants de FLE.

L’intention de hiérarchiser les informations à travers des paramètres prosodiques paraît évidente à travers les résultats préliminaires qui ont été présentés dans la présente étude :

Que ce soit à travers les proéminences de certaines unités, qui renvoient à des éléments spécifiques de la situation didactique ;
Ou dans les formes intonatives permettant d’alterner des rehaussements majeurs avec des décrochages intonatifs comme observé dans la locution « c’est-à-dire » ;
Ou encore à travers un marquage prosodique spécifique des mots outils.

On a pu constater également que certains phénomènes vocaux et prosodiques observés semblaient posséder des fonctions d’accompagnement, d’étayage, ou de guidage, qu’il conviendra de confronter à la perception des apprenants. Même si, à ce stade, plusieurs questions restent en suspens et mériteraient d’être explorées à travers des analyses systématiques plus ciblées, c’est le cas par exemple des proéminences :

Quels sont les corrélats acoustiques et perceptifs des proéminences observées ? Si les tracés des figures 7.a à 7.h montrent qu’une variation mélodique semble caractériser les unités proéminentes, une analyse fine de la variation du fondamental, ainsi que de la durée et de l’amplitude, et de l’articulation entre ces trois paramètres, est nécessaire.
Dans quelle mesure les enseignants ont-ils conscience de ces proéminences et jusqu’à quel point sont-ils dans un usage stratégique de ces dernières ?
A l’inverse, comment les proéminences sont-elles perçues par les apprenants eux-mêmes ? La fonction de guidage qu’un observateur externe peut facilement postuler est-elle perçue en tant que telle par les apprenants auxquels ce discours est adressé ?

A travers un recours stratégique aux paramètres vocaux et prosodiques, il paraît évident que les enseignantes cherchent à capter (et conserver) l’attention du groupe-classe, notamment dans le cadre de macro-séquences monologales qui constituent une sorte de narration didactique dont il serait intéressant de mesurer aussi bien le degré de conscience de la part des enseignantes, que les effets bénéfiques sur l’agir apprenant. Le discours pédagogique polyphonique, majoritairement marqué par la voix projetée, porte l’auditoire ; la voix adressée véhicule des savoirs, elle accompagne et guide, alerte ou encourage, elle permet à l’enseignant de décrire son action et donne donc à voir et à entendre les moments où il prend de la distance par rapport à son rôle principal ; que l’action en question soit didactique, para-didactique ou extra-didactique, in fine, les dimensions vocale et prosodique aident à structurer et réguler l’agir professoral et apprenant, à travers le dire enseignant. Les phénomènes ainsi mis en lumière à travers l’analyse acoustique de ces discours d’enseignantes expérimentées, pourraient utilement servir de base à des dispositifs de formation initiale et continue d’enseignants débutants ou de futurs enseignants. D’autant que les manifestations vocales et prosodiques constituent l’ossature permettant de lier d’une manière harmonieuse, captivante et signifiante, les différentes dimensions du discours pédagogique.

Je tiens à adresser mes plus vifs remerciements aux enseignants du centre universitaire d’études françaises (CUEF) de l’université Grenoble Alpes pour leur précieuse contribution à ce projet : Romain Berne, Valérie Blasco, Lucy Etienbled, Vincent Hardy, Gaëlle Karcher, Aliette Lauginie, Françoise Lebourg.

Références bibliographiques

ABOU HAIDAR, Laura, « Enseigner avec un visage masqué, un défi ? », The Conversation, 6 mai 2020, [en ligne], https://theconversation.com/enseigner-avec-un-visage-masque-un-defi-137728.

ABOU HAIDAR, Laura, « Analyse prosodique du discours pédagogique des enseignants de FLE », in Congrès Mondial de Linguistique Française, Orléans, 4-8 juillet 2022, [en ligne] https://www.shs-conferences.org/articles/shsconf/abs/2022/08/shsconf_cmlf2022_06001/shsconf_cmlf2022_06001.html

AUTESSERRE, Denis et al., La voix. Ses troubles chez les enseignants, Paris, Les éditions Inserm, 2006.

AVANZI, Mathieu, MARTIN, Philippe, « L’intonème conclusif : une fin (de phrase) en soi ? », Nouveaux cahiers de linguistique française, n. 28, 2007, p. 247‑58.

BERTRAND, Roxanne et al., « Distribution syntaxique, discursive et interactionnelle des contours intonatifs du français dans un corpus de conversation », Travaux Neuchâtelois de Linguistique, n. 47, 2007, p. 59‑77.

BOERSMA, Paul, WEENINK, David, « PRAAT, a system for doing phonetics by computer », Glot International, vol.5, n. 9/10, 2001, p. 341‑47.

BOUCHARD, Robert, « Le dialogue pédagogique : unité pragmatique et procédés énonciatif », in BARBERIS, Jeanne-Marie (éd.), Le français parlé. Variétés et discours, Montpellier, Publications de l’université Paul-Valéry, Montpellier, 1999, [en ligne],
www.inrp.fr/colloques/seminaires/2004/sem_didac/bouchard_article_2.pdf.

BOUCHARD, Robert, « Alors, donc, mais… “Particules énonciatives” et/ou “connecteurs” ? Quelques considérations sur leur emploi et leur acquisition », Syntaxe et sémantique, vol.1, n. 3, 2002, p. 63‑73.

BOUHRIS, Valérie, « La prosodie comme indice de contextualisation du discours didactique », in Colloque international « Spécificités et diversité des interactions didactiques : disciplines, finalités, contextes », Université de Lyon – ICAR – CNRS – INRP, 2010, [en ligne] https://hal.science/hal-00533668.

BSIRI, Linda, Guide de la voix à l’usage des enseignants, Paris, Editions Retz, 2010.

CICUREL, Francine, « Reconfigurer l’action enseignante pour la (re)découvrir : traces du répertoire didactique évolutif », Phronesis, vol. 5, n. 3-4, 2016, p. 16-27.

Conseil de l’Europe, Cadre européen commun de référence pour les langues. Apprendre, enseigner, évaluer, Strasbourg, Conseil de l’Europe, 2001.

DABENE, Louise, « Pour une taxinomie des opérations métacommunicatives en classe de langue », Etudes de Linguistique Appliquée, n. 55, 1984, p. 39‑47.

DELATTRE, Pierre, « Les dix intonations de base du français », The French review, vol. 40, n. 1, 1966, p. 1-14.

GUIMBRETIERE, Elisabeth (dir.), Apprendre, enseigner, acquérir : La prosodie au coeur du débat, Rouen, Publications de l’Université de Rouen, Collection DYALANG, 2000.

HELLERMANN, John, « The interactive work of prosody in the IRF exchange: Teacher repetition in feedback moves », Language in Society, vol. 32, n. 1, 2003, p. 79‑104.

HENRICH-BERNARDONI, Nathalie, Etude de la source glottique en voix parlée et chantée : modélisation et estimation, mesures acoustiques et électroglottographiques, perception, Thèse de Doctorat, Université Pierre et Marie Curie – Paris VI, 2001.

KONOPCZYNSKI, Gabrielle, « Les enjeux de la voix », in CASTAREDE, Marie-France, KONOPCZYNSKI, Gabrielle (dir.), Au commencement était la voix, Toulouse, Erès Editions et formation, 2005, p. 33-50.

LACHERET-DUJOUR, Anne, BEAUGENDRE, Frédéric, La prosodie du français, CNRS Editions, Paris, 1999.

LANDERCY, Albert, RENARD, Raymond, Eléments de phonétique, Didier, Bruxelles, 1977.

LHOTE, Elisabeth, Analyse et synthèse de faits de langue au niveau du larynx, Thèse de Doctorat d’Etat, Université de Strasbourg, 1980.

LHOTE, Elisabeth (éd.), Le paysage sonore d’une langue, le français, Buske Verlag, vol. 4, 1990.

LLORCA, Régine, « Jeux de groupe avec la voix et le geste sur les rythmes du français parlé », in JOHNSTON, Ruth, De SALINS, Geneviève-Dominique, L’enseignement des langues aux adultes aujourd’hui, Actes du colloque « Quelles pédagogies pour l’enseignement des langues aux adultes aujourd’hui », Saint-Etienne, Publications de l’université de Saint-Etienne, 2001, p. 141-150.

MATASCI-GALAZZI, Enrica, PEDOYA-GUIMBRETIERE, Elisabeth, « A l’écoute de Bernard Pivot : une stratégie de hiérarchisation des informations par la prosodie », Etudes de Linguistique Appliquée, vol. 66, avril 1987, p. 106-117.

MICHEL, John F., WENDHAL, Ronald, « Correlates of voice production », in KEITH, Robert W., Handbook of speech pathology and audiology, Appleton-Century-Crafts, 1971, p. 465-479.

MOREL, Marie-Annick & DANON-BOILEAU, Laurent, Grammaire de l’intonation. L’exemple du français oral, Paris, Ophrys, 1998.

MOUSTAPHA-SABEUR, Malak, La voix de l’enseignant et la communication de la langue étrangère : étude des facteurs influents liés au passé et au contexte présent, Thèse de Doctorat, Université de la Sorbonne Nouvelle – Paris III, 2008.

MOUSTAPHA-SABEUR, Malak, 2016, « Faire parler l’apprenant en classe de FLE », Recherches en didactique des langues et des cultures, vol.13, n. 2, 2016, [en ligne]. http://journals.openedition.org/rdlc/826.

PARPETTE, Chantal, « Le discours oral : des représentations à la réalité », in Actes du 2ème colloque de linguistique appliquée COFDELA, Université de Strasbourg, p. 126‑34, 1997.

PARRET, Herman, La voix et son temps, Louvain-La-Neuve, De Boeck Supérieur, 2002.

SIKVELAND, Rein Ove, SOLEM, Marit Skarbø & SKOVHOLT, Karianne, « How teachers use prosody to guide students towards an adequate answer », Linguistic and Education, vol. 61, n. 1, 2021, p.

SKIDMORE, David, MURAKAMI, Kyoko, « How prosody marks shifts in footing in classroom discourse », International Journal of Educational Research, vol. 49, n. 2‑3, 2010, p. 69‑77.

SZCZEPEK REED, Beatrice, Prosodic Orientation in English Conversation, Basingstoke, Palgrave Macmillan, 2006.

TELLIER, Marion, CADET, Lucile, 2014, Le corps et la voix de l’enseignant : mise en contexte théorique et pratique, Paris, Edition Maison des Langues, 2014.

VAISSIERE, Jacqueline, La Phonétique, Paris, Presses universitaires de France, Que Sais-je ?, 2015.

[*]PARPETTE, Chantal, « la parole de l’enseignant, richesse et complexité », conférence du 26 mai 2004, Université Lyon 2, site Eduscol. RA16_C3_FRA_1_ecouter_comprendre_pistes_reflexion_573653.pdf (education.gouv.fr)

[†] Ces enseignantes possèdent plus de quinze années d’expérience dans l’enseignement du FLE, principalement en France en centre universitaire, deux d’entre elles sont quadragénaires (EnsA et EnsB) et une est quinquagénaire (EnsC), aucune n’est fumeuse ou n’est atteinte d’une quelconque pathologie vocale.

[‡] Traduction personnelle du texte original : “a multidimensional series of measurable events, implying that a single phonation can be assessed in many different ways”.

[§] Documents pour le Médecin du Travail n° 98, 2^ème trimestre 2004, INRS, p. 221. www.inrs.fr/dms/inrs

[**] https://www.mgen.fr/le-groupe-mgen/la-prevention/dossiers/la-voix/

[††] Traduction personnelle du texte original suivant : “Research shows that speakers use prosody for a number of communicative purposes, including to place emphasis on new or important items of information in an utterance; to lend coherence to shared discourse, indicating how turns by different participants are tied together into a cohesive jointly assembled text; and to express their constantly shifting emotional stance towards the interaction-in-progress”.

[‡‡] Corpus constitué entre 2018 et 2022, au sein du laboratoire LIDILEM de l’université Grenoble Alpes, non accessible en ligne conformément aux exigences des participants.

[§§] Au moment où cette communication est publiée.

[***] https://audacity.fr

[†††] Bien entendu, cette valeur est une moyenne et non pas une référence absolue.

[‡‡‡] Dans l’histoire des méthodologies d’enseignement des langues, les travaux de François Gouin au XIX° siècle sont une référence : Gouin a conçu une méthode d’enseignement des langues par des « séries », qu’il a présentée dans son ouvrage de référence L’art d’enseigner et d’apprendre les langues paru à Paris en 1880. Cette méthode consiste à décrire oralement les actions effectuées, en utilisant notamment des verbes d’action.

Per citare questo articolo:

Laura ABOU HAIDAR, « La voix mène le jeu : la dimension vocale et prosodique du discours pédagogique », Repères DoRiF, n. 28 – Entre le théorique et l’expérientiel : l’oral en didactique du FLE. Questionnements et perspectives, DoRiF Università, Roma, novembre 2023, https://www.dorif.it/reperes/laura-abou-haidar-la-voix-mene-le-jeu-la-dimension-vocale-et-prosodique-du-discours-pedagogique/

ISSN 2281-3020

Quest’opera è distribuita con Licenza Creative Commons Attribuzione – Non commerciale – Non opere derivate 3.0 Italia.

28

Entre le théorique et l'expérientiel :
l'oral en didactique du FLE.
Questionnements et perspectives

Coordonné par
Enrica Galazzi et Patricia Kottelat