Palimpsestes sonores

Enseignant dans le secondaire, en France, l’auteur de ces lignes cherche à développer un projet artistique, éducatif et scientifique qui repose sur des enregistrements de parole effectués dans des conditions variées et sans limite de temps. Des procédures strictes qui assureront le respect du consentement libre et éclairé des participants seront mises en place1. Outre l’Education Nationale, les partenaires indispensables à la concrétisation de cette proposition sont des laboratoires de recherche en linguistique, des laboratoires travaillant sur l’intelligence artificielle, des laboratoires de sociologie, des Ecoles de Beaux-Arts et des artistes. La recherche de ces partenaires et les discussions avec eux tendant à affiner l’initiative constituent la première partie de notre démarche. Cette première partie possède, à notre estime, une valeur pédagogique propre.

Le présent projet voit dans les établissements scolaires des creusets susceptibles de favoriser les démarches transdisciplinaires et les sciences citoyennes2. La durée indéterminée de la présente initiative est structurellement liée à l’insertion du projet dans le cadre d’un établissement scolaire et, en particulier, de son projet d’établissement : les laboratoires universitaires et leurs crédits passent, les lycées restent… L’auteur voudrait que son initiative soit reprise par d’autres établissements et, en particulier, qu’elle le soit à l’étranger.

Seront d’abord présentés les objectifs scientifiques (I) de l’initiative.

Ils sont de plusieurs ordres.

Linguistiques. Il s’agit : (I.1.a)de se donner une base de données permettant de comparer des expressions produites dans des circonstances relativement comparables par des individus au cours du temps3 et (I.1.b) de suivre l’expression d’individus identifiés au cours de leur vie.

Médicaux. Il s’agit : (I.2.a) de rechercher les signes précurseurs de maladies neurodégénératives, une fois qu’elles surviennent, dans les archives orales constituées au cours de l’existence de l’individu et (I.2.b) de constituer une base de données permettant de comparer les performances linguistiques d’individus sains et d’individus ayant développé des maladies neurodégéneratives.

Sociologiques. Il s’agit : (I.3.a) d’établir des corrélations entre appartenance sociale et expression linguistique et (I.3.b) d’établir des corrélations, si elles existent, entre situation historique et expression linguistique. Ainsi, une question telle que les situations de crise laissent-elles des traces particulières dans le langage ? pourra être posée et étudiée.

Les objectifs éducatifs (II)

Il s’agit (II.1.a) de faire en sorte que les élèves prennent conscience des enjeux scientifiques de l’initiative et de leur montrer (II.1.b) comment l’intelligence artificielle permet de rechercher des corrélations alors que les conditions de départ des expériences ne sont pas identiques.

Il s’agit aussi (II.2.a) d’analyser son propre discours de manière contrôlée, (II.2.b) de prendre conscience de ses caractéristiques et (II.2.c.) de travailler à l’enrichir et à le rendre plus efficace ou plus précis.

Il s’agit, enfin (II.3.a) de développer les capacités de s’exprimer à l’écrit notamment par le biais du dispositif ci-après (II.3.b), conçu pour une classe de 30 élèves du secondaire :

  1. Les participants décrivent individuellement une image complexe.
  2. Ils discutent, par groupes de 5, pour donner un passé aux personnages qui apparaissent sur l’image et se répartissent ces derniers.
  3. Chaque participant rédige l’histoire de son personnage en 200 mots.
  4. Les participants rediscutent pour rendre cohérentes les histoires.
  5. Ils présentent aux autres membres de la classe les histoires des personnages de l’image.

Le dispositif (II.3.b) et complémentaire du dispositif (II.3.c), ci-après, qui se déploie sur la durée (les attracteurs dont il est question plus bas seront des images qui s’intègrent dans le dispositif décrit plus haut :

Un réseau d’histoires
Règles :
1. Chaque membre du réseau invente un personnage auquel il donne des traits de son choix.
2. Les membres du réseau font interagir leurs personnages.
3. Chaque membre écrit au sujet de son personnage un nombre déterminé de mots par semaine.
4. Chaque membre peut s’emparer de tout ce que les autres membres ont écrit pour l’utiliser à sa guise : il n’y a pas de droit d’auteur4, tout ce qui est écrit est mis à l’entière disposition des membres du réseau qui peuvent se l’approprier comme ils l’entendent.
Conseil :
Nous conseillons aux réseaux importants de se donner des ATTRACTEURS. Les attracteurs sont des contraintes qui font converger les histoires. Un attracteur peut être un lieu, un personnage, un objet… Lorsqu’un réseau se donne un attracteur, les membres l’intègrent dans leurs histoires.

La présente initiative est à rapprocher ce celle-ci : Projet « Arbres », Timburbrou (actualisation) 4 mai 2025

Les objectifs artistiques (III)

Ils sont de plusieurs ordres. Cette liste n’est pas exhaustive ; elle est appelée à évoluer au cours du travail.

Palimpseste sonore

Un volet important de cette initiative fait appel à des collaborations avec des musées. Les participants parcourent les salles équipées d’un microphone et font part de leurs impressions devant les oeuvres. L’artiste crée un palimpseste sonore qui double les oeuvres du regard que les participants portent sur elles tel que leurs voix le dévoilent.

Avant, après

Nous restons dans le musée. Les participants imaginent à voix haute ce qui a pu se passer avant la scène d’un tableau qu’ils contemplent. Ils imaginent aussi ce qu’il se passe après l’instant que le peintre a saisi.

A plusieurs

Les activités mentionnées plus haut sont conduites par des groupes de 2 à 4 personnes. Leurs échanges sont enregistrés.

Une photo

En 2015, la photo d’un petit garçon, Aylan Kurdi, gisant sur la côte turque, suscita l’horreur. Mis en place à l’époque, le dispositif nous aurait fourni des réactions que nous aurions pu confronter avec celles que nous éprouvons aujourd’hui (a) devant la même photo et (b) devant une photo comparable. L’artiste travaillera sur la mise en regard de ces paroles.

  1. L’auteur est conscient de la nécessité de faire appel à des juristes spécialisés sur la question du consentement et du travail considérable qui sera nécessaire pour s’assurer que le consentement est éclairé, en particulier, lorsqu’il s’agit de consentir à l’usage de données concernant les capacités cognitives de l’intéressé. ↩︎
  2. Les sciences citoyennes ↩︎
  3. Les conditions de collecte des données n’a pas à être standardisée de manière stricte. Un traitement par IA permettra de contrôler la variabilité due à la différence des conditions de collecte. On cherchera à éviter qu’une volonté excessive de contrôler les conditions de collecte ne crée des distorsions excessives rendant les données obtenues de peu d’intérêt. ↩︎
  4. L’absence de droit d’auteur est justifiée ainsi : « L’absence de droit d’auteur dope la créativité : si vous êtes mécontent de ce que je fais faire à votre héros et que vous voulez vous opposer à la manière dont je me l’approprie, vous avez tout loisir de créer une fiction dans laquelle je suis un usurpateur et ma suite un pur mensonge, puisque la véritable histoire est celle que vous racontez, pas la mienne. Cela choquera certains, mais songez un instant au livre le plus célèbre de toute la littérature, qui n’aurait rien été si le droit d’auteur, tel que nous le connaissons aujourd’hui avait existé du temps de Cervantès. Ce dernier, on le sait, publia le premier volume du Quichotte en 1605, le deuxième en 1615. Entre les deux parut, en 1615, le Quichotte apocryphe d’Avellaneda. Cervantès combattit Avellaneda non devant les tribunaux, mais dans son deuxième volume. Sans Avellaneda, sans la nécessité de lui répondre, Cervantès ne se serait pas hissé aux hauteurs qu’il atteint avec le second volume de son oeuvre. Si le droit d’auteur avait existé Cervantès aurait gagné un procès et perdu la gloire : la littérature moderne aurait dû se chercher un autre ouvrage fondateur. Borges aurait-il existé ? » ↩︎

Bibliographie (conçue avec l’aide de Claude)

Des corpus longitudinaux de parole individuelle existent, mais ils demeurent rares. La référence la plus directement comparable à notre initiative semble être le Up Corpus (Université de Californie, Berkeley), constitué à partir des films documentaires de Michael Apted suivant un ensemble d’individus à intervalles de sept ans sur 42 ans : Gahl, S., Cibelli, E., Hall, K. & Sprouse, R. (2014). « The « Up » corpus : A corpus of speech samples across adulthood ». Corpus Linguistics and Linguistic Theory, 10(2), 315–328. Dans le domaine de l’acquisition du langage, le système CHILDES (Child Language Data Exchange System), fondé par MacWhinney et Snow, constitue l’infrastructure internationale de référence pour l’archivage et la mise en commun de données orales longitudinales : MacWhinney, B. (2000). The CHILDES Project : Tools for Analyzing Talk. 3ᵉ éd. Lawrence Erlbaum.

L’hypothèse que des marqueurs linguistiques précurseurs de maladies neurodégénératives soient détectables dans des archives orales antérieures au diagnostic est au cœur de travaux récents. Voir notamment : Laguarta, J. & Subirana, B. (2021). « Longitudinal Speech Biomarkers for Automated Alzheimer’s Detection ». Frontiers in Computer Science, 3, article 624694. Les auteurs montrent qu’une architecture combinant seize biomarqueurs extraits de la parole brute permet de détecter et de suivre longitudinalement la progression de la maladie d’Alzheimer avec une précision supérieure à l’état de l’art.

La base de données de référence mondiale pour le type de comparaison envisagée ici est DementiaBank (Université de Pittsburgh / Carnegie Mellon), dont le corpus Pitt a été constitué de manière longitudinale entre 1983 et 1988 auprès d’environ 200 patients et 100 contrôles sains : Becker, J. T. et al. (1994). « The natural history of Alzheimer’s disease : Description of study cohort and accuracy of diagnosis ». Archives of Neurology, 51(6), 585–594. Pour une revue des méthodes d’analyse automatique de la parole appliquées à la détection de la maladie d’Alzheimer, voir : Martinc, M. et al. (2022). « Temporal Integration of Text Analyses for Alzheimer’s Detection ». Alzheimer’s Research & Therapy ; ainsi que : Shakeri, G. & Farmanbar, M. (2025). « Natural Language Processing in Alzheimer’s Disease Research : Systematic Review ». Alzheimer’s & Dementia : Diagnosis, Assessment & Disease Monitoring, e70082.

La sociolinguistique variationniste a établi de longue date l’existence de corrélations entre appartenance sociale et expression linguistique. La référence fondatrice est : Labov, W. (1966). The Social Stratification of English in New York City. Washington D.C. : Center for Applied Linguistics. Voir également : Labov, W. (2001). Principles of Linguistic Change, vol. II : Social Factors. Oxford : Blackwell. Pour une synthèse en français des travaux sur variation sociale et langue, voir : Gadet, F. (éd.) (1992). Hétérogénéité et variation : Labov, un bilan. Paris : Larousse (Languages, n° 108).

La question des traces que laissent les situations de crise dans le langage commence à être abordée empiriquement grâce aux méthodes de traitement automatique du langage. Une étude particulièrement pertinente analyse les transcriptions d’entretiens conduits 5 à 11 mois après les attentats du 13 novembre 2015 à Paris auprès de 148 individus exposés au même événement, dans le but d’identifier des marqueurs linguistiques du syndrome de stress post-traumatique : Lavergne, C. et al. (2024). « Interdisciplinary Approach to Identify Language Markers for Post-Traumatic Stress Disorder Using Machine Learning and Deep Learning ». Scientific Reports, 14, article 12 521. Sur la détection automatique de la langue du trauma à travers des domaines hétérogènes, voir aussi : Schirmer, M. et al. (2024). « The Language of Trauma : Modeling Traumatic Event Descriptions Across Domains with Explainable AI ». arXiv, 2408.05977.

L’intelligence artificielle permet de travailler avec des données collectées dans des conditions non standardisées en représentant la parole dans des espaces vectoriels à haute dimension (embeddings) où des énoncés proches sémantiquement ou prosodiquement se retrouvent proches indépendamment des conditions d’enregistrement. Deux modèles auto-supervisés dominent l’état de l’art : wav2vec 2.0 (Baevski et al., 2020, op. cit.) et HuBERT : Hsu, W.-N. et al. (2021). « HuBERT : Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units ». IEEE/ACM Transactions on Audio, Speech and Language Processing, 29, 3 451–3 460. Sur le risque de corrélations spurieuses que ces méthodes peuvent produire, et les techniques pour les identifier et les atténuer, voir : Wang, T., Sridhar, R., Yang, D. & Wang, X. (2022). « Identifying and Mitigating Spurious Correlations for Improving Robustness in NLP Models ». Findings of ACL : NAACL 2022, 1 719–1 729. Sur la découverte non guidée de structures dans des corpus oraux par apprentissage non supervisé, voir : Solan, Z., Horn, D., Ruppin, E. & Edelman, S. (2005). « Unsupervised Learning of Natural Languages ». PNAS, 102(33), 11 629–11 634.