Au sujet du logiciel SAMAN. Lettre à P, chercheur.

Voir aussi : http://sebastiannowenstein.blog.lemonde.fr/2017/11/04/logiciel-daide-a-la-correction-et-a-la-redaction-projet-saman/

Salut P,
Merci pour la discussion de ce matin. J’en retire deux idées, que je te propose ci-après.
1. Un logiciel d’aide à la correction, d’auto-correction et d’apprentissage. Mise en place d’un corpus.
C’est un proto-logiciel, comme tu dis, mais qui a déjà une utilité en soi. Il s’agit de développer un outil permettant, dans un premier temps, à l’enseignant de proposer des corrections utiles à l’acquisition de la langue. L’outil permettra de classer les erreurs en fonction de leur fréquence et de leur nature grammaticale ; il proposera des voies de remédiation. L’outil auquel je pense serait semi-automatique : c’est toujours l’enseignant qui corrige, le logiciel facilite la visualisation et l’explicitation des erreurs. Il me semble que le travail de correction peut s’apparenter à celui que requiert la préparation d’un corpus, ce qui me conduit à penser que le logiciel, suffisamment employé, permettrait aussi de se doter d’un corpus annoté. Une fois les pratiques et la réflexion nécessaires à opérer ce logiciel acquise, il devient un logiciel d’auto-correction et, in fine, un logiciel d’apprentissage.
Le logiciel doit permettre de procéder à un correction par paliers : il ne s’agit pas de partir du travail de l’élève pour lui retourner immédiatement un résultat final impeccable, mais de parcourir avec lui l’ensemble des étapes qui progressivement le conduiront à un bon résultat. C’est ainsi que je travaille avec mes élèves: ils m’envoient un travail, je donne des pistes de correction, qu’ils intègrent, je recorrige, etc. L’enseignant doit avoir à sa disposition des modules grammaticaux à proposer de façon adaptée aux élèves en fonction de leurs possibilités et caractéristiques. (Je crois que ces modules¹ se rapprochent de ce que tu as toi en tête quand tu me parles de ce logiciel américain du département de français).
Classer les erreurs est tout sauf simple. Cela l’est d’autant moins qu’une part considérable de celles qui sont commises ne sont pas grammaticales ou sémantiques au sens strict. Elles sont plutôt cognitives, au sens où elles proviennent d’une difficulté à faire fonctionner des capacités déjà acquises ou d’une insuffisance de volonté de faire l’effort qui consiste à aller les chercher dans son cerveau. Lorsqu’un élève te demande, après cinq années d’espagnol, comment on dit « je », tu te dis qu’une remédiation purement grammaticale risque d’être insuffisante. La plupart des élèves ont une capacité remarquable à ne pas être affectés par ce qui est dit en cours, celui-ci est, pour ces élèves, un temps qu’il faut neutraliser pour l’empêcher de trop empiéter sur la vraie vie. Ils peuvent ainsi oublier ce qui leur a été tant de fois dit : « je », c’est « yo », mais on peut souvent omettre le pronom personnel sujet.
Une autre source d’erreurs majeure, c’est l’incapacité à explorer grammaticalement ou logiquement la langue², à lancer des algorithmes de généralisation : si cantar donne canto, caminar doit donner camino. Je me rappelle t’avoir parlé de cette élève qui m’écrit pour me demander si « avait parlé » était un passé. Nous devons tenir compte de ces problèmes, qui sont massifs. Un autre problème : la suite de mots qui n’a aucun sens et que l’élève est incapable de traduire vers le français. Ce type d’énoncé a sans doute des causes multiples mais il me semble qu’il peut être rangé, à des fins de remédiation, dans la même catégorie que ceux dont je viens de parler. Je crois aussi qu’on peut considérer que dans toutes ces erreurs il y a une forme d’inhibition presque active de capacités mentales dont les élèves disposent. La question est de savoir comment conduire ces élèves à mobiliser ces capacités inhibées. Encore une fois, rien n’est simple. Ma solution³ consiste à demander aux élèves de classer eux-mêmes leurs erreurs avec mon aide. Il s’agit d’amorcer cette pensée que l’on peut réfléchir⁴, que l’on peut réfléchir à comment la langue fonctionne, que l’on ne peut pas se limiter à apprendre une leçon notée dans un cahier, que si l’on ne réfléchit pas, on n’apprend jamais une langue. Ces affirmations peuvent te paraître des généralités sans intérêt, mais le gros du problème est pourtant celui-là : il est cognitif. Un logiciel qui n’inciterait pas à se poser des questions et à réfléchir irait grossir, pour la plupart des élèves, le tas d’injonctions ou de dispositifs oubliés⁵.
Classer les erreurs, disais-je, est tout sauf simple. Mais je pense aussi que lorsque cette capacité n’est pas présente, ne fût-ce qu’à l’état d’ébauche, lorsque l’idée même de réfléchir aux erreurs est absente, rien n’est possible. Classer une erreur, même pour un spécialiste, c’est quelque chose qui ne peut pas toujours se faire de façon univoque, car, tu le sais mieux que moi, les catégories que l’on va dégager se recoupent. Je crois cependant que ce qui est fondamental, ce qui compte cognitivement, c’est d’avoir essayé de classer une erreur : ce qui compte, c’est moins le résultat final que d’avoir rendu l’erreur visible et explicite. On peut défendre l’idée pragmatique que l’exploration rationnelle de la langue est moins un but en soi qu’une technique cognitive visant à créer une trace neuronale dans un cerveau.
Le but que nous devons rechercher est de faire en sorte que les élèves gagnent peu à peu en autonomie, qu’ils apprennent progressivement, avec l’aide bienveillante du prof et du logiciel, à faire eux-mêmes ce travail de réflexion et de désinhibition des capacités dont ils disposent. Notre logiciel d’aide à la correction sera alors devenu un logiciel d’auto-correction, c’est-à-dire un logiciel d’apprentissage.
J’ajoute que ce logiciel peut être aussi opéré par un correspondant espagnol pour aider un élève français.
Ce logiciel doit s’intégrer dans un ensemble plus vaste qui vise une exploration systématique de la langue. J’ai des idées sur la question, mais n’en parle pas maintenant.
2. Un logiciel d’aide à la rédaction.
Il s’agit de développer un outil qui intégrerait les ressources qu’Internet met à la disposition de l’apprenant et qui lui permettent notamment de tester statistiquement la validité d’un énoncé. Le logiciel aurait pour mission d’identifier, dans un énoncé donné, les suites de mots⁶ non représentées dans un ou plusieurs corpus de référence⁷. Ces corpus présenteraient des caractéristiques et des niveaux de fiabilité différents : on pourrait chercher dans l’ensemble des sites hébergés dans un pays -l’Espagne, disons-, dans un site donné -elpais.com, un site contenant la législation espagnole, …-. Dans sa version la plus simple, le logiciel ne ferait que rentrer une suite de mots entre guillemets dans Google avec la contrainte de chercher uniquement dans des sites en espagnol, ou avec la mention « site:elpais.com ». Il est évident qu’au delà d’un certain nombre de mots toute suite est inexistante, il est évident aussi que des énoncés courts mais corrects peuvent ne pas exister dans un corpus… L’outil peut donner des faux négatifs, mais elle peut aussi donner la certitude que la suite de mots que l’on a choisie est juste. Le logiciel devrait donner surtout des résultats présentant des similitudes avec l’énoncé rentré. Il faudrait doubler cet outil d’un correcteur traditionnel qui identifierait les erreurs les plus fréquentes.
L’ensemble des requêtes constitue un corpus sur lequel des recherches peuvent être effectuées.
Lexique.
Je fais deux commentaires à partir d’autant de mots qui sont revenus souvent dans notre conversation :
Immersion : elle ne se décrète pas. C’est une tâche ardue que de mystifier un cerveau pour qu’il se mette en état d’immersion. Pour cela, l’écriture d’une fiction est une démarche pertinente et souple. Cette affirmation est une hypothèse dont la vraisemblance s’appuie sur mon expérience. Elle doit être testée, certes, mais il n’est pas absurde de la prendre comme hypothèse de départ. Je te fais remarquer, par ailleurs, que postuler la suffisance d’un environnement numérique pour apprendre une langue est aussi -pour autant que je sache- une hypothèse non démontrée. Pour qu’elle le soit, il faudrait démontrer que l’environnement numérique suffit à placer un élève non motivé initialement en état d’immersion. Il ne suffit pas d’administrer la preuve que la chose fonctionne pour former ces étudiants universitaires du Texas dont tu me parlais, qui avaient choisi d’apprendre le français et qui étaient sur-motivés pour le faire. Je ne récuse pas les environnements numériques, je dis juste qu’ils ne suffisent pas et que, personnellement, je souhaite travailler dans une démarche qui les situe dans le cadre de ce mécanisme relativement sophistiqué de mise en place d’une fiction.
En fait, je travaille aussi sur une autre piste pour parvenir à l’immersion : celle de la construction d’un savoir. On collabore avec un établissement étranger et on crée du savoir, on fait de la recherche si tu veux. Un exemple en est mon travail actuel sur les impostures dont je t’ai déjà parlé : nos correspondants peuvent administrer un questionnaire portant sur la question (l’Éducation Nationale a développé des outils pour créer des questionnaires qui sont de très bonne qualité, dixit mon copain sociologue au CNRS). Avec ce paragraphe, je fournis de nouvelles preuves de ma tendance à la dispersion. Je t’invite donc à lire l’entrée suivante :
Dispersion : je me disperse, certes. Mais permets-moi de faire appel à une analogie. De même qu’un médecin ne peut pas faire abstraction de son obligation de sauver son patient, je ne peux pas mettre de côté mon obligation de faire réussir les élèves pour me concentrer sur un seul volet de mon travail⁸. Pour que nous puissions travailler ensemble, il faut que je continue à faire mon boulot avec autant d’intensité que jusqu’à maintenant et qu’on se retrouve sur un terrain commun : je travaille de mon côté sur mes dadas d’immersion et nous travaillons ensemble sur les logiciels. En fait, je crois que le problème se résoudra tout seul lorsque nous aurons déterminé ou circonscrit le sujet précis sur lequel travailler ensemble. J’arrêterai alors de te lancer sur des thématiques qui ne t’emballent pas. Il ne s’agit pas de faire de moi un -mauvais- chercheur mais de réussir à faire coopérer nos pratiques respectives.

1J’ai des idées pour ces modules, je dois les mettre par écrit mais ne peux pas m’en occuper maintenant.

2Le prolixe Pinker dans The Sense of Style: The Thinking Person’s Guide to Writing in the 21st Century (2014), que j’ai vu l’autre jour dans ta bibliothèque, insiste dans un interminable chapitre sur la nécessité, pour écrire, de pouvoir explorer grammaticalement la langue. Je trouve que son chapitre est trop imbibé de générativisme, mais l’idée de base ma paraît bonne. Je crois qu’il importe peu quels sont les outils que l’on se donne pour explorer la langue, pour peu qu’ils soient à peu près cohérents. L’important, c’est qu’ils permettent une exploration méthodique, qu’ils agissent comme des vecteurs ou des opérateurs que le cerveau emploie pour procéder à cette exploration.

3Le mot « solution » doit renvoyer pour moi à quelque chose de faisable dans le cadre institutionnel dans lequel je travaille.

4Notre logiciel peut être augmenté de modules qui explicitent de façon vulgarisée ce que l’on sait sur l’apprentissage. On peut intégrer de brefs entretiens de quelques minutes où des linguistes expliquent comment fonctionnent les langues, des entretiens où des spécialistes de l’acquisition expliquent comment on pense qu’on apprend une langue, etc. Il y a un gros, un énorme, déficit de théorie et de réflexion chez nos élèves, façonnés pour ne pas penser -il s’agit d’un énoncé excessif, à l’évidence, que je laisse ici parce que je sais que tu l’interpréteras de façon restrictive-. La démarche de désinhibition des capacités intellectuelles que nous visons est plus efficace si on la montre à l’œuvre de façon générale. Il m’est arrivé de parler aux élèves de ces questions théoriques que je mentionne, mais je le fais presque en catimini, en passant, et sans avoir ni la légitimité ni les compétences pour bien le faire.

5 Il faut éviter que le dispositif soit une « boite noire », dont le fonctionnement serait inaccessible à l’apprenant. Il faut au contraire que celui-ci ait la possibilité de savoir comment on parvient à formuler la proposition de remédiation qui lui est faite. Chacun doit pouvoir améliorer le logiciel ou, du moins, l’adapter à ses propres capacités d’apprentissage.

6Peut-on imaginer un logiciel qui lance des recherches au fur et à mesure qu’on écrit et qui nous alerterait de la non existence dans un corpus donné de telle ou telle suite de mots ?

7Je me suis déjà demandé s’il serait possible de construire une grammaire avec un logiciel stupide qui ne ferait que rechercher sur Google et accepterait ou refuserait des suites arbitraires de trois ou quatre mots en fonction de leur nombre d’occurrences sur le Net. Il ne s’agirait pas d’une grammaire au sens classique du terme, faite de règles, mais d’un catalogue assez bête des énoncés trouvés un certain nombre de fois sur le Net. Cette grammaire stupide et hypothétique pourrait être parcourue par un logiciel qui accepterait ou refuserait les suites de mots que l’apprenant lui présente. Il s’agit de la même idée que dans la note 2, mais avec un travail d’exploration préalable. J’imagine qu’il faudrait réduire drastiquement les combinaisons possibles pour ne pas avoir un nombre de combinaisons impossible à traiter.

8Quelque temps après que je t’ai envoyé ce mot, je te racontais que je travaillais sur ser et estar. Tu as persiflé, pfft, mais, attends, il n’y a deux mois, tu travaillais sur les démonstratifs ! Quand on travaille sur un truc comme ça, c’est au moins un an, deux, trois, qu’on y consacre ! Certes, certes, ai-je répondu, tout en te priant d’imaginer ce que serait un cours d’espagnol dont l’enseignant se consacrerait pendant trois ans à l’étude de ser et estar… Au fait, si tu le souhaites, tu peux consulter ici le courrier que j’envoie au professeur Leonetti, dont l’article Ser y estar, estado de la cuestión m’a été utile dans la préparation de mes cours.

L	M	M	J	V	S	D
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30