Le Pr Jean-Philippe Massonie est Doyen Honoraire de la Faculté des Lettres de Besançon, Ancien Directeur du Laboratoire Mathématiques, Informatique, Statistiques de l’Université de Franche-Comté.

 

Sur la suggestion de J.-M. Viprey, j’ai rédigé ce texte donnant mes impressions sur la controverse Molière-Corneille. Je m’en tiendrai au domaine qui est le mien, la statistique.

Je suis en parfait accord avec les remarques de G. Forestier (IV-2-a). L’utilisation des fréquences (passer de Nia à Nia/NA) est un des fondements même de la statistique : comparer des phénomènes dans deux populations de tailles différentes. Je reviendrai sur cet aspect, de même que sur le problème de la liberté du choix des vocables, liberté plus grande dans un texte long que dans un texte court et sur les nombreuses questions que pose la lemmatisation.

 

I) Construire une distance entre deux textes en se basant sur les fréquences des vocables, est d’un point de vue formel le même problème que celui de la comparaison entre deux distributions de fréquence, par exemple les distributions des fréquences observées à partir de deux échantillons. La distance qui semble le mieux appropriée est celle du Chi-2. Il  faut tenir compte de la taille des échantillons, ce que propose monsieur Labbé. Mais il faut aussi tenir compte du nombre d’occurrences des descripteurs. En effet, plus un descripteur est fréquent plus l’écart-type, c’est-à-dire l’écart à la moyenne, est faible. Un descripteur dont le nombre d’occurrences est faible, aura un écart-type important et donc on ne doit pas lui donner la même importance dans le calcul que celle attribuée à un descripteur très fréquent. La distance du Chi-2 a conduit en analyse des données à l’analyse factorielle des correspondances.

 

II) Monsieur Labbé remarque que des méthodes utilisées par des “ contradicteurs ” font apparaître l’effet de taille des textes qu’il nomme artefact. L’analyse factorielle des correspondances élimine en principe tout effet de taille. Or si l’on construit un tableau avec en colonnes des tranches d’age (0-5 ans, 5-10, etc…) et en ligne les noms des communes d’un département de la France profonde, l’analyse factorielle des correspondances donne un splendide effet de taille : les grandes communes d’un coté et les petites de l’autre. En réalité, on est ici en présence d’un effet de taille structurel qui n’est pas un artefact au sans de monsieur Labbé. Les petites communes sont des communes rurales, dépeuplées, où reste une majorité de personnes âgées. Les grandes communes à l’opposé ont un nombre important de gens dans les tranches d’âge susceptibles d’avoir des enfants qui vivent avec leurs parents et donc les tranches d’âge jeunes seront très nombreuses. Le profil des fréquences n’est pas le même dans les deux cas, non pas directement parce que la taille est différente mais parce qu’il se trouve que les jeunes sont plus représentés dans les grandes communes. Donc si une distance élimine véritablement les effets de taille, on peut quand même en trouver un, mais ce n’est pas un artefact. Il s’agit d’un effet structurel.

 

III) Monsieur Labbé impose à sa distance d’être applicable à plusieurs textes. Cela semble une évidence ; il faut simplement que l’on construise un modèle de représentation dans lequel chaque texte sera un point d’un espace métrique, c’est-à-dire d’un espace sur lequel on a défini une distance. Les vocables seront ce qui permettra de définir la position de chaque texte par rapport aux autres.

Construire un modèle de représentation c’est définir ce que j’appelle les unités statistiques de base.

            a) Par exemple choisir de s’en tenir à la graphie, dans ce cas “ Monsieur Labbé ” se différenciera de “ monsieur Labbé ”. On peut aussi décider de supprimer les majuscules de début de phrase.

            b) On peut se poser comme question : est-ce que “ nom de dieu ” doit être pris comme un seul vocable ou décomposé en trois vocables ?

            c) Doit-on différencier “ ferme ” adjectif de “ ferme ” substantif, de “ ferme ” verbe ?

            d) Doit-on différencier les vocables suivant leur rôle syntaxique dans la phrase ?Par exemple :

            “ J’aime beaucoup Molière ”, “ Molière n’a pas écrit cette pièce ”, “  Cette pièce a été écrite par Molière ”.

            Dans ce cas, on regrette le latin et ses déclinaisons qui facilitent grandement la tâche.

Ma réponse est que l’on doit expérimenter. Quelle signification a le choix de a ou b ou c ou d ? Si je comprends clairement la signification de ce choix alors je peux faire des hypothèses sur ce que donnera le traitement des données par ma méthode. Expérimenter cela revient à contrôler si l’expérience me donne des résultats conformes à ma prévision. Là, seulement, on a une démarche scientifique.

 

IV) Monsieur Labbé impose enfin une condition qu’il appelle transitivité. Cette condition me semble être comparable à ce que l’on appelle en classification le “ plus grand saut ”. Je ne suis pas sûr que ce soit intéressant.

 

Pour conclure, je réaffirme que je suis en total accord avec G. Forestier. La statistique ne fournit pas de preuves absolues, mais seulement des intimes convictions et surtout la possibilité d’aller “ réinterroger les textes au bon endroit en posant des questions pertinentes ”. La statistique doit venir en complément d’autres méthodes. Naïvement je pensais, il y a quelques années, que j’allais donner des preuves. C’est Jacques Petit dans les travaux sur les variantes de manuscrits qui m’a dit “ c’est une nouvelle approche de la lecture des variantes, qui viendra en complément de la lecture classique et de la lecture psychanalytique. ”

Enfin pour terminer sur une plaisanterie, le problème posé par monsieur Labbé est un faux problème puisque comme chacun le disait à une certaine époque ; c’est Louis XIV que a écrit les pièces de Molière et la preuve est dans le soutien royal à ce comédien.

 

jean-philippe.massonie@wanadoo.fr