Le Pr
Jean-Philippe Massonie est Doyen Honoraire de la Faculté des Lettres de
Besançon, Ancien Directeur du Laboratoire Mathématiques, Informatique,
Statistiques de l’Université de Franche-Comté.
Sur la suggestion de
J.-M. Viprey, j’ai rédigé ce texte donnant mes impressions sur la controverse
Molière-Corneille. Je m’en tiendrai au domaine qui est le mien, la
statistique.
Je suis en parfait
accord avec les remarques de G. Forestier (IV-2-a). L’utilisation des fréquences
(passer de Nia à Nia/NA) est un des fondements même de la statistique :
comparer des phénomènes dans deux populations de tailles différentes. Je
reviendrai sur cet aspect, de même que sur le problème de la liberté du choix
des vocables, liberté plus grande dans un texte long que dans un texte court et
sur les nombreuses questions que pose la lemmatisation.
I) Construire une
distance entre deux textes en se basant sur les fréquences des vocables, est
d’un point de vue formel le même problème que celui de la comparaison entre deux
distributions de fréquence, par exemple les distributions des fréquences
observées à partir de deux échantillons. La distance qui semble le mieux
appropriée est celle du Chi-2. Il
faut tenir compte de la taille des échantillons, ce que propose monsieur
Labbé. Mais il faut aussi tenir compte du nombre d’occurrences des descripteurs.
En effet, plus un descripteur est fréquent plus l’écart-type, c’est-à-dire
l’écart à la moyenne, est faible. Un descripteur dont le nombre d’occurrences
est faible, aura un écart-type important et donc on ne doit pas lui donner la
même importance dans le calcul que celle attribuée à un descripteur très
fréquent. La distance du Chi-2 a conduit en analyse des données à l’analyse
factorielle des correspondances.
II) Monsieur Labbé
remarque que des méthodes utilisées par des “ contradicteurs ” font
apparaître l’effet de taille des textes qu’il nomme artefact. L’analyse
factorielle des correspondances élimine en principe tout effet de taille. Or si
l’on construit un tableau avec en colonnes des tranches d’age (0-5 ans, 5-10,
etc…) et en ligne les noms des communes d’un département de la France profonde,
l’analyse factorielle des correspondances donne un splendide effet de
taille : les grandes communes d’un coté et les petites de l’autre. En
réalité, on est ici en présence d’un effet de taille structurel qui n’est pas un
artefact au sans de monsieur Labbé. Les petites communes sont des communes
rurales, dépeuplées, où reste une majorité de personnes âgées. Les grandes
communes à l’opposé ont un nombre important de gens dans les tranches d’âge
susceptibles d’avoir des enfants qui vivent avec leurs parents et donc les
tranches d’âge jeunes seront très nombreuses. Le profil des fréquences n’est pas
le même dans les deux cas, non pas directement parce que la taille est
différente mais parce qu’il se trouve que les jeunes sont plus représentés dans
les grandes communes. Donc si une distance élimine véritablement les effets de
taille, on peut quand même en trouver un, mais ce n’est pas un artefact. Il
s’agit d’un effet structurel.
III) Monsieur Labbé
impose à sa distance d’être applicable à plusieurs textes. Cela semble une
évidence ; il faut simplement que l’on construise un modèle de
représentation dans lequel chaque texte sera un point d’un espace métrique,
c’est-à-dire d’un espace sur lequel on a défini une distance. Les vocables
seront ce qui permettra de définir la position de chaque texte par rapport aux
autres.
Construire un modèle de
représentation c’est définir ce que j’appelle les unités statistiques de
base.
a) Par exemple choisir de s’en tenir à la graphie, dans ce cas
“ Monsieur Labbé ” se différenciera de “ monsieur Labbé ”.
On peut aussi décider de supprimer les majuscules de début de
phrase.
b) On peut se poser comme question : est-ce que “ nom de
dieu ” doit être pris comme un seul vocable ou décomposé en trois
vocables ?
c) Doit-on différencier “ ferme ” adjectif de
“ ferme ” substantif, de “ ferme ”
verbe ?
d) Doit-on différencier les vocables suivant leur rôle syntaxique dans la
phrase ?Par exemple :
“ J’aime beaucoup Molière ”, “ Molière n’a pas écrit cette
pièce ”, “ Cette pièce a été écrite par
Molière ”.
Dans ce cas, on regrette le latin et ses déclinaisons qui facilitent
grandement la tâche.
Ma réponse est que l’on
doit expérimenter. Quelle signification a le choix de a ou b ou c ou d ? Si
je comprends clairement la signification de ce choix alors je peux faire des
hypothèses sur ce que donnera le traitement des données par ma méthode.
Expérimenter cela revient à contrôler si l’expérience me donne des résultats
conformes à ma prévision. Là, seulement, on a une démarche
scientifique.
IV) Monsieur Labbé
impose enfin une condition qu’il appelle transitivité. Cette condition me semble
être comparable à ce que l’on appelle en classification le “ plus grand
saut ”. Je ne suis pas sûr que ce soit intéressant.
Pour conclure, je
réaffirme que je suis en total accord avec G. Forestier. La statistique ne
fournit pas de preuves absolues, mais seulement des intimes convictions et
surtout la possibilité d’aller “ réinterroger les textes au bon endroit en
posant des questions pertinentes ”. La statistique doit venir en complément
d’autres méthodes. Naïvement je pensais, il y a quelques années, que j’allais
donner des preuves. C’est Jacques Petit dans les travaux sur les variantes de
manuscrits qui m’a dit “ c’est une nouvelle approche de la lecture des
variantes, qui viendra en complément de la lecture classique et de la lecture
psychanalytique. ”
Enfin pour terminer sur
une plaisanterie, le problème posé par monsieur Labbé est un faux problème
puisque comme chacun le disait à une certaine époque ; c’est Louis XIV que
a écrit les pièces de Molière et la preuve est dans le
soutien royal à ce comédien.