Vers un dictionnaire électronique du Catalan

 

Judith Sastre (Universitat Autònoma de Barcelon)

Judith.Sastre@uab.es

 

Abstract

 

Dans le cadre du système de dictionnaires électroniques du Groupe LexSem (ANE de Linguistique Appliquée aux Langues Romanes, UAB), nous avons élaboré un prototype de dictionnaire électronique du catalan coordonée avec l’espagnol et le français. Ce prototype a été conçu à l’aide de l’environnement de développement linguistique NooJ.

 

Le dictionnaire comporte, à l’heure actuelle, environ 35 000 lemmes qui ont été puisés de textes catalans procédant de différentes sources en langue standard, notamment, d’un corpus de près de 5 Mo de texte provenant de pages Web en catalan.

 

La microstructure du dictionnaire a été développée d’après le format communément utilisé dans les dictionnaires du groupe LexSem, qui contemple des champs morphologiques, syntaxiques, sémantiques et diasystématiques. Le but de ce prototype étant d’obtenir un premier dictionnaire électronique du catalan le plus complet possible du point de vue de la reconnaissance de formes simples, nous nous sommes centrée, dans un premier moment, sur la description de la morphologie flexionnelle.

 

À cet effet, nous avons construit une collection d’automates à états finis couvrant la totalité des paradigmes flexionnels pour les noms, les adjectifs et les verbes du catalan. Au total, nous avons construit 103 automates pour les noms et les adjectifs et 126 pour les verbes. Remarquons que nous n’avons pas traité le genre naturel dans le cadre de la morphologie flexionnelle car nous le considérons un phénomène dérivationnel.

 

Dans un deuxième moment, nous avons introduit, pour toutes les entrées du dictionnaire, un premier classement syntactico-sémantique concernant les traits humain, animal, végétal, concret, abstrait, locatif et temporel. Ce classement nous a conduit à rèaliser les premiers dédoublements sémantiques au sein du dictionnaire.

 

Dans un futur immédiat, nos travaux, par rapport au catalan, suivront une double voie : d’une part, nous compléterons la macrostructure moyennant le dépouillement systématique de textes et nous entreprendrons la prise en compte de différentes variantes du catalan. D’autre part, nous précisons la microstructure avec l’introduction d’information syntactico-sémantique plus détaillée sous forme de “classes d’objets” et de structures d’arguments pour les prédicats. Par rapport à la version plurilingue du dictionnaire, nous envisageons de commencer le travail de coordination du dictionnaire avec le dictionnaire espagnol moyennant des pointeurs qui formaliseront les relations d’équivalences de traduction.