Importation de dictionnaires au format INTEX et utilisation pour le filtrage de motifs.

 

Olivier Cantin, Tassadit Amghar et Bernard Levrat
( LERIA, Université d’Angers)

cantin@info.univ-angers.fr, amghar@info.univ-angers.fr, levrat@info.univ-angers.fr

 

 

Abstract

 

Nous développons actuellement une recherche visant à automatiser l’exploitation des documents disponibles dans un domaine spécifique de la biologie au moyen de techniques d’extraction terminologique et de la recherche de relations sémantiques ou sémantico-lexicales non nécessairement conventionnelles susceptibles d’exister entre ces termes. Dans un souci d'efficacité, et parce que la classe de langages à laquelle appartiennent les motifs correspondant aux termes et relations recherchés le permet, nous avons choisi de privilégier les traitements par machines d'états finis et en particulier ceux que permettent les applications fournies par la plateforme INTEX, applications que nous utilisons en ligne au sein de scripts Perl, pour la plus grande partie de ce travail.

Afin d’avoir accès aux lexiques de termes spécialisés nécessaires à notre travail, nous avons dû construire de façon automatique des dictionnaires (DELAF et DELACF). Ainsi par exemple, le terme AT2 est découpé en 2 lemmes, d’une part AT faisant référence à la préposition at et d’autre part 2, le nombre. Un découpage analogue se produit avec le terme Bcl-2. Un problème crucial du vocabulaire de la biologie est le nombre important de synonymes qu’il comporte. La base de données LocusLink (devenue récemment Entrez Gene) stocke les informations relatives à chacun des gènes disponibles dans les bases de données du NCBI (National Center for Biotechnology Information). Plutôt que d’expliciter la relation de synonymie, nous l’avons représentée au sein des dictionnaires (DELAF et DELACF) en associant le même lemme à chaque synonyme d’une même entité. Le métalangage des expressions régulières d’INTEX permet alors de faire simplement référence à l’ensemble des synonymes d’une même entité au moyen de la désignation de ce lemme. C’est ainsi que pour chacun des gènes rencontrés dans notre corpus, nous avons choisi pour lemme, le nom ou symbole correspondant à sa désignation officielle et c’est celui-ci qui sera associé à ses différentes variantes. On notera ici qu’en raison des symboles utilisés par la grammaire décrivant les noms d’entités (gènes ou protéines), nous utilisons un alphabet spécifique constitué de l’alphabet anglais enrichi des chiffres et de caractères spéciaux.

Une autre particularité des textes de notre corpus est l’existence d’une terminologie spécifique. C’est par exemple le cas de termes comme antisense ou pharmacotherapeutic trouvés dans un corpus d’apprentissage relatif aux maladies cardiovasculaires. C’est pourquoi nous avons ajouté des lexiques spécialisés disponibles en ligne, comme le LEXICON de l’UMLS (Unified Medical Language System) et la GeneOntology. Le premier a enrichi les delaf et delacf avec des classes de termes déjà existantes sous INTEX, la deuxième avec trois nouvelles classes de termes correspondant aux trois thèmes de la GeneOntology : les fonctions biologiques, les fonctions moléculaires et les composants cellulaires.

Enfin, pour palier la grande évolutivité de la terminologie du domaine biologique et éviter les mises à jour trop fréquentes, nous avons développé des grammaires locales afin d’identifier les termes que nos données ne prendraient pas directement en compte. Ces grammaires locales utilisent des règles lexicales simples comme, par exemple, l’expression régulière <MOT>+#+<NB> qui sera considérée comme un motif avec lequel filtrent des noms de gènes non encore répertoriés. Ces grammaires, qui permettent de faire de la prédiction sur les termes inconnus, nous ont permis de réduire le nombre termes inconnus de plus de 90%.