Extraction terminologique

et cartographie de l'information

 

Alain Lelu (Université de Franche-Comté)

alain.lelu@univ-fcomte.fr

 

 

L'extraction des termes spécifiques du contenu d'un corpus, en particulier des  termes composés, précieux pour caractériser les textes scientifiques, techniques, juridiques, ainsi que les  expressions figées ou en voie de figement dans les corpus de presse, est utile pour accéder ponctuellement à des  sujets précis. Mais elle peut être également utilisée pour caractériser de façon synthétique le contenu de ce corpus : nous dresserons un panorama des principales méthodes utilisées, à base d'algèbre linéaire ou de théorie des graphes, et présenterons au passage nos propres méthodes, qui aboutissent à une représentation cartographique des principaux thèmes traités. Nos derniers travaux portent sur la cartographie dynamique d'un flux de documents textuels.

L'exposé voudrait contribuer à une sensibilisation de la communauté INTEX / NOOJ aux traitements possibles en aval de ces logiciels ; de nombreuses options sont en effet possibles pour l'extraction terminologique, et il importe de mesurer leurs conséquences sur la suite des traitements.