Extraction terminologique
et cartographie de l'information
Alain Lelu (Université de Franche-Comté)
L'extraction des termes spécifiques du contenu d'un corpus, en particulier des termes composés, précieux pour caractériser les textes scientifiques, techniques, juridiques, ainsi que les expressions figées ou en voie de figement dans les corpus de presse, est utile pour accéder ponctuellement à des sujets précis. Mais elle peut être également utilisée pour caractériser de façon synthétique le contenu de ce corpus : nous dresserons un panorama des principales méthodes utilisées, à base d'algèbre linéaire ou de théorie des graphes, et présenterons au passage nos propres méthodes, qui aboutissent à une représentation cartographique des principaux thèmes traités. Nos derniers travaux portent sur la cartographie dynamique d'un flux de documents textuels.
L'exposé voudrait contribuer à une sensibilisation de la communauté INTEX / NOOJ aux traitements possibles en aval de ces logiciels ; de nombreuses options sont en effet possibles pour l'extraction terminologique, et il importe de mesurer leurs conséquences sur la suite des traitements.