Vous êtes ici : Accueil > Archives > Projet ANR Textométrie 2007-2010 > Présentation > Description du projet

Description du projet

But et caractéristiques

 

Le projet Textométrie s’est mis en place pour se donner les moyens de fédérer les développements et la recherche autour des outils de textométrie.

Commentons brièvement les termes choisis pour son intitulé.

La textométrie reprend les travaux réalisés sous des appellations diverses - lexicométrie, statistiques textuelles, logométrie... - qui s’attachent à quantifier les faits langagier, au service d’une analyse méthodique, semi-automatisée, des corpus textuels. Plus largement, ce projet envisage de nouer des collaborations avec des initiatives proches dans le domaine des techniques, outils logiciels et méthodologies de l’analyse des grands corpus numériques.

Le terme de fédération souligne que l’enjeu est d’harmoniser sans uniformiser.

La réalisation d’une plateforme suppose bien entendu un travail de développement informatique. Mais cette étape est ici l’occasion d’interroger les bases théoriques de la textométrie et également de l’étendre dans le contexte du développement actuel des corpus (XML, multilinguisme, enrichissement par traitement aut’omatique des langues, etc.) et donc d’associer étroitement au développement un véritable travail de recherche.

On vise une plateforme ouverte, avec les multiples résonances sémantiques que peut avoir ce terme :
- open source : le code informatique est public et il est écrit suivant des conventions facilitant sa lecture et son partage, pour une meilleure transparence scientifique et pérennité technique ;
- modularité : le découpage des traitements en modules ouvre une liberté de combinaison de calculs pour les exploitations ;
- évolutive : le but n’est pas (ou plutôt pas seulement) un produit fini, clos, mais une architecture ouverte, capable d’intégrer les apports de disciplines connexes comme de suivre les innovations en théorie textométrique ;
- liberté de recherche et autonomie (pas de dépendance restrictive à des acteurs liés à des intérêts économiques).

Concrètement, l’objectif à trois ans est de mettre en place un environnement de développement collaboratif solide, et d’amorcer une dynamique positive de contribution en associant à la conception et à la réalisation de la plateforme les principaux acteurs actuels de la textométrie, et en mettant à disposition des composants de base importants, des formats et spécifications, et au moins une application (i.e. une intégration de modules/composants) directement utilisable et reprenant les principales fonctionnalités originales de la textométrie. (Par application, nous entendons une application informatique, un logiciel, qui articule entre eux des modules fonctionnels et offre une interface d’utilisation.)

A ce travail de développement sera associé, en amont comme en aval, la mise au point et la diffusion d’avancées théoriques et méthodologiques, par des publications expertes mais aussi des supports pédagogiques. A ce titre, le projet réunit non seulement les concepteurs de grands logiciels textométriques, mais aussi des utilisateurs experts à même d’avoir le recul critique nécessaire pour contribuer à l’orientation des recherches et pour expliciter les apports de la textométrie et des modes de mise en oeuvre pertinents, développés pour des problématiques réelles diversifiées.

Soulignons enfin la portée réellement interdisciplinaire du projet, notamment dans le cadre de cet appel d’offre ANR sur les corpus en sciences humaines : la textométrie se nourrit de collaborations avec les disciplines de la langue et du texte, pour définir des modes d’exploration textuelle pertinents ; et réciproquement, les techniques qu’elle met au point sont d’ores et déjà fécondes dans de multiples disciplines des sciences humaines, qui y ont trouvé des solutions efficaces pour explorer leurs données, maintenant massivement sous forme de corpus numériques, avec une approche respectueuse des singularités linguistiques et des sensibilités méthodologiques et herméneutiques propres à chaque discipline.

 

Contexte et Motivation : Pourquoi un tel projet aujourd’hui ?

 

Faute d’une mobilisation maintenant, le savoir-faire français exceptionnel en lexicométrie et statistiques textuelles est en passe de se perdre, alors même qu’il est de plus en plus nécessaire aux nouvelles pratiques de recherche sur corpus et plus généralement par le déploiement de la société de l’information.

- capitalisation des connaissances : les chercheurs qui ont mis au point les outils de référence de la lexicométrie ont commencé leurs travaux il y a une trentaine d’années, ils vont se retirer du développement et de la maintenance des techniques et outils ; d’autres chercheurs sont en début de carrière, ont déjà une pratique experte de la textométrie, et sont motivés pour reprendre et développer ce domaine dans le contexte actuel.
- nouvelles versions : la plupart des grands logiciels généraux de lexicométrie existants (Hyperbase, Weblex, Lexico 3) rencontrent les limites de leur version actuelle, qui les amène à envisager un nécessaire redéveloppement.
- pertinence dans le contexte actuel : nouveaux corpus (structurés, stylés, étiquetés, parallèles, mutables, etc.), nouvelles échelles de taille comme de mémoire et vitesse de traitement, ampleur de la demande sociale et des besoins de la société de l’information... Il s’agit bien de faire non pas une simple réécriture de logiciels dans un langage informatique et dans des cadres technologiques modernes, mais bien de mettre à profit cette étape pour repenser, généraliser et étendre les modèles de données et les principes de calcul, en s’appuyant sur l’expérience acquise et en optant pour un environnement de développement solide et pérenne.
- meilleure diffusion : rendre les logiciels de la recherche plus accessibles, leur donner plus de puissance et de potentiel. Le traitement des "données textuelles" reste l’option "de luxe" de quelques gros logiciels statistiques (Le Sphinx / version Lexica, SPAD / version SPAD-T).
- valorisation internationale : au plan international sont déjà disponibles d’excellents outils d’analyse textuelles, tout particulièrement des moteurs de recherche avancés et performants, et des concordanciers très riches. Mais les modélisations linguistiques fines mises au point par la lexicométrie (comme le calcul de spécificités par la loi hypergéométrique, les cooccurrences, les rafales) sont très souvent ignorés, au profit de formules de calcul heuristiques moins bien maîtrisées (tf.idf, information mutuelle, etc.). Il y a donc un réel savoir-faire de la communauté de la textométrie qui mérite d’être diffusé plus largement.
- consensus fort : ce projet rassemble les acteurs de la recherche des deux générations (notamment les concepteurs des trois principaux logiciels textométriques généraux académiques - Hyperbase, Lexico 3, et Weblex- ainsi que les concepteurs d’autres logiciels d’analyse textuelle reconnus, comme SATO, SPAD-T/DTM, Astartex, Arboling, Xaira), permettant la capitalisation de l’expérience acquise et les nouveaux développements théoriques et logiciels nécessités par le contexte actuel.
- fédération de compétences et de moyens : les moyens nécessaires au développement et à la maintenance d’un logiciel dans la durée ne sont plus à la portée d’un laboratoire ou d’une équipe de recherche isolée. Or les trois logiciels académiques autour desquels se développent les traitements textométriques (Hyperbase, Weblex, Lexico 3) sont largement en intersection et ont tous trois besoin d’une réactualisation. Plutôt que d’entreprendre une triple maintenance-actualisation, extrêmement dispendieuse en moyen et en énergie, les concepteurs de ces trois logiciels préfèrent unir leurs efforts autour d’une plateforme unique partagée. Cette limitation des moyens s’avère même plutôt une opportunité : la poursuite d’un développement communautaire, open-source et modulaire, est une solution scientifiquement plus satisfaisante et techniquement plus solide.
- transparence, souplesse et évaluation : la mise au point de formats standards pour les objets textométriques (segmentation des textes, tableaux de données, résultats de calculs, etc.) à portée internationale (notamment dans le cadre du réseau ATONET ainsi qu’en profitant de l’expérience du consortium de la TEI), et l’organisation modulaire des traitements, rend possible une très grande souplesse de traitement, au plus près des besoins des utilisateurs, et aussi une meilleure évaluation de la qualité et de la pertinence de tel ou tel algorithme ou calcul. On peut en effet ainsi comparer les effets de différentes segmentations ou de différentes mesures statistiques.

 

Stratégie et approche

 

- harmoniser sans uniformiser : il s’agit de respecter l’existant et de capitaliser l’expérience acquise, sans pour autant être inféodé à un outil particulier ;
- open source : il est proposé de développer dans un cadre juridique éprouvé, de type GPL (GNU General Public License). Une déclinaison de ce cadre juridique compatible avec le droit français a été élaborée par la Direction des Affaires Juridiques du CNRS, sous la forme d’un contrat de licence pour le logiciel libre compatible avec la licence GPL ;
- développement collaboratif, libre, et standardisation : pour mutualiser les efforts et assurer la pérennité des outils appréciés. L’enjeu est de passer de n logiciels soutenus chacun par une personne à une plateforme fédérative coordonnant les apports de n personnes. Ce genre d’architecture a fait ses preuves (cf. la communauté très motivée et productive du logiciel libre, et ses réalisations dont certaines de très grande envergure comme Linux, Open Office...) ;
- mettre en place un cadre et créer les conditions favorables au développement collaboratif. Il s’agit non pas de convaincre les partenaires potentiels, ni même d’exclure ceux qui sont d’abord réticents à l’open-source pour diverses raisons, mais de susciter une dynamique positive : donner envie de mettre des composants en commun et d’impliquer ses compétences, parce que chacun y trouve naturellement son intérêt (disponibilité de composants de qualité, valorisation, support de développement et de maintenance, communauté scientifique, etc.). Pour initier une telle dynamique il faut un investissement initial, qui justifie le montage de ce projet ;
- environnements (Windows, Mac, Unix/Linux) : nous proposons une architecture duale multiplateforme / accès par serveur sur internet ;
- être en dialogue étroit avec les communautés scientifiques des domaines connexes : pour la constitution et le traitement de corpus (philologie numérique, codage XML, Traitement Automatique des Langues - pour l’étiquetage morphosyntaxique par exemple) et avec les perspectives et les besoins différents de diverses disciplines (histoire dont histoire politique, sociologie, linguistique dont lexicologie, littérature, médiévistique, philologie, etc.).

Un tel dialogue est indispensable pour assurer la pertinence des outils développés.

Le projet Textométrie vise à développer une plateforme open-source de textométrie avec une équipe pluridisciplinaire très complète ayant fait ses preuves par la réalisation de logiciels innovants et très diffusés.

Il s’agit de :
- pérenniser et mutualiser le développement de ces logiciels à travers une implémentation ouverte sur une plateforme java ;
- développer des fonctionnalités innovantes en textométrie (notamment en intégrant dans ses modèles de calculs les résultats des outils de TAL (Traitement Automatique de la Langue), en s’appliquant à des corpus multilingues (dont l’arabe et le chinois) ainsi qu’à des corpus de langue aussi bien écrite (corpus textuels) que parlée (corpus oraux) ;
- assurer une diffusion rapide et pertinente de ces méthodes et outils auprès des disciplines des SHS (dont : littérature, histoire politique, linguistique : analyse de discours, sémantique et syntaxe) en associant étroitement au projet des experts de ces disciplines.


Mise à jour : 26 avril 2013.