Le français à luniversité

Fouille textuelle de corpus francophones : quelles méthodes et quels outils ?

Marc Bertin

Texte intégral

1Les éditeurs de contenus scientifiques vivent actuellement une période de profonde mutation. Le monde de l'édition scientifique et universitaire est confronté depuis quelques années à la numérisation de leurs fonds avec pour conséquence une diffusion de la connaissance accrue à travers les nouveaux vecteurs de communication. L'un des points clés est une nouvelle visibilité pour leurs fonds et cela passe, à raison, par la constitution d'indexes. Pour exemple, l'index de citation des sciences proposé par Thompson Reuters fournit une couverture inégalée de la production scientifique. Les indexes de citations sont également une des matières premières qui servent à la conception d'indicateurs bibliométriques.

2De nombreuses initiatives existent de la part des éditeurs francophones pour valoriser leurs fonds. CAIRN, qui est le fruit de quatre maisons d'édition, a relevé le défi de la coexistence des formats papier et numérique et propose actuellement en ligne des publications de sciences humaines francophones. À travers ces initiatives, de nouvelles problématiques émergent, liées à l'exploitation de ces contenus numérisés. Une fois le document savamment indexé, comment accéder à la connaissance qu'il contient et quels outils proposer pour une fouille textuelle efficace et rapide ? Les outils de recherche classiques, utilisant des mots clés, sont-ils adéquats pour répondre pleinement aux besoins d'un chercheur ?

3Face à cette problématique, nous avons cherché à définir de nouveaux outils afin de permettre une meilleure valorisation des fonds éditoriaux, dans le but de révéler la richesse du contenu textuel de ces revues. Ce défi est relevé en partie par les outils de fouille textuelle (voir les travaux autour de EXCOM1), développés au laboratoire LaLIC-STIH. Ils mettent en place une technique de fouille textuelle innovante, reposant sur la segmentation en phrases, puis l'annotation automatique et sémantique des textes afin d'identifier et de catégoriser les segments pertinents. La valorisation des articles scientifiques passe ainsi par une analyse automatique des énoncés, qui rend possibles de nombreuses applications reposant sur l'extraction et la synthèse des contenus. Cette approche a été développée dans la thèse d’Atanassova2. En explorant, en analysant et en exploitant le contexte des citations, nous pouvons mettre en relation les métadonnées des documents et des segments textuels provenant du corps du texte. Cette approche permet une analyse bibliographique plus fine et pertinente.

4Une première étude, que nous avons menée, porte sur l’étude de données textuelles provenant du corpus Erudit. Les résultats obtenus lors de la collaboration avec cet éditeur ont été présentés lors du 50e anniversaire de l'Agence universitaire à Montréal. Une seconde étude repose sur un corpus constitué en collaboration avec les éditions John Libbey Eurotext, disposant d’un catalogue conséquent de livres et de revues scientifiques spécialisées. Le corpus que nous avons traité a été constitué à partir des Cahiers d’études et de recherches francophones, traitant des thèmes de la sécheresse, de l'agriculture et de la santé. Les traitements sémantiques mis en place ont permis de produire des métadonnées enrichies, dans lesquelles les champs descriptifs usuels sont mis en relation avec certaines parties du texte intégral3.

5La méthode de l’Exploration Contextuelle4, reposant sur une carte sémantique d’un point de vue de fouille, apporte une solution pertinente à cette problématique. L’étude menée sur un corpus hétérogène montre une transversalité quant à l’utilisation des ressources linguistiques. Le système peut traiter des articles ayant des thèmes très différents. Elle offre ainsi un outil de veille innovant.

6Dans ce travail, après la segmentation des documents en phrases, le système a attribué des annotations sémantiques à ces dernières, suivant une carte sémantique des différents types/actes de citations bibliographiques (décrit dans la thèse de Bertin5). L'indexation des segments textuels annotés permet l'accès direct aux différentes relations des contextes de citation, qui seraient difficilement identifiables à partir de mots clés. Le produit est donc un outil de recherche plus avancé, où la pertinence des résultats et garantie par l'analyse textuelle préalable. Nous sommes alors en mesure de filtrer les informations selon des points de vue de fouille correspondant à des besoins utilisateurs spécifiques. Par exemple, nous pouvons directement extraire des contextes de citations les relations porteuses de définitions6, de résultats, de méthodes, ou encore de prises de position ou d'opinion 7.

7Pour le corpus d'érudit, nous avons extrait divers contextes de citations, de définitions, de méthodes, etc. En voici quelques exemples :

  • « En somme, “une science est une discipline utilisant la méthode scientifique dans le but de trouver des modèles généraux (lois)” (Bunge, 1967c, p. 17). » (Citation)

  • Contrairement à Eudeline qui tente — au prix de quelques lourds paradoxes — de définir un authentique punk français, le « jeune homme chic » n’est pas autre chose qu’un figurant de circonstance. (Désaccord, prise de position)

  • L’insertion professionnelle est définie par Huberman (1989) comme l’entrée dans la carrière jusqu’à une phase de stabilisation. (Définition)

8Donnons quelques exemples de phrases portant l'annotation sémantique de la définition du corpus de JLE :

  • « Selon l'OMS, l'anémie a été définie chez l'enfant de cinq à dix ans comme un taux d'hémoglobine inférieur à 11 g/dL [8]. »

  • « Nous avons retenu comme définition de la cécité binoculaire [2] : tout enfant présentant une acuité visuelle inférieure à 3/60 du meilleur œil avec la correction portée. »

  • « La formation Beglia a été définie par Burollet en Tunisie centrale [9]. »

9L'ensemble de ces extractions pourrait servir à une meilleure appréhension des enjeux et à une identification des experts et/ou des scientifiques qui ont proposé des classifications, des indices, étudié des phénomènes, défini des concepts. Le corpus, ainsi sémantiquement annoté, a permis l'identification d'une quinzaine de points clés autour de la définition permettant de se représenter les problématiques actuelles dans les domaines traités comme l’aridité, les problèmes de moussons ou la vulnérabilité.

10Au-delà des thématiques clés, il est également pertinent d'identifier les scientifiques qui ont défini un concept ou proposé une définition. La constitution de groupes d'experts ou l'identification de figures clés dans un domaine donné sont parmi les tâches qui peuvent bénéficier des résultats de notre système. En effet, il est souhaitable dans certains cas de connaître l'article de référence ainsi que ses auteurs, qui ont défini par exemple l’habitat de la girafe, ou ceux qui ont dressé des indicateurs tels que l’indice d’aridité.

11Cette approche permet de mettre en place une recherche d'information très précise, notamment parce qu'en déterminant les contextes de citations, nous limitons le bruit potentiel lors de la recherche d’entités nommées. Nous pouvons directement identifier le rôle d’organismes comme l’UNESCO ou la Banque mondiale dans les articles scientifiques. Par exemple, un utilisateur pourrait identifier et mettre en lumière plus rapidement l'intérêt de la Banque mondiale pour la classification de l'occupation des sols utilisés. Nous pouvons également identifier des partenaires si ceux-ci sont mentionnés dans le contexte comme l’UNESCO, la DE ou la Banque mondiale.

12Par exemple, la méthode mise en œuvre a permis d'identifier plus de 700 annotations sémantiques présentes dans les revues et exploitables à travers divers scénarios qui restent à établir en fonction des besoins des utilisateurs de ces ressources.

13Les acteurs de la francophonie seront sans doute intéressés par un développement à plus grande échelle de cette approche. En effet, la répartition des annotations et les deux scénarios proposés montrent une richesse intrinsèque des cahiers de l’AUF.

14En proposant un outil d’annotation et d’extraction des connaissances, il est envisageable pour les éditeurs de valoriser leurs fonds documentaires en proposant les segments textuels les plus saillants dans des synthèses automatiques afin d'offrir aux utilisateurs une meilleure représentation des  contenus des documents.

Haut de page

BIBLIOGRAPHIE

 Alrahabi, M., (2010), EXCOM-2 : plateforme d’annotation automatique de catégories sémantiques. Applications à la catégorisation des citations en français et en arabe. Thèse de doctorat, Université Paris-Sorbonne.

Atanassova, I., (2012), Exploitation informatique des annotations sémantiques automatiques d’Excom pour la recherche d’informations et la navigation. Thèse de doctorat, Université Paris-Sorbonne.

Bertin, M., Atanassova, I. et J.-P. Desclés, (2009), Extraction of Authors’ Definitions Using Indexed Reference Identification. In First Workshop of Definition Extraction, RANLP-2009.

Bertin, M., (2011), Bibliosémantique : une technique linguistique et informatique par exploration contextuelle. Thèse de doctorat, Université Paris-Sorbonne.

Bertin, M. et Atanassova, I., (2012), Semantic Enrichment of Scientific Publications and Metadata: Citation Analysis Through Contextual and Cognitive Analysis. D-Lib Magazine 07/2012; 18(7/8).

Desclés, J.-P., (2006), Contextual exploration processing for discourse automatic annotations of texts. In FLAIRS 2006, Invited speaker, Melbourne, Floride. AAAI Press.

CAIRN : http://www.cairn.info/

Erudit : http://www.erudit.org/

John Libbey Eurotext : http://www.jle.com/fr/

Haut de page

Notes

1  Alrahabi, M., (2010), EXCOM-2 : plateforme d’annotation automatique de catégories sémantiques. Applications à la catégorisation des citations en français et en arabe. Thèse de doctorat, Université Paris-Sorbonne.

2  Atanassova, I., (2012), Exploitation informatique des annotations sémantiques automatiques d’Excom pour la recherche d’informations et la navigation. Thèse de doctorat, Université Paris-Sorbonne.

3  Bertin, M. et Atanassova, I., (2012), Semantic Enrichment of Scientific Publications and Metadata: Citation Analysis Through Contextual and Cognitive Analysis. D-Lib Magazine 07/2012; 18(7/8).

4  Desclés, J.-P., (2006), Contextual exploration processing for discourse automatic annotations of texts. In FLAIRS 2006, Invited speaker, Melbourne, Floride. AAAI Press.

5  Bertin, M., (2011), Bibliosémantique : une technique linguistique et informatique par exploration contextuelle. Thèse de doctorat, Université Paris-Sorbonne.

6  Bertin, M., Atanassova; I: et J.-P. Desclés, (2009), Extraction of Authors’ Definitions Using Indexed Reference Identification. In First Workshop of Definition Extraction, RANLP-2009.

7  Bertin, M., (2011), Bibliosémantique : une technique linguistique et informatique par exploration contextuelle. Thèse de doctorat, Université Paris-Sorbonne.

Haut de page

Pour citer

Marc Bertin, Fouille textuelle de corpus francophones : quelles méthodes et quels outils ?
Le français à l'université , 17-04 | 2012
Mise en ligne le: 19 décembre 2012, consulté le: 24 avril 2024

Haut de page

Auteur

Marc Bertin

Université du Québec à Montréal (Canada)

Haut de page