Résumé
En 2011, à Montpellier, un groupe de six universitaires linguistes et informaticiens (Rachel Panckhurst, Catherine Détrie, Cédric Lopez, Claudine Moïse, Mathieu Roche et Bertrand Verine) a décidé d’effectuer un recueil de SMS authentiques, en français, auprès du grand public, dans le respect des règles juridiques en vigueur. La collecte, qui a duré trois mois, s’est déroulée dans le cadre d’un projet intitulé sud4science LR (www.sud4science.org) et a permis de recueillir plus de 90 000 SMS (Panckhurst et al., 2013; Panckhurst, 2013; Panckhurst & Moïse, 2014). Après un travail très important de vérification, d’épuration et d’anonymisation des données par 8 stagiaires étudiants (à partir de soutiens de la MSH-M [Maison des Sciences de l’Homme de Montpellier], de la DGLFLF [Délégation générale à la langue française et aux langues de France] et du CNRS [PEPS ECOMESS, HuMaIn]), sur une période conséquente de 21 mois, les quelque 88 000 SMS restants ont été organisés en un corpus, intitulé 88milSMS. Depuis fin juin 2014, notre corpus est disponible sur la grille de services d’Huma-Num : http://88milsms.huma-num.fr/ (Panckhurst et al. 2014a, 2014b). Notre projet fait partie d’un grand projet international lancé en Belgique en 2004, sms4science, (www.sms4science.org, Fairon et al., 2006 ; Cougnon, 2014 ; Cougnon et Fairon, éd. 2014), qui avait un triple objectif : recueillir, organiser et analyser des SMS authentiques.
11. La collecte
1.1. Inscription et consentement
Après inscription et consentement légal en ligne (www.sud4science.org), les participants à la collecte — que nous appelions des donateurs de SMS, à la suite du slogan initial belge « Faites don de vos SMS à la Science » — envoyaient leur texto à autrui, en mettant les chercheurs en copie, ou bien transféraient aux chercheurs un texto (précédemment envoyé à un tiers) qui était présent dans la mémoire de leur téléphone. Pour des raisons légales, seuls les SMS envoyés (et non reçus) ont été recueillis. Un questionnaire sociolinguistique pouvait également être rempli.
2Attention : l’aspect juridique est primordial. Une collecte de données qui passe outre la règlementation en vigueur risque de produire des données inexploitables pour des raisons légales. Rappelons que les SMS constituent des données personnelles, sensibles. La vie privée doit donc être protégée. Nous avons choisi d’associer, dès le départ de notre projet, le service des affaires juridiques et institutionnelles de l’Université Paul-Valéry Montpellier 3 (SAJI) par l’entremise de sa directrice, la juriste Stéphanie Delaunay, et de son juriste correspondant informatique et libertés, CIL, Nicolas Hvoinsky. Parfois, des universitaires recueillent des données, des années durant, pour se rendre compte trop tard que celles-ci sont inutilisables, car la collecte n’a pas respecté les normes juridiques.
31.2. Utilisation d’un téléphone pour l’acquisition
Les collectes précédentes avaient associé un opérateur téléphonique à leur méthode de recueil. L’opérateur téléphonique se chargeait de l’aspect technique, en organisant la collecte via un numéro court, habituellement à quatre chiffres. Les SMS étaient envoyés par les donateurs à ce numéro court, et ensuite redirigés aux chercheurs.
4Inconvénient : selon les régions et la méthode utilisée par l’opérateur téléphonique, ce système peut se révéler défaillant si un numéro court est partagé par plusieurs projets, ayant chacun un code. Dans ce cas précis, le donateur de SMS doit indiquer le code approprié au début du SMS transféré. Cependant, dans le cas d’un SMS dépassant 160 caractères, celui-ci sera tronqué et seule la première partie du SMS sera reçue, car les parties suivantes n’auront pas été affectées du code nécessaire.
5Les chercheurs montpelliérains ont décidé de démarcher une entreprise informatique (http://www.itribustore.fr) qui leur a prêté un iPhone doté d’un abonnement SMS illimités, grâce auquel les textos ont été directement recueillis pendant 13 semaines (du 15 septembre au 15 décembre 2011). Cela constituait un pari technique, car nul ne savait si le téléphone aurait la capacité nécessaire pour recevoir tous ces SMS. Ceux-ci ont été transférés toutes les semaines sur un disque externe via un ordinateur déconnecté d’Internet (pour la confidentialité).
6Remarque : pour ce type de recueil, il est important que les données ne soient pas (re)saisies; notre méthode de collecte a permis de garantir l’authenticité des SMS.
71.3. Communication et cadeaux
La communication et la médiatisation à propos du projet sont très importantes : communiqués de presse, affiches, cartes postales, diffusion en ligne, appels téléphoniques et courriels aux journalistes, etc. Le projet sud4science LR a bénéficié d’un engouement médiatique important : des journalistes de la presse écrite (quotidiens, hebdomadaires, mensuels), en ligne, de la radio et de la télévision se sont intéressés au projet (http://www.sud4science.org/?q=fr/node/5) dès ses débuts. Même si le sujet des SMS intéressait a priori le grand public, les chercheurs avaient néanmoins soigneusement préparé la communication en amont. Par ailleurs, afin de motiver les donateurs, ils avaient prévu une loterie hebdomadaire avec l’attribution de cadeaux de remerciements, par tirage au sort.
8Remarque : grâce au système de collecte, à la médiatisation du projet et aux cadeaux associés, le projet sud4science LR a dépassé toutes nos espérances : nous pensions recueillir 30 à 50 000 SMS ; nous avons fini par récolter le plus grand nombre de SMS francophones jamais collectés.
92. Anonymisation
Durant la collecte, un stagiaire (Anthony Stifani, étudiant en Master Information et Communication à l’Université Paul-Valéry Montpellier 3) devait lire les SMS envoyés par les donateurs et en analyser manuellement une partie, afin de préparer le travail ultérieur d’anonymisation.
10Conseil : ce stagiaire travaillait seul. Étant donné la surcharge cognitive liée à la lecture des SMS (écriture parfois non standardisée, contenu concernant la vie privée, etc.), nous avons remarqué que, malgré l’accompagnement par les chercheurs, le travail était difficile à accomplir seul. Par la suite, les stagiaires étudiants ont toujours travaillé en binôme. Pour ce type de tâche, il est important que les stagiaires puissent échanger, discuter et comparer entre eux.
11Afin de protéger la vie privée, tous les SMS du corpus 88milSMS incluant des prénoms, noms, surnoms, adresses, lieux, numéros de téléphone, codes, URL, marques, courriels, etc., devaient être anonymisés. Cela a été effectué de manière (semi-)automatique, en plusieurs étapes. Un logiciel d’anonymisation intitulé Seek&Hide a été conçu par deux stagiaires (Pierre Accorsi et Namrata Patel, étudiants en Master d’Informatique à l’Université de Montpellier 2). Seek&Hide est détaillé dans Accorsi et al. (2014) et Patel et al. (2013). Trois étapes étaient proposées : 1) une phase automatique (durant laquelle des mots étaient automatiquement recherchés dans un dictionnaire, ceux qui ne présentaient aucune ambiguïté étant automatiquement anonymisés : par exemple, Cédric serait anonymisé, crayon ne le serait pas) ; 2) une phase semi-automatique pour les mots ambigus (Pierre = prénom, pierre = nom commun) ; 3) une phase de validation des SMS anonymisés automatiquement ou de modification de certaines anonymisations réalisées par l’outil lors de la phase 1. Tous les SMS devaient être relus par des annotateurs humains. Seek&Hide a convenablement anonymisé 72 % du corpus 88milSMS.
12Remarque : puisque tous les SMS devaient être relus, on peut s’interroger sur l’intérêt de proposer un logiciel pour faire le travail initial. Les 4 stagiaires (Frédéric André, Yosra Ghliss, Camille Lagarde-Belleville et Michel Otell, étudiants en Master de Sciences du Langage à l’Université Paul-Valéry Montpellier 3) qui ont procédé à l’anonymisation manuelle en ligne à l’aide de Seek&Hide et à la vérification de l’anonymisation automatique du corpus ont été unanimes : le logiciel, doté d’une interface qui surlignait les mots anonymisés ou candidats à l’anonymisation, leur a permis de travailler de manière beaucoup plus efficace, car la lecture des SMS inflige une réelle surcharge cognitive. L’opération totale d’anonymisation a nécessité 21 mois.
133. Transcodage, alignement, annotation
Après l’étape de l’anonymisation, les SMS peuvent être transcodés en français standardisé. Cela peut permettre d’éventuels traitements ultérieurs en linguistique-informatique (incluant des analyseurs morphosyntaxiques). Les chercheurs du projet ont décidé de transcoder un échantillon de 1 000 SMS, disponible en ligne (http://88milsms.huma-num.fr/).
14Remarque : d’un point de vue linguistique, il est extrêmement difficile de procéder à un transcodage qui convienne à tous les chercheurs, car les interprétations peuvent être très variées. Nous avons décidé de renoncer à un travail complet de transcodage sur l’ensemble du corpus.
15Des étudiants ont également exploré une méthode d’alignement des SMS afin de faciliter le passage du SMS brut anonymisé au SMS transcodé en français standardisé. Un étudiant (Reda Bestandji, Master I Informatique, Spécialité : « Informatique pour les sciences », Université Montpellier 2) a ensuite effectué un stage afin de proposer un modèle pour une interface en ligne permettant d’aider le travail de l’annotateur humain. Le modèle d’alignement incluant une interface s’intitule AlignSMS (Lopez et al., 2014).
16Remarque : à la suite de ce travail, nous avons renoncé à effectuer le transcodage sur l’ensemble du corpus 88milSMS, car le temps exigé par cette tâche aurait été extrêmement élevé et la façon d’effectuer le transcodage aurait vraisemblablement suscité des désaccords théoriques. En revanche, un extrait de 100 SMS annotés, à l’aide de 8 balises (TYPographie, MODification, GRAmmaire, BINettes, ABSence, LANgue, ORThographe, DIVers), est disponible : http://88milsms.huma-num.fr/
174. Diffusion
Le corpus 88milSMS est disponible sur la grille de services d’Huma-Num (http://88milsms.huma-num.fr/). Un éventuel archivage sera également effectué à l’avenir au CINES. Après consentement aux conditions d’utilisation du corpus, toute personne, via un téléchargement direct, peut avoir accès au corpus intégral, à deux échantillons (100 SMS annotés, 1 000 SMS transcodés en français standardisé), ainsi qu’au questionnaire sociolinguistique soumis aux donateurs, et à leurs réponses.
18Notre groupe poursuit ses analyses du contenu, mais a souhaité que 88milSMS soit disponible à tous, rapidement. Trop souvent, il arrive que des scientifiques gardent leurs données dans un cercle restreint de recherche, les encodent, les annotent d’une certaine manière — qui ne conviendrait pas nécessairement à tous les chercheurs d’horizons différents — et ne diffusent leurs corpus qu’après de longues années d’analyse. Pour les six auteurs du projet, l’essentiel est que tous aient accès aux données afin de permettre de réels croisements en recherche interdisciplinaire, et que l’on puisse ainsi avancer dans la compréhension de la textualité scripturale numérique contemporaine.