Haut-lieu de la culture française, la Bibliothèque nationale de France (BnF) a toujours cherché à connaître et à comprendre ses usagers. Une tâche qui s’avère particulièrement délicate lorsqu’il s’agit d’étudier les publics de Gallica, sa bibliothèque numérique. Pour mieux les cerner, en ne se limitant pas à l’interrogation d’échantillons, la BnF s’est alliée à Télécom ParisTech, profitant ainsi de compétences pluridisciplinaires. Afin de relever le challenge, les scientifiques s’appuient sur la collecte et le traitement de big data grâce à la plateforme TeraLab de l’IMT.
Souvent considérées comme un vecteur d’innovation technologique, les big data constitueraient-elles également une révolution épistémologique ? L’utilisation des données de masse dans les sciences expérimentales n’est pas nouvelle, et a déjà prouvé ses avantages. Mais les sciences humaines ne sont pas en reste. En avril 2016, la Bibliothèque nationale de France (BnF) a mis à profit son partenariat déjà ancien avec Télécom ParisTech (voir encadré ci-dessous) pour conduire une recherche sur les utilisateurs de Gallica — sa bibliothèque de documents numérisés librement accessible en ligne. La méthodologie adoptée s’appuie en partie sur l’analyse des gros volumes de données récoltés lors des connexions des usagers.
À chaque connexion d’un utilisateur, le serveur de la BnF enregistre une donnée appelée log, relative à l’ensemble des actions effectuées par la personne sur Gallica. Cette information rassemble les pages ouvertes par le « gallicanaute » sur le site, le temps passé dessus, les liens cliqués sur la page, les documents téléchargés… Anonymisés en accord avec les règles fixées par la Cnil, les logs constituent ainsi une véritable carte du parcours de l’utilisateur, de son arrivée sur Gallica à son départ du site.
Avec 14 millions de visites par an, ces informations représentent un volume important de données à traiter. D’autant plus qu’elles sont à corréler aux notices des 4 millions de documents consultables — comportant le type de document, sa date de création, son auteur, etc. — qui regroupent également des informations importantes pour comprendre les utilisateurs et leur intérêt pour un document. Effectuer uniquement un travail sociologique de terrain, en interviewant un nombre plus ou moins important d’usagers, ne peut suffire à capter la grande diversité et complexité des parcours aujourd’hui sur le web.
Les chercheurs de Télécom ParisTech ont donc adopté une démarche pluridisciplinaire. La sociologue Valérie Beaudouin s’est associée à François Roueff, dans un dialogue entre analyse sociologique des usages par enquête de terrain d’une part et fouille et modélisation de données d’autre part. « En ajoutant ce volet big data, nous pouvons exploiter les informations des logs et des notices pour déterminer des profils types de comportement des gallicanautes » pointe Valérie Beaudouin. Les données sont collectées et traitées sur la plateforme TeraLab de l’IMT. Celle-ci offre aux chercheurs un environnement de travail clé en main, personnalisable au besoin et disposant de fonctionnalités plus poussées que des outils commerciaux de traitement des données.
À lire sur le blog : TeraLab et La Poste collaborent pour lutter contre la fraude des colis
Quels profils pour les gallicanautes ?
Sur l’ensemble des informations disponibles, le travail de François Roueff et ses collaborateurs est de développer des algorithmes d’apprentissage non supervisé pour faire émerger des catégories de comportements de la masse de données. Après six mois de travail, les premiers résultats apparaissent. Tout d’abord, seuls 10 à 15 % des utilisateurs de Gallica ont une navigation impliquant la consultation de plusieurs documents numérisés. Les 85 à 90 % usagers restants représentent des visites ponctuelles, sur un document spécifique.
« Nous observons des choses très intéressantes sur les 10 à 15 % de gallicanautes impliqués » remarque François Roueff. « Si nous analysons les sessions de connexion à Gallica en termes de diversité des types de documents (monographies, presse, photographies…), huit classes sur dix n’utilisent qu’un seul type » poursuit-il. Cela traduit un tropisme des utilisateurs vers un certain media. Lors de leurs documentations, les gallicanautes ont en général des modes de prise d’information peu variés. Certains usagers se renseigneront sur un sujet quelconque uniquement par des photographies, d’autres uniquement par des articles de presse.
Selon Valérie Beaudouin, le cœur du travail est dans la compréhension de ces comportements. « À partir de ces résultats, nous élaborons des hypothèses, qu’il faut par la suite valider en les croisant avec d’autres méthodologies d’enquête » explique la sociologue. Ainsi les analyses de données sont-elles complétées par un questionnaire en ligne à remplir par les gallicanautes, par des enquêtes de terrain auprès d’utilisateurs, ou même par l’équipement de certains usagers de caméras pour suivre leur activité face à l’écran.
Photo d’une affiche de communication de la Bibliothèque nationale de France (BnF), octobre 2016. Pour l’institution, rendre la culture accessible au public est une mission cruciale, et cela passe par un accès aux ressources numériques adapté aux utilisateurs.
« Les études de terrain permettent de comprendre par exemple que certains publics de Gallica préfèrent télécharger des documents pour les lire hors-ligne, quand d’autres préfèrent la consultation en ligne pour bénéficier de la qualité du zoom » assure-t-elle. L’équipe de Télécom ParisTech a également remarqué que pour trouver un document sur la bibliothèque numérique, certains utilisateurs préfèrent utiliser Google en y associant le mot « Gallica », plutôt que d’utiliser le moteur interne du site.
La validation des hypothèses passe également par une collaboration étroite avec les équipes de la BnF, qui fournissent la connaissance de l’institution et des outils techniques mis à disposition des utilisateurs. Philippe Chevallier, responsable des études à la délégation à la Stratégie et à la recherche de l’établissement culturel, témoigne de ce que le dialogue avec les chercheurs apporte : « Au travers des échanges avec Valérie Beaudouin, nous avons appris à valoriser les informations obtenues par les community manager sur les publics engagés sur les réseaux sociaux, ou celles des avis des usagers remontant par courriel. »
L’analyse des publics : un véritable enjeu institutionnel
Le projet a donc d’ores et déjà permis à la BnF de prendre conscience des ressources dont elle disposait pour l’analyse des usagers. Un point de satisfaction supplémentaire pour Philippe Chevallier, qui tient à la réussite de ce projet. « Ce projet est la preuve que la connaissance des publics peut être un enjeu de recherche » affirme-t-il avec passion. « C’est une question trop importante pour une institution comme la nôtre, il faut donc lui consacrer du temps, et mobiliser pour cela de vraies compétences scientifiques. » poursuit-il.
Et pour Gallica, la mission est encore plus cruciale, car il est impossible de voir un gallicanaute, là où il est toujours possible d’observer le profil majoritaire des publics des sites physiques de la BnF. « Beaucoup d’outils sont aujourd’hui proposés aux entreprises et aux institutions pour capter facilement de l’information en ligne sur les usages ou les opinions : outils d’e-reputation, outils de mesure d’audience, etc. Certains de ces outils sont intéressants, mais ils offrent peu de possibilités de contrôler leurs méthodes et donc leurs résultats. Notre responsabilité, c’est de fournir à la Bibliothèque des informations suffisamment riches et solides sur ses publics, et, pour cela, nous avons besoin de collaborer avec le monde de la recherche. » insiste Philippe Chevallier.
Pour obtenir l’information juste recherchée, ce projet courra jusqu’en 2017. Les résultats offriront à l’institution culturelle des pistes d’amélioration de ses services. « Nous avons une mission de service public, en rendant la connaissance accessible au plus de monde possible » rappelle Philippe Chevallier. À la lumière des observations des chercheurs, la question qui se posera sera celle de l’optimisation de Gallica. Qui faudra-t-il privilégier ? La minorité d’usagers qui passe le plus de temps dessus, ou la grande majorité qui ne l’utilise que sporadiquement ? Les utilisateurs ayant un profil universitaire — chercheurs, enseignants, étudiants — ou le « grand public » ?
D’ici à ce que la BnF doive se positionner sur ces questions, l’équipe pluridisciplinaire de Télécom ParisTech devra poursuivre ses efforts de description des gallicanautes. En particulier, elle cherchera à affiner la catégorisation des sessions en les enrichissant grâce à une analyse sémantique des notices des 4 millions de documents numérisés. Cela permettra de mieux cerner, dans le grand volume de données collecté, à quelles thématiques sont rattachées les sessions. Et la tâche pose des problèmes de modélisation demandant une attention particulière car le contenu des notices est par essence inhomogène : il varie fortement selon les types de documents et les conditions de leur numérisation.
Les publics en ligne, un intérêt vieux de 15 ans pour la BnF.
La première enquête effectuée par la BnF pour cerner son public en ligne remonte à 2002, soit 5 ans après le lancement de sa bibliothèque numérique, et prend la forme d’un projet de recherche croisant déjà les approches (questionnaire en ligne, analyse de logs, etc.). Dans les années suivantes, l’importance accordée aux usagers numériques grandit. En 2011, une enquête auprès des gallicanautes impliquant 3 800 utilisateurs est menée par un cabinet de conseil. Comprenant que l’étude des publics demandait un travail plus poussé, la BnF se tourne vers Télécom ParisTech en 2013 avec la volonté d’évaluer les différentes approches possibles pour une analyse sociologique des usages numériques. En parallèle, la BnF lance une première recherche big data pour mesurer la place de Gallica dans le web français de la Grande Guerre. En 2016, la sociologie des usages en ligne et les expérimentations sur les données de masse se rejoignent pour aboutir au projet de compréhension des utilisations et des utilisateurs de Gallica.
TeraLab, le big data au service des chercheurs
Teralab est une plateforme big data servant la recherche, l’innovation et l’enseignement. Elle est pilotée par l’Institut Mines-Télécom (IMT) et le groupe des écoles nationales d’économie et statistique (GENES). C’est au travers de l’appel à projet « Cloud computing et big data » du programme Investissements d’avenir que Teralab a vu le jour en 2014. L’objectif de la plateforme est de fédérer la demande en logiciels et en infrastructures pour des projets mettant en jeu de grands volumes de données. Elle apporte également la sécurité et la souveraineté qui permettent aux acteurs de mettre plus facilement leurs données au service des chercheurs.
3 comments
Pingback: TeraLab, une plateforme big data d’ambition européenne
Pingback: TeraLab : l’expertise des données au service des entreprises - I'MTech
Pingback: Anne-Sophie Taillandier - I'MTech