Données massives et informations personnelles : une révolution scientifique ?

La version originale de cet article est parue sur le site de la chaire Valeurs et politiques des informations personnelles de l’IMT.

Le 15 novembre 2019, Valérie Charolles est intervenue en keynote speaker lors du colloque organisé par l’Université de l’Assurance sur le thème « La donnée : une (r)évolution dans l’assurance ? ». Pour ce secteur où les données massives ont changé certains horizons mais qui travaille depuis longtemps à partir de données, cette première keynote visait à donner une perspective philosophique à l’évolution actuelle du traitement des informations.

L’avènement du big data marque-t-il une rupture avec les manières précédentes de manier les informations, notamment personnelles ? Constitue-t-il une révolution scientifique à proprement parler ? Ce questionnement est posé dans le débat scientifique, philosophique et intellectuel depuis un article retentissant de Chris Anderson dans la revue américaine Wireden 2008. Il y annonçait « la mort de la théorie », rendue « obsolète » par « le déluge de données » et concluait par cette formule volontairement provocatrice : « Il est temps de se demander : qu’est-ce que la science a à apprendre de Google ? ».

Un peu plus de dix ans après sa publication, et alors que le déploiement de ce qui est appelé désormais le big data, associé au« deep learning », est devenu massif, la revue Le Débat a choisi de faire un bilan en consacrant un dossier dans son numéro de novembre-décembre 2019 aux « conséquences du big data pour la science ». Elle a pour cela fait appel à des philosophes d’horizons divers (Daniel Andler, professeur émérite de philosophie des sciences de l’Université Paris-Sorbonne, Valérie Charolles, chercheure en philosophie à l’Institut Mines-Télécom Business School, Jean-Gabriel Ganascia, professeur à l’Université Paris-Sorbonne et président du comité d’éthique du CNRS) mais aussi à un physicien, (Marc Mézard, également directeur de l’ENS), en leur demandant de poser un diagnostic sur la thèse de Chris Anderson. L’ingénieur et philosophe Jean-Pierre Dupuy avait entrepris la même réflexion quelques mois plus tôt en mai, dans la revue Esprit.

Big data et modèles scientifiques

Les auteurs de ces articles reconnaissent l’apport du traitement massif des données au plan scientifique (Jean-Pierre Dupuy et Jean-Gabriel Ganascia faisant toutefois part à cet égard d’un certain scepticisme). Ce type de traitement permet d’élaborer des modèles scientifiques plus ouverts où, par agrégations successives de couches d’informations mises en corrélation, on peut faire émerger des formes de connexions, des liens. Si cet apprentissage-machine par des réseaux dits profonds a plus de 70 ans d’existence, son déploiement est relativement récent. Il a été rendu possible à la fois par le grand nombre d’informations collectées et par la puissance de calcul des ordinateurs contemporains. Il s’agit là d’un réel changement de modèle en informatique. L’apprentissage profond fournit effectivement un outil puissant, mis à disposition des scientifiques ; mais, à la différence de Chris Anderson, aucun des auteurs précédemment cités n’y voit le moyen de remplacer les modèles scientifiques élaborés à partir de théories et d’hypothèses.

Les raisons avancées sont multiples. Prédisant le futur à l’image du passé, les modèles par apprentissage-machine ne sont notamment pas faits pour les situations extrêmes et ils peuvent être trompés, ou faire apparaître des corrélations trompeuses. Ainsi, en 2009 la revue Nature consacrait un article à Google Flu Trends qui, en amalgamant des données sur les recherches effectuées par les internautes, avait prédit le pic d’épidémie de grippe deux semaines avant le modèle de l’Agence nationale de santé publique ; mais, dès 2011, l’algorithme de Google était mis en échec face au modèle de l’agence maniant expertise humaine et données recueillies. Les relations mises en évidence par les algorithmes constituent par ailleurs des corrélations et non des causalités, et l’explication, via une approche scientifique, des phénomènes mis en lumière reste nécessaire. En outre, même les algorithmes fonctionnent avec des hypothèses (c’est une de leurs briques de base) qui leur sont données par ceux qui les conçoivent et d’autres algorithmes, appliqués sur le même ensemble de données, produiraient des résultats différents.

Le traitement algorithmique des informations personnelles

En tout état de cause, et même si elle ne constitue pas un changement de paradigme, l’utilisation du big data témoigne d’un nouveau style scientifique, plus inductif, où les données ont une importance croissante (on parle d’une science « data-driven »). Or, il n’existe pas de données brutes qui se donneraient à lire d’elles-mêmes. Daniel Andler développe largement ce point, également évoqué par les autres auteurs. Les informations fournies aux ordinateurs doivent être contrôlées et annotées pour devenir des données utilisables de façon pertinente par les algorithmes. Ceux-ci ne fonctionnent pas par eux-mêmes, de façon indépendante de toute intervention humaine.

Et lorsqu’il s’agit d’informations relatives aux personnes, ce point revêt une importance toute particulière, relevée notamment par Valérie Charolles. D’une part, les limites citées plus haut concernant les résultats fournis par les algorithmes s’appliquent bien évidemment au traitement des données personnelles. D’autre part, la personne ne se résume pas aux informations qu’elle peut donner sur elle-même en utilisant les outils numériques et, ce même si ces informations sont en nombre important. En outre, la quantité des informations ne préjuge pas de leur qualité ou pertinence, à l’image de cet algorithme d’aide à l’embauche d’Amazon qui discriminait systématiquement les femmes du simple fait qu’elles étaient sous-représentées dans la base de données. Comme conclut Marc Mézard, « la vigilance est donc de mise pour imposer dès maintenant des cadres de régulation et de réflexion éthiques indispensables ».

Valérie Charolles, chercheure en philosophie à Institut Mines-Télécom Business School, membre de la chaire Valeurs et Politiques des Informations personnelles de l’IMT, chercheure associée à l’Institut Interdisciplinaire d’Anthropologie du Contemporain (EHESS/CNRS)

I'MTech L'actualité scientifique et technologique de l'IMT

Données massives et informations personnelles : une révolution scientifique ?

Big data et modèles scientifiques

Le traitement algorithmique des informations personnelles

One comment

Laisser un commentaire