Contraindre les algorithmes pour limiter leur pouvoir discriminant

Recommandation musicale, aide au diagnostic médical, surveillance des populations ou encore parcours universitaire et recrutement professionnel : les algorithmes sont partout, ils transforment notre quotidien. Et parfois, ils nous trompent. En cause, des biais statistiques, économiques et cognitifs inhérents à la nature même des algorithmes actuels, nourris par des données massives pouvant être partielles ou inexactes. Des solutions sont pourtant possibles pour limiter et corriger ces biais. Stéphan Clémençon et David Bounie, respectivement chercheurs en machine learning et en économie à Télécom ParisTech, viennent de publier un rapport recensant les approches déjà connues et celles en cours d’exploration.

 

Les questions d’éthique et d’équité liées aux algorithmes sont de plus en plus débattues au sein de la communauté scientifique. Textes, images, vidéos, sons… les algorithmes sont nourris par des données que nous leur fournissons et à partir desquelles ils apprennent, par renforcement. Leurs décisions s’appuient donc sur des critères subjectifs : les nôtres, et ceux des données fournies. Certains biais peuvent ainsi être appris et amplifiés par l’apprentissage automatique. Il en résulte alors une déviation de l’algorithme par rapport à un résultat censé être neutre, et des discriminations potentielles en fonction de l’origine, du genre, de l’âge, de la situation financière, etc. Dans leur rapport « Algorithmes : biais, discriminations et équité », une équipe pluridisciplinaire[1] de chercheurs de Télécom ParisTech et de l’université Paris Nanterre propose une réflexion profonde sur ces biais. Ils posent les questions essentielles : Pourquoi les algorithmes sont-ils susceptibles d’être faussés ? Ces biais sont-ils évitables ? Si oui, comment les limiter ?

De fait, les auteurs du rapport sont catégoriques : l’algorithme n’est pas neutre. D’une part, parce qu’il est conçu par un humain. D’autre part, parce que « ces biais proviennent en partie de la mauvaise représentativité des données d’apprentissage » explique David Bounie, chercheur en économie à Télécom ParisTech et coauteur du rapport. Exemple : l’algorithme de recrutement du géant Amazon vivement critiqué en 2015 pour avoir discriminé les candidatures féminines. En cause, un déséquilibre dans l’historique de ses données préexistantes : les embauches sur les dix dernières années étaient largement masculines. L’algorithme avait donc été entrainé par un corpus d’apprentissage genré. « Garbage in, garbage out » comme le dit un adage dans le domaine. Autrement dit en français : si les données en entrées sont mauvaises, les résultats le seront aussi.

À lire sur I’MTech : Biais des algorithmes, discrimination et équité

Stéphan Clémençon est chercheur en machine learning à Télécom Paristech et également coauteur du rapport. Selon lui « c’est ici l’un des problèmes de plus en plus pointé du doigt en matière d’intelligence artificielle : l’absence de contrôle sur le processus d’acquisition des données. » Pour les chercheurs, un moyen d’introduire de l’équité dans les algorithmes est donc de les contraindre. L’analogie avec les sondages peut être pertinente : « En sondage, on s’assure de la représentativité des données au moyen d’un échantillonnage contrôlé, fondé sur la répartition connue de la population générale » soulève Stéphan Clémençon.

Face aux données manquantes : la piste statistique

Employabilité, criminalité voire solvabilité, les algorithmes d’apprentissage sont amenés à avoir de plus en plus d’incidence sur les décisions et les vies humaines. Pour pallier ces biais, il serait donc envisageable de les redresser en calculant la probabilité qu’un individu avec certaines caractéristiques se retrouve effectivement dans l’échantillon. « Il s’agit essentiellement de comprendre pourquoi certaines classes d’individus sont peu représentées dans la base de données » expliquent les chercheurs. Pour reprendre l’exemple d’Amazon, c’est parce que les embauches recensées sur les dix dernières années étaient essentiellement masculines que l’algorithme évaluait mieux les candidatures provenant d’hommes. Un biais qui aurait pu être évité en se rendant compte que la probabilité de trouver une femme dans l’échantillon de données utilisé était grandement inférieure à la répartition des femmes dans la population.

« Si cette probabilité de contrôle n’est pas connue, il s’agit d’expliquer pourquoi un individu est présent dans la base ou pas, en fonction de caractéristiques additionnelles » ajoute Stéphan Clémençon. Par exemple, l’évaluation du risque bancaire : pour déterminer la catégorie de risque à laquelle appartient un emprunteur, les algorithmes se basent sur des données relatives à des personnes qui ont été éligibles à un emprunt dans un établissement particulier. Ces algorithmes ignorent donc les dossiers des personnes qui se sont vues refuser un crédit, qui n’ont pas eu besoin d’emprunter ou qui ont obtenu un prêt dans un autre établissement. Plus précisément, les jeunes de moins de 35 ans sont systématiquement évalués à un plus haut niveau de risque que leurs ainés. Identifier ces critères associés permettrait donc d’en corriger les biais.

Contrôler les données signifie également faire attention à ce que les chercheurs appellent la dérive temporelle. En analysant des données sur des temps trop courts, l’algorithme peut ignorer certaines caractéristiques du phénomène étudié. Il peut ainsi passer à côté d’une tendance de long terme. En limitant la durée d’étude, il ne détecte pas non plus un effet saisonnier, ni une rupture. Cependant, certaines données doivent être analysées à la volée, dès qu’elles sont récoltées. Dans ce cas — où l’échelle temporelle ne peut pas être rallongée — il est indispensable d’intégrer des équations décrivant les évolutions potentielles des phénomènes analysés, pour compenser le manque de données.

La difficile question de l’équité des algorithmes

Au-delà de ces pistes statistiques, les chercheurs se penchent également sur le développement de l’équité algorithmique. Il s’agit de mettre au point des algorithmes répondant à des critères d’équité en fonction d’attributs protégés par la loi tels que l’origine ethnique, le genre ou l’orientation sexuelle. Comme pour les solutions statistiques, cela revient à intégrer des contraintes dans le programme d’apprentissage. Par exemple, il est possible d’imposer que la probabilité d’un résultat de l’algorithme soit égale pour tous les individus appartenant à un même groupe. Il est aussi possible d’intégrer une indépendance entre le résultat et un type de donnée, comme le genre, le niveau de revenu, la situation géographique…

Mais quelles règles d’équité adopter ? Dans le cadre de l’algorithme controversé de Parcoursup, cela soulève certaines incompatibilités. « Prenons l’exemple de l’équité individuelle et de celle de groupe. Si l’on se tient au simple critère d’équité individuelle, chaque élève devrait avoir la même chance que les autres de réussite. Mais ce critère est incompatible avec un critère d’équité de groupe qui stipulerait que les taux d’admission soient égaux pour des attributs protégés, comme le genre » problématise David Bounie. En d’autres termes, on ne peut pas à la fois vouloir donner une chance à tous les individus quel que soit leur genre et, en même temps, appliquer un critère d’équité en fonction du genre. Cet exemple illustre un concept connu des chercheurs : les règles d’équité sont incompatibles entre elles, et ne sont pas universelles. Elles dépendent de valeurs éthiques, politiques, propres aux individus et aux sociétés.

Les enjeux pour l’acceptation sociale des algorithmes et de l’IA, sont donc complexes et considérables. Pourtant il est indispensable de pouvoir remonter la chaine de décision de l’algorithme afin d’en expliquer les résultats. « Si cela revêt moins d’importance lorsqu’il s’agit de recommandations de films ou de musiques, les enjeux sont tout autres en biométrie ou en médecine. Le médecin doit pouvoir comprendre et interpréter les résultats d’un algorithme et les réfuter le cas échéant » illustre David Bounie. Cela entraine des velléités de transparence qui émergent ces dernières années. « L’idée est de rendre public, ou bien de mettre sous séquestre des algorithmes en vue de les auditer pour étudier des difficultés potentielles » écrivent les chercheurs. Cependant, ces recommandations risquent de se heurter légalement au secret commercial et à la propriété des données personnelles. Les algorithmes, comme leurs jeux de données, restent peu accessibles. Pourtant, ce besoin de transparence est fondamentalement associé à celui de responsabilité. Les algorithmes mettent en exergue les biais existant dans nos sociétés. De nouvelles approches sont nécessaires pour les traquer, les repérer et les modérer.

 

[1] Le rapport Algorithmes : biais, discriminations et équité a été rédigé par Patrice Bertail (Université Paris Nanterre), David Bounie, Stephan Clémençon et Patrick Waelbroeck (Télécom ParisTech), avec le soutien de la Fondation Abeona.

Article rédigé par Anne-Sophie Boutaud, pour I’MTech.

Pour aller + loin sur le sujet :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *