Le big data, c’est bien, mais encore faut-il pouvoir utiliser les données récoltées. Les lois qui protègent la vie privée interdisent d’exploiter les données personnelles des utilisateurs, à moins de les anonymiser. Or, les méthodes classiques de protection de la confidentialité échouent quand on les applique à de gros volumes de données. Dans le cadre du projet Lamane, Said Oulmakhzoune et Sabir Idrees, chercheurs à Télécom Bretagne, ont mis au point le premier logiciel permettant d’anonymiser des bases de données massives de manière personnalisée.
Anonymiser des données personnelles consiste à modifier leur contenu ou leur structure afin qu’il soit très difficile ou impossible d’identifier les utilisateurs à qui elles appartiennent. La difficulté consiste à trouver le bon compromis : il ne faut pas éliminer trop d’informations ou les données ne présenteront plus d’intérêt.
Le projet Lamane fait suite à des travaux sur l’externalisation des données et l’open data menés à Télécom Bretagne par l’équipe de recherche de Nora et Frédéric Cuppens. Il est né d’un projet de R&D collaboratif financé par le programme EUREKA ITEA2 et regroupant Thales, La Poste, Squid Solutions, Bluestone et l’Institut Mines-Télécom. Les chercheurs ont développé une solution d’anonymisation des données massives basée sur la suite logicielle ADAPT (Advanced Data Anonymization & Privacy Tool) et dédiée aux industriels. Elle leur permet de valoriser rapidement leurs données massives auprès de tiers, dans un format personnalisé, et dans le respect des critères de protection de la vie privée.
« Trouver un compromis entre anonymisation et utilité des données »
La première étape consiste à définir les paramètres d’utilité : par exemple, l’âge doit-il être toujours en clair pour que les données soient ensuite exploitables ? « On établit le degré d’anonymisation nécessaire selon le niveau d’utilité : l’adresse peut indiquer seulement le code postal, voire le département ou la région, » explique Said Oulmakhzoune.
Il s’agit ensuite d’étudier quels sont les paramètres utiles dont la combinaison ne permet pas l’identification. Pour réussir à traiter du big data, Said Oulmakhzoune combine plusieurs algorithmes : « Chaque algorithme compense les points faibles des autres, de manière à trouver un compromis entre anonymisation et utilité des données. » Pour l’instant, il choisit lui-même les algorithmes les plus adaptés via une interface graphique. « A terme, le logiciel sera capable, à partir des bases de données, de trouver automatiquement les algorithmes les plus adaptées pour calculer les solutions possibles. » A la sortie, le logiciel propose un ou plusieurs jeux de données anonymes, par ordre d’utilité. Il est aussi capable d’expliquer pourquoi une solution n’est pas anonyme et comment l’anonymiser. Les données auxquelles la solution Lamane a été appliquée sont ensuite testées pour vérifier leur résistance à toutes les attaques relevées dans la littérature, avant d’être exportées chez le client, chez un tiers, ou bien encore ouvertes au public.
Le prototype mis au point par Said Oulmakhzoune, Sabir Idrees et l’équipe de recherche de Télécom Bretagne a été testé avec succès sur la base de données des séjours hospitaliers en France (PMSI-MCO), dans le cadre d’un projet avec la DREES (Direction de la recherche, des études, de l’évaluation et des statistiques) ; et sur la base de données des courriers distribués de La Poste, qui pèse 20 To.
Un projet en cours d’essaimage
Aujourd’hui, le logiciel est en phase de dépôt de brevet et le projet Lamane a conduit à un projet de création d’entreprise : « Il y a un fort besoin sur le marché mais pas de solution complète commercialisée, explique Said Oulmakhzoune, j’ai donc eu l’idée de créer une start-up pour aider les gens à accéder plus rapidement à leurs données en les anonymisant. »
Incubé à Télécom Bretagne depuis avril 2015, le projet de start-up bénéficie d’un parrainage scientifique de l’équipe Sécurité, Fiabilité, Intégrité de l’Information et des Systèmes (SFIIS) de Télécom Bretagne. « Notre solution s’adresse aux entreprises qui collectent des données et souhaitent les utiliser, à celles qui traitent ces données pour des clients, mais aussi au secteur public qui se lance dans l’open data et veut ouvrir les données de santé, fiscales, les caisses d’impôt… »
Said Oulmakhzoune participait le 7 avril dernier à Rennes à la Bourse aux technologies « Big data et objets connectés » de l’Institut Mines-Télécom. A cette occasion, la solution d’anonymisation en big data ADAPT a été primée, en tant que technologie avec les meilleures perspectives de développement économique.
En savoir + sur la Bourse aux technos du 7 avril
Découvrir l’ensemble des technologies et plateformes sélectionnées
2 comments
Pingback: Frédéric Cuppens - I'MTech
Pingback: Data&Musée - Une data science pour les institutions culturelles