Quels sont les grands défis à relever par les entreprises en matière de gestion des données ? La chaire Big Data & Market Insights lancée par Talel Abdessalem de Télécom ParisTech, en partenariat avec Télécom École de Management, a pour objectif de répondre à cette question. Parmi les sujets de recherche abordés : l’analyse de données complexes, la fouille du Web et l’analyse prédictive, le tout en mettant le service à destination des utilisateurs au centre des préoccupations.
Lancée en janvier 2014, la chaire Big Data & Market Insigths de Télécom ParisTech vise à développer, au travers de partenariats avec des acteurs privés, les recherches sur les applications du big data à l’entreprise. La journée annuelle de la chaire du 2 octobre 2015 permettait ainsi de faire le point sur les nouvelles collaborations, et de mettre à jour les thématiques abordées par les chercheurs. Si certains axes restent inchangés, comme l’analyse de grands graphes ou le développement d’algorithmes de recommandation, l’arrivée du groupe BPCE parmi les partenaires s’accompagne d’une nouvelle problématique de travail : la prédiction des risques. Pour bien cerner l’ensemble des sujets de recherche, Talel Abdessalem, Professeur à Télécom ParisTech et titulaire de la chaire Big Data & Market Insights, nous accompagne au cœur de ses travaux…
1,3 milliard de nœuds pour Facebook
Un des challenges des entreprises réside dans la captation d’Insights à partir de sources de données externes, organisées en graphes — chaque élément est un point, ou nœud, relié par un arc à d’autres éléments — et dont le nombre augmente de plus en plus. L’exemple le plus évident est celui des réseaux sociaux dont le volume et la complexité ne cessent de s’accroitre d’année en année. Typiquement, Facebook possède plus de 1,3 milliards de nœuds : ce sont ses utilisateurs, et plusieurs dizaines de milliards d’arcs correspondant aux relations entre ces nœuds. Face à des ordres de grandeur si élevés, « les techniques classiques d’analyse permettant de dégager des connaissances à partir de ces données ne passent plus à l’échelle » nous confie Talel Abdessalem. L’enjeu est alors de développer de nouveaux algorithmes de traitement capables de gérer des quantités de données aussi importantes.
Pour cela, les chercheurs de la chaire travaillent sur l’optimisation des techniques de parcours de graphes, de détection de communauté ou d’analyse de l’influence dans les réseaux sociaux. Par exemple, une équipe étudie l’aura des marques de cosmétiques (L’Oréal, Séphora, Kiko, Yves Rocher, etc.) sur ces réseaux, la perception de chaque marque en fonction du pays, la structure du réseau d’utilisateurs associé à la marque, et les sources de mécontentement que peuvent exprimer certains utilisateurs. Une des méthodologies suivie pour contourner le problème de l’échelle de données est l’indexation ingénieuse des graphes. Talel Abdessalem nous explique que dans la plupart des cas « l’indexation d’une partie du graphe, celle comportant les nœuds les plus importants, suffit à réduire de façon très significative les temps de calcul, et d’obtenir des temps d’analyse sous la seconde ». Ces travaux sur les algorithmes d’analyse de graphes vont jusqu’à pouvoir étudier les flux de mots-clés sur des réseaux sociaux comme Twitter pour des besoins de détection d’événements, sur la base de la fréquence d’utilisation desdits mots-clés.
Mieux extraire les données du web…
Si les mots-clés peuvent être centraux dans l’analyse des graphes, l’idée est en revanche de s’en affranchir lorsqu’il s’agit de développer de nouvelles méthodes d’extraction de données du web. Actuellement, un moteur de recherche part d’un terme entré dans sa barre de saisie, fouille dans un index via des logiciels, ordonnance des résultats par analyse probabiliste de leur importance, et renvoie une liste de page à l’usager. Or ce fonctionnement n’est pas immuable.
Une des équipes de la chaire cherche ainsi à comprendre les structures des données contenues dans les pages du web pour mieux pouvoir les pénétrer, et en extraire des données plus précises et plus adaptées à un traitement automatiquement. « Les moteurs de recherche de demain devront pouvoir produire autre chose que des pages comme résultat. L’utilisateur pourrait alors effectuer une recherche non pas avec de simples mots-clés, mais à partir de paramètres plus ou moins permissifs » annonce le chercheur, avant d’illustrer : « Aujourd’hui lorsque vous cherchez un spectacle, vous le réduisez à un mot-clé, mais c’est bien plus que ça ! C’est un artiste, une mise en scène, un lieu… ». En somme, l’usager constituerait sa requête par des paramètres décrivant ce qu’il cherche, pour un résultat composé de données structurées plus précises qu’une page web, et plus digestes pour un logiciel d’analyse de données.
… Ou se faire recommander
Autre possibilité pour augmenter l’expérience utilisateur : la recommandation. Déjà utilisée depuis quelques années par des acteurs majeurs du numérique — notamment Netflix avec plus de trois cents employés travaillant sur la recommandation et un budget de plus de 150 millions de dollars dédié à ce service — elle vise à personnaliser et réduire pour le client des catalogues dont le contenu explose en quantité. Les travaux de la chaire dans ce domaine se traduisent par le développement d’algorithmes de recommandation d’hôtels et de destinations, en collaboration avec Voyages-sncf.com.
Au-delà de l’établissement automatisé de liens entre hôtels et profils d’individus, permettant de personnaliser les conseils prodigués aux clients, les recherches se dirigent vers le marketing digital. Par exemple, « comment déterminer de façon précise le résultat d’une campagne de recommandation, et séparer l’effet de la recommandation de celui du bruit autour ? » problématise Talel Abdessalem. Autrement dit, comment déceler le client qui vient car il a été sensible à la recommandation de celui dont l’action a été motivée par d’autres facteurs externes (publicité à la télévision, cercle d’amis, etc.).
Pour aller plus loin, les chercheurs se penchent à présent sur la recommandation de destination de voyage. Par exemple, en relevant les données sur la mobilité des utilisateurs de réseaux sociaux, et en les croisant avec les centres d’intérêt connus dans les villes qu’ils parcourent, il devient possible d’associer des profils d’utilisateurs à ces centres d’intérêt, et indirectement à des villes. Ainsi, une recommandation personnalisée des destinations pourrait être mise en place. « Si je sais que vous aimez les musées et les bons restaurants, je sais où vous emmener » résume Talel Abdessalem.
« Big Data mais pas Big Brother »
La collecte, l’analyse et le traitement de tant de données d’utilisation amènent beaucoup d’usagers à se méfier de l’intrusion dans leur vie numérique privée. Pour autant, Talel Abdessalem se veut rassurant : « big data ne veut pas dire big brother, il s’agit avant tout de mieux servir l’utilisateur ». Ainsi, le travail effectué en collaboration avec le groupe BPCE vise-t-il à assister le client dans la prévention du risque de surendettement. « Nous travaillons sur la problématique du surendettement, qui fait partie des objectifs de la Charte de l’inclusion bancaire et de prévention de surendettement. L’enjeu pour nous étant de pouvoir prédire de la façon la plus précise possible ce risque, au minimum six mois avant que cela se produise » poursuit le chercheur. Six mois, car passé ce délai, il est souvent trop tard pour pouvoir aider le client. Compte tenu du volume de données, il est ici question de développer un modèle de prédiction en un minimum de temps et pouvoir le recalculer de façon régulière pour tenir compte des nouvelles données. Habituellement, c’est un historique de données sur deux ans qui est utilisé, ce qui représente un volume de données non négligeable pour des banques telles que les Banques Populaires ou la Caisse d’Epargne. Il s’agit donc d’un service permettant l’accompagnement des clients en situation de fragilité financière. « Aujourd’hui la satisfaction de l’usager est la clé : si le service qui lui est offert n’est pas assez performant à ses yeux, ou injustement intrusif, il s’en détourne et peut partir ailleurs facilement, ce qui peut constituer une énorme perte pour l’entreprise» conclut Talel Abdessalem.
La chaire Big Data & Market Insights en bref
La chaire Big Data & Market Insights est portée par le Professeur Talel Abdessalem de Télécom ParisTech avec une équipe d’enseignants-chercheurs de Télécom ParisTech et de Télécom École de Management. Elle est financée par Deloitte, Groupe BPCE, Groupe Rocher et SNCF. Elle a pour objectif s’attaquer à des problématiques clés dans le domaine de la gestion et l’analyse de données big data.
En savoir + sur la chaire Big Data & Market Insights
En savoir + sur le big data
5 comments
Pingback: Brevet, standard et norme : l'enjeu du transfert de technologies
Pingback: Start-up : les grandes entreprises ne doivent pas avoir peur d’investir
Pingback: Vidéo : Un livre blanc pour éclairer sur l'entreprise du futur
Pingback: Talel Abdessalem - I'MTech
Pingback: Un livre blanc pour éclairer sur l'entreprise du futur