TeraLab et La Poste collaborent pour lutter contre la fraude des colis

Bouton IdF petitTémoignage de la valeur que prennent les données pour les entreprises, La Poste-Colissimo s’est alliée aux chercheurs des écoles de l’Institut Mines-Télécom pour lutter contre la fraude. Au travers de la plateforme big data TeraLab lancée en 2014, ce partenariat public-privé a permis d’explorer des solutions algorithmiques pour optimiser la détection d’escroquerie. Des travaux qui illustrent tout l’enjeu de modernisation des organisations.

 

Le data center remplacera-t-il Sherlock Holmes comme stéréotype du détective ? Si la question paraît saugrenue, elle est pourtant légitime à la lumière du choix de La Poste -Colissimo de se tourner vers une plateforme big data pour lutter contre la fraude. Sur 18 mois, entre janvier 2014 et juin 2015, ce sont des dizaines de milliers d’euros qui ont été versés en indemnisation, pour des dossiers identifiés comme suspects de fraude par l’entreprise. D’où sa volonté de moderniser ses outils et son expérience métier en matière de détection des fraudes.

Pour cela, elle décide de collaborer fin 2015 avec la plateforme TeraLab de l’Institut Mines-Télécom (IMT). La Poste-Colissimo voit ainsi l’occasion de faire d’une pierre deux coups : « Nous cherchions à la fois une collaboration qui nous permette de pallier nos difficultés à manipuler des volumétries de données importantes, et la possibilité d’un retour sur investissement rapide » explique Philippe Aligon, responsable de l’analyse des données au sein de La Poste-Colissimo. Travailler autour de la détection des fraudes à l’indemnisation par fausse déclaration de dépôt des colis permet alors de combiner ces deux objectifs.

 

Apprendre aux algorithmes à reconnaître la fraude

TeraLab travaille tout d’abord « à la sécurisation des lots de données, pour justifier à La Poste-Colissimo d’un environnement de travail sûr » raconte Anne-Sophie Taillandier, directrice de la plateforme. Après cette étape technico-légale, l’ensemble des dossiers relatifs aux fraudes avérées est envoyé à TeraLab. S’ensuit une phase d’apprentissage statistique (machine learning) à partir de ces données : « Nous avons proposé un système qui prenne en entrée les caractéristiques de demande d’indemnisation : quel est son montant, le poids du colis, la cause de non livraison, etc. » détaille Jérémie Jakubowicz, responsable du pôle data science de TeraLab. À partir de ce modèle, et des caractéristiques de n’importe quelle demande d’indemnisation, il est possible de déduire une probabilité de fraude associée.

Pour appuyer cette étape d’apprentissage, La Poste-Colissimo a fourni à TeraLab un échantillon rassemblant les données archivées de colis suspects entre janvier 2014 et juin 2015. Les responsables de l’entreprise en charge de la lutte contre les fraudes ont au préalable classé chacun des dossiers sur une échelle de 0 à 4, allant de la fraude avérée par les services internes à un risque très faible d’escroquerie. Le rôle de TeraLab : reproduire la même classification à partir du modèle développé.

Après analyse de l’échantillon, les 500 demandes jugées les plus suspicieuses par les algorithmes sont envoyées aux experts de La Poste-Colissimo. « Nous n’avions pas du tout la même approche qu’eux, poursuit Jérémie Jakubowicz. Les experts travaillent plutôt sur la zone géographique, alors que nous utilisons des paramètres comme le poids du colis ou le code postal. » Reste que la corrélation des résultats entre les experts et les algorithmes est de 99,8 %. Sur l’échantillon fourni, 282 nouveaux dossiers jugés non suspects par l’entreprise sont même identifiés comme frauduleux par l’équipe de TeraLab, et validés comme tel a posteriori par La Poste-Colissimo.

 

Vers l’intégration dans l’entreprise

L’entreprise a ainsi acté la réussite de la preuve de concept. La méthode algorithmique fonctionne, et en plus de présenter une détection plus rapide, son automatisation réduirait les coûts d’une détection au cas par cas. « Il y a une très grosse attente des services client, sûreté et informatique » confie Philippe Aligon. L’industrialisation de cet outil de détection de fraude sera intégrée au programme de modernisation des services informatiques de La Poste-Colissimo, et à l’acquisition de nouvelles technologies big data pour le traitement de donnée en temps réel permettant la cotation instantanée des demandes d’indemnisation.

La complexité de l’intégration des outils big data n’a pas permis pour l’instant l’industrialisation de l’algorithme. Cela n’est pas propre à La Poste-Colissimo cependant, mais relève d’un schéma qui se retrouve dans de nombreuses structures. Jérémie Jakubowicz témoigne ainsi : « Quand bien même tous les feux sont verts de notre côté, cela ne veut pas dire que le boulot est fini. Exploiter les résultats, mettre en production sont aussi des problèmes qu’il faut résoudre du côté de l’entreprise. » Une limite qui témoigne bien du fait que l’utilisation des technologies big data ne relève pas que de l’aspect scientifique. Il s’agit aussi d’un enjeu d’organisation.

 

 

Le+bleuTeraLab, un catalyseur de projets big data

 

TeraLab est une plateforme big data servant la recherche, l’innovation et l’enseignement. Elle est pilotée par l’Institut Mines-Télécom et le groupe des écoles nationales d’économie et statistique (GENES). C’est au travers de l’appel à projet « Cloud computing et big data » du programme Investissements d’avenir (PIA) que TeraLab a vu le jour en 2014. Son objectif est de fédérer la demande en logiciels et en infrastructures.

Au-delà d’une mise à disposition de serveurs dits commidity et d’une machine teramemory, TeraLab propose en effet une équipe de chercheurs capables d’identifier une demande et d’accompagner des porteurs de projet tout au long de leurs travaux. Les compétences mises à disposition vont de la configuration d’infrastructure jusqu’au conseil, en passant par l’algorithmique, le machine learning, la data visualisation… L’équipe de TeraLab aide également les différents acteurs à choisir le type de projet le plus adapté à leurs besoins (projet collaboratif de type PIA, européen, laboratoire commun, challenge, preuve de concept, etc.).

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *