DAGOBAH : les tableaux, l’IA comprendra

Les activités humaines produisent en masse des données brutes présentées sous forme de tableaux. Pour les comprendre rapidement, EURECOM et Orange mettent au point la plateforme d’annotation sémantique DAGOBAH. Elle vise à déployer une solution générique servant à optimiser des applications d’IA comme les assistants personnels, mais aussi à favoriser la gestion des jeux de données complexes de toute entreprise.

 

Au quotidien, une recherche de mots-clés sur Internet suffit souvent à combler nos milliers de trous de mémoire, éclairer nos doutes ou encore assouvir notre curiosité. Les résultats anticipent même nos besoins en proposant plus d’informations que celles demandées : biographie d’un chanteur, quelques titres de ses chansons, les dates de ses prochains concerts… Mais vous êtes-vous déjà demandé comment le moteur de recherche apportait toujours la réponse à vos questions ? Afin d’afficher les résultats les plus pertinents, les programmes informatiques doivent comprendre le sens et les nuances des données (souvent sous forme de tableaux) permettant de répondre aux requêtes des utilisateurs. C’est l’un des enjeux majeurs de la plateforme DAGOBAH, issue d’un partenariat entre les équipes de recherche d’EURECOM et d’Orange débuté en 2019.

L’objectif de DAGOBAH : comprendre automatiquement les données tabulaires produites par l’humain. L’absence de contexte explicite de ce type de données, comparé à un texte, fait que leur compréhension dépend des connaissances de leur lecteur. « Un humain sait détecter l’orientation d’un tableau, la présence d’en-têtes ou de fusion de lignes, la relation entre les colonnes, etc. Nous souhaitons apprendre cette interprétation naturelle à la machine », décrit Raphaël Troncy, chercheur en science des données à Eurecom.

L’art d’exploiter un savoir encyclopédique

Après avoir identifié la forme d’un tableau, DAGOBAH s’attache à en comprendre le contenu. Prenons l’exemple de deux colonnes. La première liste des noms de réalisateurs et la seconde des titres de films. Comment procède DAGOBAH pour interpréter ce jeu de données dont elle ne connait ni la nature, ni le contenu ? Elle réalise une annotation sémantique, c’est-à-dire qu’elle dépose une sorte d’étiquette sur chaque élément du tableau. Pour cela, elle doit déterminer la nature du contenu d’une colonne (noms de réalisateurs, etc.) et déterminer la relation entre les deux colonnes. Ici : réalisateur – a réalisé – film. Sauf qu’un élément peut signifier plusieurs choses. Par exemple,  « Lincoln » fait référence à un nom de famille, une ville britannique ou américaine, le titre d’un film de Steven Spielberg, etc. Bref, la plateforme doit lever toute ambiguïté sur le contenu d’une cellule à partir de son contexte global.

Pour arriver à ses fins, DAGOBAH interroge des bases de connaissances encyclopédiques généralistes existantes (Wikidata, DBpedia). Dans ces bases, les connaissances sont souvent formalisées et associées à des attributs : « Wes Anderson » est associé à « réalisateur ». Afin de traiter un nouveau tableau, DAGOBAH compare chaque élément à sa base de données et propose des candidats d’attributs : « titre de film », « ville »,  etc. Mais il ne doit rester qu’un candidat. Ainsi, pour chaque colonne les candidats sont regroupés et soumis à un vote majoritaire. La nature recherchée est alors déduite avec une probabilité plus ou moins forte.

Toutefois, cette méthode présente des limites sur des tables complexes. Au-delà d’une application grand public, des données industrielles peuvent contenir des statistiques relatives à des connaissances métier ou des données scientifiques pointues difficiles à identifier.

Des réseaux de neurones à la rescousse

Pour diminuer le risque d’ambiguïté, DAGOBAH utilise des réseaux de neurones et la technique de plongement lexical (ou embedding). Le principe : représenter le contenu d’une cellule sous la forme d’un vecteur dans un espace multidimensionnel. Au sein de cet espace, les vecteurs de deux mots sémantiquement proches se retrouvent regroupés géométriquement au même endroit. Visuellement parlant, les réalisateurs se regroupent ensemble et les titres de films aussi. L’application de ce principe à DAGOBAH s’appuie sur l’hypothèse que des éléments d’une même colonne doivent être suffisamment similaires pour former un ensemble cohérent. « Afin de lever des ambiguïtés entre les candidats, on fait des regroupements de familles de candidats dans l’espace vectoriel. Le problème revient alors à sélectionner le groupe le plus pertinent dans le contexte de la table considérée », explique Thomas Labbé, data scientist chez Orange. Cette méthode devient plus efficace qu’une simple recherche par vote majoritaire lorsque les informations de contexte d’une table sont rares.

Cependant, un des inconvénients de l’utilisation de l’apprentissage profond est le manque de visibilité sur ce qui se passe au sein du réseau de neurones. « On modifie des hyperparamètres que l’on tourne comme des boutons de cuisine afin d’obtenir les meilleurs résultats.  La démarche est très empirique et prend du temps, car on répète beaucoup de fois l’expérience », explique Raphaël Troncy. L’approche est notamment gourmande en temps de calcul. Les équipes travaillent également sur sa mise à l’échelle. En ce sens, les infrastructures d’Orange dédiées au big data sont un atout majeur. À terme, les chercheurs veulent déployer une approche tout terrain créée de bout en bout et suffisamment générique pour répondre aux besoins d’applications très différentes.

Vers des applications industrielles

L’interprétation sémantique des tableaux : un objectif mais pas une fin. « Travailler avec EURECOM nous permet d’avoir une connaissance presque en temps réel des dernières avancées académiques ainsi qu’un avis éclairé sur les pistes techniques que nous envisageons de suivre », déclare Yoan Chabot, chercheur en intelligence artificielle chez Orange. L’utilisation de données encyclopédiques par DAGOBAH permet d’optimiser des moteurs de questions/réponses en langage naturel de type assistant vocal. Mais le Graal sera d’offrir une solution de traitement automatique pour des connaissances métier spécifiques dans un environnement industriel. « Notre solution permettrait d’adresser le marché des acteurs privé et pas seulement publiques, en vue d’une utilisation interne aux entreprises qui produisent des données tabulaires de façon massive », ajoute Yoan Chabot.

Le défi sera alors de taille, car l’industrie ne dispose pas de graphes de connaissance auxquels DAGOBAH pourrait se référer. La prochaine étape sera donc de parvenir à annoter sémantiquement des jeux de données à partir d’embryons de bases de connaissances. En vue d’accomplir leurs objectifs, les partenaires académique et industriel se sont engagés pour la deuxième année consécutive dans un challenge international sur l’annotation sémantique, thématique très en vogue dans la communauté scientifique. Pendant quatre mois, ils auront l’occasion de tester leur approche grandeur nature avant de comparer leurs résultats avec le reste de la communauté internationale en novembre prochain.

Pour aller plus loin : DAGOBAH : Un tableau ne parle que par celui qui sait l’annoter

Anaïs Culot pour I’MTech

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *