Le numérique a bouleversé la production et l’édition de tous les types de contenus. Les enjeux aujourd’hui consistent à améliorer l’expérience utilisateur, établir des standards, ou encore mieux exploiter et sécuriser les données. La Bourse aux technologies « Publishing et Multimédia » de l’Institut Mines-Télécom, qui aura lieu le 17 septembre 2015 à Télécom ParisTech, présente des technologies issues des labos répondant à ces nouveaux défis. En voici trois, pour illustrer trois types de contenus : audio, vidéo, et texte.
Une application de reconnaissance musicale pour les morceaux en live
Plusieurs applications, comme Shazam sur les smartphones, permettent de retrouver automatiquement les métadonnées d’un morceau (titre, auteur, album, etc.) à partir d’une capture audio. A chaque morceau correspond une signature (ou empreinte) qui permet de l’identifier dans une base de données musicale. Cependant, cette technique présente une importante limitation : il faut que le morceau soit tel quel dans la base de données. Impossible de reconnaître un morceau enregistré en live ou réinterprété.
Les chercheurs de Télécom ParisTech ont donc conçu et breveté une signature qui repose sur des concepts de rythme et d’harmonie, et non plus simplement sur la fréquence du signal. « La manière que nous avons de condenser l’information est inspirée de la musique : on va chercher le tempo et les couleurs musicales (les chromas), caractéristiques du morceau, » explique Yves Grenier, chercheur spécialisé en traitement du signal audio. Parce que le sens musical est exprimé, cette signature permet d’identifier automatiquement deux morceaux similaires, même si l’un d’eux est réinterprété.
Un prototype d’application est en cours de développement. L’enjeu est d’utiliser une signature suffisamment compacte, pour travailler à l’échelle de très grosses bases de données : « Il faut trouver des méthodes capables de fonctionner avec des millions de morceaux, mais aussi d’utilisateurs. »
Produire facilement des contenus de réalité augmentée
Avec leurs capteurs, les téléphones portables sont devenus de puissantes plateformes de réalité augmentée. Pour permettre à tous de produire et transmettre des contenus, Marius Preda et son équipe de chercheurs de Télécom SudParis ont développé des technologies standardisées : le navigateur web ARAF et son langage formel, équivalent du html mais pour la réalité augmentée ; et une plateforme cloud de reconnaissance d’images. L’idée est de faire le pont entre monde numérique et monde physique, en permettant d’identifier dans le réel des éléments qui permettent de déclencher une action numérique sur un smartphone ou une tablette, ou d’offrir une vue combinée via leur écran.
A partir de là, les chercheurs ont créé un outil auteur qui permet à un créateur de contenu d’enrichir des vidéos automatiquement, grâce à un système de recherche visuelle : « A partir d’une très grande base de données avec des images indexées et annotées, pour chaque trame de la vidéo, on essaie de voir si le contenu est similaire à celui de la base de données. » Par exemple, si la Tour Eiffel est reconnue sur la vidéo, l’outil proposera des informations sur ce monument indexées dans la base ou extraites du web (projet européen BRIDGET).
La technologie de reconnaissance d’images a également été utilisée pour l’application GOOT, pour recommander, à partir d’une photo d’étiquette de vin, un vin similaire. Les cas d’usages sont nombreux et beaucoup restent à imaginer, c’est pourquoi les entreprises sont invitées à expérimenter la technologie et à contribuer à la base de données sur la plateforme cloud, via des API.
A lire également : « Réalité augmentée : nouveaux standards, nouveaux outils«
Donner sens aux données récoltées sur le web
Comment faire sens de la masse de données qui circule sur le web ? Le projet SMILK (Social Media Intelligence and Linked Knowledge), porté par l’équipe WIMMICS de l’Inria et la division Recherche & Innovation du groupe Viseo analyse des données web pour obtenir puis enrichir de l’information non redondante et pertinente, au service des entreprises. « A partir de toutes les informations disponibles sur le web – citation dans des articles de presse, commentaires sur les réseaux sociaux et les blogs, etc. – on tire un graphe de connaissances que l’entreprise pourra explorer, et qui donne une vision globale d’un produit ou d’une marque, » résume Domoina Rabarijaona, responsable Transfert et Valorisation chez Viseo R&I.
Le projet fusionne le web sémantique – la nouvelle norme définie par le W3C, permettant qu’une page web comprise par un être humain le soit aussi par une machine grâce à des liens entre les concepts – et le traitement automatique de la langue, et transforme un texte écrit en langage naturel en graphe de connaissances. Aujourd’hui, le prototype est un plugin qui se greffe à un navigateur web pour offrir une navigation augmentée, en permettant à l’utilisateur de visualiser directement les entités qui l’intéresse et en lui apportant des informations complémentaires, extraites d’autres sources, pour chaque entité.
Le défi réside dans la désambiguïsation de l’information. Comment différencier ces deux phrases : « Total est leader de son secteur » et « Le total des gains est de 3000 euros » ? « Pour que l’outil puisse différencier le mot ou l’expression courante et la marque ou le produit, on se sert au maximum du contexte et de la base de connaissances construite au fur et à mesure. » L’analyse grammaticale et sémantique (les mots-clés comme leader ou gains) permet à l’outil de comprendre la phrase et d’en extraire des informations. De même, cette analyse va permettre d’évaluer précisément les sentiments et les opinions exprimés sur les réseaux sociaux. Enfin, les informations recueillies sont mises en réseau et visualisées sous forme de graphe ou de tableau.
En savoir + sur la Bourse aux technologies Publishing et Multimédia, et s’inscrire
Les Bourses aux technologies de l’Institut Mines-Télécom sont des journées de rencontres et d’échanges entre chercheurs et PME. L’objectif du dispositif est de permettre aux PME d’accéder plus facilement aux résultats de la recherche académique et de développer ainsi les innovations de demain. Son originalité est d’apporter les technologies issues de toutes les écoles de l’Institut Mines-Télécom et de ses partenaires, dans une région donnée et sur un domaine. Ces rendez-vous s’inscrivent dans le cadre du programme de promotion de l’offre des technologies des organismes publics de la recherche mis en œuvre par le Consortium de Valorisation Thématique CVSTENE (Investissements d’Avenir) dédié aux sciences et technologies du numérique.
One comment
Pingback: Marius Preda - enseignant-chercheur à Télécom SudParis