Des sons et des images en toutes lettres

Projets européens H2020Transformer les vidéos en textes ? C’est ce qu’envisage de faire le projet européen H2020 MeMAD lancé en janvier 2018 pour une durée de trois ans. Si l’initiative peut sembler à contretemps à une époque où les images et les contenus vidéo prennent de plus en plus de place, elle répond en réalité à une problématique très contemporaine. MeMAD veut mettre au point des technologies permettant de décrire de façon exhaustive une vidéo, des mouvements des personnes à la musique d’ambiance en passant par les dialogues, les mouvements des objets en arrière-plan… Un objectif : créer une multitude de métadonnées autour d’un fichier vidéo pour faciliter sa recherche dans d’immenses bases de données. Benoit Huet, chercheur à EURECOM — partenaire du projet — sur les technologies d’intelligence artificielle, nous présente plus en détail les objectifs de MeMAD et les défis scientifiques à relever.

 

Il existe déjà des logiciels de description automatique de vidéo ou de sous-titrage automatique. Quelle est l’utilité d’un projet d’ampleur européenne comme MeMAD sur le sujet ?

Benoit Huet : C’est vrai qu’il existe déjà des applications qui abordent partiellement ce que nous voulons faire. Mais leur utilisation et leur efficacité sont limitées. Pour la retranscription écrite de dialogues dans les vidéos par exemple, les logiciels automatiques peuvent commettre des erreurs. Pour avoir des sous-titres justes, il faut passer par des humains, et le coût est très élevé. Beaucoup de documents audiovisuels n’ont pas de sous-titre parce que c’est trop cher de les faire. Notre objectif avec MeMAD, c’est d’abord d’aller bien au-delà de l’état de l’art actuel pour automatiser la retranscription de dialogues, mais également d’être exhaustif pour pouvoir également décrire de façon automatique des scènes, des ambiances, des sons, nommer des acteurs, des types de plan… Nous voulons décrire de façon précise tous les contenus audiovisuels.

Quel est l’intérêt d’un tel degré de précisions ?

BH : D’abord il y a des communautés qui ont actuellement des problèmes d’accès aux contenus audiovisuels. C’est le cas des personnes mal- ou non-voyantes, et des personnes mal- ou non-entendantes. Parvenir à décrire de façon écrite l’ambiance d’une scène, à retranscrire la multitude des sons entendus permet d’améliorer l’expérience des personnes avec problèmes d’audition lors du visionnage d’un film ou d’un documentaire. Pour les personnes malvoyantes, la description écrite peut servir de support à une lecture orale. Ensuite, il y a un énorme potentiel d’application du côté des créateurs de contenu multimédia ou des journalistes, parce que décrire de façon écrite et exhaustive des vidéos ou des podcasts, c’est favoriser la recherche dans des archives de documents. Potentiellement, c’est quelque chose qui intéresse également tout un chacun qui souhaite avoir un peu plus d’informations sur un film qu’un résumé avant de le regarder.

L’institut national de l’audiovisuel (INA) est notamment partenaire du projet et apporte des gros volumes d’archives documentaires et cinématographiques. Concrètement, comment travaillez-vous à partir de ces données ?

BH : À EURECOM nous avons deux équipes qui participent au projet MeMAD et qui travaillent sur ces documents. La première s’attache à l’extraction d’information. Elle utilise des technologies basées sur les réseaux de neurones profonds pour pouvoir reconnaître les émotions, analyser les mouvements des objets et des personnes, la bande audio… tout ce qui donne l’atmosphère en somme. Là, le travail scientifique consiste surtout à mettre au point les architectures des réseaux de neurones profonds pour, à partir des informations de la scène, faire sortir des métadonnées pertinentes. D’ailleurs, l’INA apporte également des situations concrètes et l’expérience de leurs archivistes pour nous aider à comprendre quelles métadonnées sont intéressantes pour pouvoir faire des recherches dans les documents par la suite. Et la seconde équipe travaille justement sur  l’ingénierie des connaissances. C’est-à-dire qu’elle se charge de créer des descriptions structurées, des index, et tout ce qui favorise la recherche d’information pour l’utilisateur final.

Scientifiquement, où se situe la difficulté du projet ?

BH : Ce qui est difficile, c’est de proposer quelque chose d’exhaustif et de générique. Aujourd’hui, nos approches sont complètes pour la qualité des descriptions et leur pertinence. Mais nous restons toujours dans un certain type de données. Par exemple, nous savons faire de l’apprentissage pour tous les modèles de voitures existants, ce qui permet de les reconnaître efficacement quel que soit leur angle dans l’image, l’éclairage de la scène… En revanche, si un nouveau modèle de voiture sort demain, nous ne saurons pas le reconnaître, même de face. Le problème est identique pour les personnalités politiques ou du cinéma. Or, nous voulons quelque chose qui ne fonctionne pas que sur les documentaires et films d’hier, mais qui soit capable d’apprendre et de reconnaître les personnalités dans les images des documentaires de demain. Cette capacité à augmenter la connaissance au fur et à mesure est le gros défi.

Sur quelles recherches capitaliserez-vous pour relever ce défi scientifique ?

BH : Pour y arriver, nous nous appuyons sur une expérience de plus de 20 ans en recherche sur les contenus audiovisuels. C’est ce qui justifie notre place dans le projet MeMAD aussi. Nous avons déjà travaillé sur la création automatique de résumés de vidéos par exemple. Récemment j’ai collaboré avec IBM Watson pour la création automatique d’une bande annonce d’un film hollywoodien. Nous sommes également engagés dans le projet NexGenTV avec Raphaël Troncy, qui travaille avec moi sur MeMAD. Dans NexGenTV, nous avons déjà montré comment faire de la reconnaissance automatique des personnes visibles à un instant donné. Tout cela nous permet d’avoir déjà des éléments de réponse et des pistes de travail pour remplir les objectifs de MeMAD.

 

La TV de demain : une expérience enrichie grâce aux écrans d’appoint ?

One comment

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *