Données environnementales : challenge relevé par la data science

Du 3 au 7 juillet se déroule un cycle de conférences dédiées à la data science et à l’environnement. Organisé notamment par IMT Atlantique, cet évènement fait le pont entre deux communautés dont les collaborations sont encore limitées en Europe. Les données environnementales pourraient bénéficier de nouvelles méthodes de traitement expliquant ce que la physique ne parvient pas à faire jusqu’à présent.

Des phénomènes marins ou atmosphériques restent physiquement incompris malgré leurs observations. Leur explication émergerait-elle d’une nouvelle méthode d’analyse ? La collaboration entre la data science et l’environnement est encore sous-développée en Europe. Les data scientists proposent pourtant des outils et méthodologies qui pourraient être bénéfiques au traitement des données environnementales. Afin d’établir une connexion entre ces communautés scientifiques, IMT Atlantique mise sur un cycle de conférences spécial : « Data science & Environment » conviant des chercheurs du monde entier. Cet évènement est accompagné d’une école d’été afin de sensibiliser les futurs chercheurs à ces approches mixtes. À l’origine de ces deux initiatives se trouve Pierre Tandeo. Le chercheur est déjà convaincu de la fructification d’une telle association. Spécialisé dans les mathématiques appliquées aux océans et à la météorologie, il nous présente les enjeux d’une telle coopération.

 

Qu’est-ce que la data science ou la science des données ?

Pierre Tandeo : La data science s’appuie sur une analyse de données à partir d’outils mathématiques statistiques. Elle est souvent confondue avec le big data. Or, dans la science des données il y a une notion de « métier » c’est-à-dire qu’elle s’appuie sur une démarche scientifique dont l’objectif est d’extraire de l’information pertinente du point de vue de la physique dans une thématique particulière. Alors que le big data ne cherche pas forcément à répondre à une question physique.

Il est souvent dit que le data scientist a une triple casquette car il doit maîtriser les outils mathématiques et informatiques, ainsi que les données du thème traité. C’est difficile d’avoir ces trois expertises, c’est pour cela que nous avons mis en place cette conférence. Le but est de mélanger deux communautés que sont les mathématiques appliquées et la physique traitant des données environnementales, afin de fusionner leurs compétences et aller vers une data science pour l’environnement.

 

Quels types de données environnementales peuvent être traitées par des data scientists ?

PT : La conférence se consacre à l’étude des océans, de l’atmosphère et du climat. Dans ces thèmes, il existe trois types de données importants. Il y a les observations par satellite, les mesures in situ – sur site – en mer ou dans l’atmosphère, et des simulations par des modèles informatiques. Ces derniers cherchent à décrire des phénomènes à partir d’équations physiques.

De nos jours, ces données deviennent de plus en plus faciles d’accès. Parmi elles, figurent des masses d’informations encore inexploitées car ces jeux de données volumineux posent des problèmes de traitement. Leur manipulation est complexe et nécessite des outils informatiques et statistiques adaptés afin de les traiter.

 

Qu’est-ce que la science des données peut apporter à la recherche sur l’environnement et réciproquement ?

PT : Il y a des grandes questions environnementales où la compréhension physique arrive à sa limite. Cela signifie que l’on ne parvient pas à mettre sous équation ce qui est observé. La question est donc de savoir si l’on peut essayer de comprendre ces phénomènes environnementaux à partir des données, car des relations sont sûrement cachées en elles. Il faut construire l’outil mathématique adéquat pour les révéler.

Par ailleurs, lorsque nous regardons la météo par exemple, nous n’avons aucune confiance dans les prédictions qui sont faites au-delà d’une semaine car le système est complexe. Il est dit « chaotique ». La difficulté de prévision des données environnementales réside dans le fait qu’il peut y avoir de nombreuses interactions entre des variables que même la physique n’arrive pas à expliquer. Cette complexité implique de revoir les techniques de mathématiques appliquées qui sont habituellement utilisées. L’environnement force à repenser la manière de traiter les données. C’est pourquoi il s’agit d’un terrain de jeu propice à la data science car il est difficile à maitriser et offre ainsi un challenge aux mathématiciens.

 

Avez-vous un exemple de problématique environnementale ayant déjà bénéficié d’une approche mathématique ?

PT : Il y a des approches statistiques qui ont fait leurs preuves. La prévision du phénomène couplé océan/atmosphère appelé ENSO (avec ses deux phases opposées : El Nino/La Nina) est un bon exemple. Les deux phases d’ENSO apparaissent de manière irrégulière (tous les 2 à 7 ans) et ont des impacts humains, économiques et écologiques extrêmement importants [ils touchent notamment l’Amérique du nord et du sud]. C’est pourquoi, les physiciens essayent de prédire 6 mois à l’avance si l’on se trouvera, dans un régime normal, El Nino (anormalement chaud) ou La Nina (anormalement froid). Il a été constaté que les prédictions de l’ENSO par des modèles statistiques sont souvent meilleures que celles proposées par les modèles physiques. Ces prévisions statistiques se basent sur un apprentissage à partir de données historiques qui ne cessent de croître, notamment depuis l’arrivée des satellites.

Cette conférence est également l’occasion d’identifier d’autres problématiques environnementales encore en suspens et qui pourraient trouver une solution favorable dans la data science. Le champ est vaste et en plein essor.

A lire également sur I’MTech :
Télédétection des océans : reconstruire le puzzle des données manquantes

 

Quelles thématiques seront abordées lors des conférences ?

PT : Une première moitié de sessions est axée sur les applications de la data science au climat, à l’atmosphère et aux océans. Cependant, nous remarquons que les méthodes mathématiques appliquées sont plus répandues dans la communauté atmosphère et climat. Je pense que les océanographes ont sûrement à apprendre de ce qui se fait ailleurs. C’est aussi pour cela que l’évènement se déroule à Brest qui est l’un des centres océanographiques principaux d’Europe.

Les autres sessions sont consacrées aux méthodologies mathématiques afin d’exposer comment traiter des problèmes de grande dimensionnalité – c’est-à-dire avec une volumétrie d’informations importante – ainsi que des problèmes d’extraction d’informations pertinentes. L’assimilation de données est également abordée. Elle pose la question de comment mélanger des modèles de prévisions physiques avec des données satellites notamment. Un dernier axe présente les méthodes analogues. Il s’agit de techniques d’apprentissage à partir d’observations historiques que l’on tente de projeter dans des données actuelles ou futures.

 

Quels sont les objectifs attendus de ces sessions ?

PT : À court terme, l’objectif est d’entamer des conversations. Je voudrais voir deux chercheurs de chaque communauté trouver un terrain d’entente car les deux ont à y gagner. À moyen terme, il faut pérenniser cet évènement. L’idéal serait de le reproduire ailleurs en France, ou en Europe, en l’ouvrant à d’autres types de données environnementales d’ici les deux prochaines années. Enfin, à long terme, l’objectif serait de monter des projets de collaboration internationaux. Avec plusieurs collaborateurs, nous travaillons actuellement à l’élaboration d’un projet franco-américain sur l’application des mathématiques appliquées au climat. Voir émerger des unités mixtes internationales sur ces thèmes serait un véritable aboutissement.

 

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *