IA4GIS: l’Intelligence Artificielle pour systématiser l’analyse d’images satellite

Pratique
Par · 04/06/2020

Source: Oscars

Qu’est-ce que les piscines ont à voir avec l’intelligence artificielle et les images satellite? Plus qu’on ne pourrait le croire à première vue. Elles sont en tout cas le socle d’un projet wallon visant à démontrer l’utilité de l’analyse automatisée de données spatiales. Un cas d’usage certes spécifique mais que ce projet IA4GIS, lancé dans le cadre du programme wallon Tremplin IA, espère transformer en démonstrateur pouvant être extrapolé et élargi à bien d’autres scénarios et finalités.

Voici comment le projet IA4GIS (intelligence artificielle pour système d’informations géographiques) décrit son objectif: “utiliser l’IA dans le traitement d’images – aériennes et satellitaires – d’observation de la terre en basse, haute et très haute résolution en vue d’améliorer la classification du contenu et la détection d’objets ; introduire l’IA et l’apprentissage automatique (machine learning) dans le processus de traitement des données géospatiales afin de réduire le temps de traitement et d’interventions manuelles et ainsi augmenter la capacité de détection automatique de changements et d’anomalies au sein de grands jeux de données ou de séries temporelles.”

Partenaires pour ce projet? Oscars, start-up d’Andenne spécialisée dans l’exploitation des données géolocalisées (plus spécifiquement pour la gestion aéroportuaire), Spacebel et l’ISSep (Institut scientifique de service public), ce dernier étant spécialisé dans la surveillance, la protection et la recherche au bénéfice de l’environnement (prévention des risques, émissions, qualité de l’air, des eaux de surface ou souterraines, études et audits énergétiques…).

Le projet touche en fait et devra se saisir de toute une série de problématiques. Le défi ne se limite pas à la conception d’algorithmes efficaces et pertinents. L’enjeu vient aussi du simple fait de la quantité astronomique de données que génèrent données satellitaires et prises de vues aériennes. Pour pouvoir les stocker, gérer, traiter, discriminer et analyser, il faut s’assurer que les systèmes et l’infrastructure sous-jacente soient à la hauteur. 

“Il s’agit par exemple de mettre en oeuvre une base de données pouvant faire face à cette masse de données, une architecture de stockage de spécifique apte à autoriser une interrogation rapide, pouvant supporter la gestion de données correspondant à des images de formats et de résolutions variables”, explique Eric Hallot, responsable de la cellule Télédétection et Géodonnées à l’ISSep. Données sur lesquelles viendront se greffer les algorithmes d’apprentissage automatique ou profond  (machine learning/deep learning).

“Il est nécessaire”, ajoute Pietro Ceccato, directeur de Business Unit chez Spacebel, “de mettre en oeuvre une infrastructure solide pouvant gérer de grandes bases d’images satellite et des séries temporelles, avec une capacité à détecter automatiquement des objets dans des images satellite.”

L’IA à la rescousse

L’analyse et l’exploitation des données satellite représentent un gigantesque enjeu – économique, technologie, environnemental, voire politico-stratégique. Le but de ce projet IA4GIS, de type proof of concept, est d’apporter une pierre à l’édifice et de donner naissance à une expertise et (potentiellement) à une infrastructure wallonnes pour l’analyse efficace d’images aériennes et satellitaires – non seulement de manière ponctuelle mais aussi et surtout dans ce qu’elles révèlent de l’évolution des espaces surveillés.

L’Intelligence Artificielle est appelée à la rescousse en raison de sa capacité à “interpréter”, à comprendre des images, à détecter des changements dans l’enchaînement temporel des images – l’effet d’une sécheresse, d’une pollution, un changement de superficie (forêt, terrain agricole, zone urbaine…), l’observation de changements environnements dû aux problèmes climatiques… Une aptitude à discerner le grain de sable significatif dans l’océan de données déversées en continu par les satellites, dans l’accumulation titanesque de séries temporelles…

A l’heure actuelle, la classification d’images demeure une tâche tantôt largement manuelle, tantôt hyper-spécialisée, et généralement digne d’un travail de bénédictin. Les images sont souvent examinées en séquentiel, une ou deux à la fois. Face à la myriade d’images collectées par les satellites, autant dire que le rythme est impossible à suivre.

Les outils et méthodes de détection traditionnels sont par ailleurs souvent spécifiques, dédiés à un type d’objet en particulier. Le but du projet IA4GIS est d’ouvrir la voie à une “gestion opérationnelle, permettant de passer d’un type d’objet à un autre…”

Et comme il faut bien commencer par quelque chose pour démontrer l’efficacité du concept, le choix s’est porté sur l’objet “piscine”.

Les piscines comme cas d’étude

“Détection automatique de changements et d’anomalies au sein de grands jeux de données ou de séries temporelles.” En quoi cet “objet” qu’est une piscine est-il pertinent, comme cas d’étude, pour détecter et interpréter des “changements” et des anomalies” se produisant au fil du temps?

Plusieurs raisons expliquent ce choix.

D’une part, il fallait un “objet” existant en quantité (nombre d’exemplaires) suffisante afin de constituer une base de référence suffisante. La réserve d’images sur laquelle le projet pourra plancher, pour les premiers tests d’algorithmes, vient de la Région wallonne: “les images sont en haute résolution et en quantité pertinente. Utiliser un seul set, homogène, facilitera la phase de validation. A terme, toutefois, pour garantir la transférabilité [efficacité et pertinence d’analyse algorithmique sur plusieurs jeux hétérogènes de données], d’autres jeux d’images venus de l’étranger seront ajoutés”.

 

“Prouver que l’on peut obtenir un résultat convaincant et opérationaliser les techniques d’analyse automatique.”

 

D’autre part, pour le côté pertinence de l’observation, il fallait quelque chose qui donne assez de fil à retordre à l’intelligence artificielle en termes d’identification. On pourrait croire qu’il n’y a pas plus bête objet à identifier qu’une piscine mais la multiplicité d’apparences peut toutefois représenter un défi pour une identification pertinente. Carrées, rondes, de forme ésotérique, bâchées ou non, construites hors sol ou enterrées, piscines gonflables… “Avec nécessité de pouvoir distinguer une piscine d’un point d’eau ou encore d’un trampoline… Une piscine est un objet à la fois simple et d’un niveau de complexité suffisant.”

Petite remarque complémentaire des partenaires du projet: “nous aurions pu choisir, comme cas d’étude, d’autres objets de complexité similaire, telles que les panneaux solaires, les haies, les parkings mais… ces “objets” présentent l’inconvénient d’avoir une dimension, une implication tenant de la gestion politique.” Les piscines, c’était plus neutre et anodin, libre de toute connotation. “Après tout, le seul but du projet est, d’une part, de prouver que l’on peut obtenir un résultat convaincant et, d’autre part, de démocratiser et d’opérationaliser les techniques d’analyse automatique.” Autrement dit: prouver que les algorithmes peuvent être efficace dans l’analyse des changements, parfois ténus, intervenant dans les images de prises de vue, sur une période déterminée. Et qu’ils peuvent être efficaces sur de multiples types d’“objets”.

Extrapolation

L’exercice proof of concept, basé sur l’objet Piscine, est donc destiné à prouver l’efficacité des algorithmes et de l’architecture sous-jacente (puissance de calcul, base de données…).

L’exercice, lors de cette première étape, s’effectuera sur des images aériennes d’excellente qualité et de grande précision (en termes de résolution). 

Une fois l’efficacité démontrée, il s’agira de transposer l’exercice sur des images d’un genre différent. A savoir: les images satellite – telles celles des satellites européens Sentinel 2.

Source: ISSep

L’une des difficultés dans l’analyse de telles images satellitaires est leur degré (relatif) de précision. Une image satellite représente une surface au sol de… 290 kilomètres de large, avec une résolution (pixel) qui, dans le meilleur des cas, est de 100 m2 (10 m sur 10). Selon les bandes spectrales utilisées, la résolution peut même être de 20 mètres ou de 60 mètres. Difficile, au vu de cette résolution “grossière”, de permettre la détection et l’identification précise d’un objet du genre voiture… Pour détecter certains objets et assurer le suivi de certains “changements”, il faut dès lors combiner ce genre d’images avec d’autres documents: photos aériennes, images de meilleure résolution mais qui ont par contre des inconvénients. Elles sont à la fois… payantes, et fournies de manière nettement moins régulière (lisez : fréquente) que les images Sentinel. “Une image spatiale en haute résolution est prise parfois une fois par an. Les images Sentinel, elles, sont prises toutes les semaines ou tous les quinze jours…”, rappelle Pietro Ceccato.

En démontrant l’efficacité et la pertinence d’algorithmes auto-apprenants, non spécialisés, sur base du cas d’étude des piscines, le but à terme est de lâcher ce type d’algorithmes sur de véritables images satellite Sentinel pour assurer , via analyse automatique de séries temporelles, le suivi de changements (ou d’anomalies) du genre coupe forestière, modification de l’allocation des terres agricoles, sécheresse ou effet de contaminations sur des cultures…

Eric Hallot cite un autre exemple: le suivi de sites ou chancres industriels à réaménager. “Les images Sentinel ne permettent certes pas d’en voir les moindres détails mais elles permettent de détecter des changements. L’intérêt d’une détection automatique est de pouvoir assurer le suivi ou la surveillance de quelques milliers de sites simultanément et d’identifier les quelques dizaines d’entre eux où il faut cibler les interventions”.

Complexité au rendez-vous

L’un des enjeux, d’un point de vue technologique, est de développer des algorithmes qui soient efficaces sur un large panel d’“indices” – plus précis que de simples variations de couleurs, de brillance, de détection de présence ou absence de végétation… – et qui puissent prendre en compte la totalité des bandes spectrales.

Corollaire immédiat: “il faut mettre en oeuvre des outils de calcul qui supportent de tels algorithmes plus complexes. Chose que les bases de données et architectures traditionnelles ne peuvent assumer”, indique Eric Hallot. “Et il faut bien entendu entraîner les algorithmes pour qu’ils puissent automatiquement labelliser les changements.”

 

Définir l’architecture nécessaire, développer et valider les algorithmes, tester la base de données… 

 

Côté infrastructure, il faut pouvoir disposer de l’espace de stockage et de la puissance de calcul nécessaires. Là aussi, les centres de calcul et infrastructures “classiques” dont on dispose localement sont sous-dimensionnés pour la tâche. Aucun centre ou acteur local n’a l’ampleur ou le volume de ressources régulières nécessaires. Et se tourner vers les acteurs du cloud, du genre Microsoft, Google ou encore Amazon, ne permet pas de développer une réelle expertise locale, en termes à la fois d’infrastructure et de services (sans parler de considérations de “maîtrise” sur les données). C’est aussi se mettre à la merci de tout changement intervenant dans les outils ou infrastructures…  “Au moindre changement opéré par exemple dans Google Earth Engine, nous devons tout adapter, modifier la totalité de la chaîne de processus. C’est impossible”, estime Pietro Ceccato.

La réponse doit donc venir de l’Europe, et/ou de la Région. Un sujet chaud, voire sensible, que nous avons déjà évoqué par le passé à propos du dossier du CollGS (Collaborative Ground Segment), en souffrance depuis… 2017. Relire par exemple à ce sujet notre dernier article “Exploitation de données spatiales: la piste wallo-luxembourgeoise n’est pas morte…”

Quoi qu’il advienne de cette infrastructure CollGS locale (wallonne ou wallo-luxembourgeoise), le projet IA4GIS compte faire avancer le schmilblick, “montrer que nous avons une solution à proposer” – ou les capacités de le faire. Il s’agit donc, à ce stade, dans le cadre de ce projet IA4GIS, de définir l’architecture nécessaire, de développer et de valider les algorithmes, de tester la base de données…

A noter que développements et tests s’effectueront avec des solutions et outils Oracle – spécialisation d’Oscars oblige. Mais, tiennent à souligner les porteurs de projet, “tous les algorithmes seront développés en Python ou dans un autre langage open source. Dès l’instant où une décision sera prise [au niveau de l’infrastructure], où qu’une solution x, y ou z émergera, il sera possible d’utiliser les algorithmes. Seuls les accès à la base de données devront être modifiés.”