MobFaceNet: un projet pour embarquer des réseaux neuronaux légers sur smartphone

Article
Par · 30/01/2019

Fin d’année dernière, de nouveaux projets obtenaient un financement régional wallon dans le cadre du programme “Win²Wal” (1) de la DGO6.

L’un d’eux est le projet “MobFaceNet” porté par l’institut Numediart et la faculté FPMs (Polytech) de l’université de Mons et la société MoodMe. Son thème: innover en matière de réseaux neuronaux embarqués afin de rendre la reconnaissance faciale et émotionnelle possible sur smartphones et permettre ainsi une série de nouvelles applications. Par exemple pour procéder à une analyse temps réel de l’implication ou de l’intérêt d’un internaute ou pour adapter dynamiquement l’interface, le site, l’avatar, le bot… en fonction de la personnalité et/ou du comportement de chaque utilisateur.

L’UMons a été approchée par la société MoodMe qui ambitionne de développer des applis analytiques/IA “embarquables” sur smartphone afin de pouvoir “lire” et “interpréter” les traits et expressions du visage pour en extraire des informations (genre, âge, voire émotions) exploitables par exemple pour des applications marketing, de gestion de la fidélité (client, internaute), de gestion et de personnalisation de l’interaction, ludique ou autre, avec le mobinaute, d’“humanisation” des mimiques d’un robot (virtuel ou physique), etc.

“Alléger” les réseaux neuronaux

La reconnaissance faciale ou l’une de ses variantes applicatives qui se concentre sur l’identification des émotions n’est plus une nouveauté. Les spécialistes du marketing, notamment, s’en sont emparés depuis belle lurette. Idem en matière de sécurité: déverrouillage de l’écran du smartphone, ouverture d’application… Mais les mécanismes d’intelligence artificielle qui les rendent possible (avec plus ou moins d’efficacité et de précision) exigent encore de grosses puissances de traitement.

Toutefois, même si les portables (tablettes et smartphones) se sont sérieusement musclés ces dernières années, “l’Intelligence Artificielle et l’apprentissage par réseaux profonds requièrent des réseaux de plus en plus fournis et lourds” souligne Matei Mancas, chercheur en modélisation informatique de l’attention et par ailleurs cofondateur de la start-up Ittention, spin-off de l’UMons.

“Cela exige encore des ordinateurs de bureau ou de puissants serveurs. Les implémenter au niveau d’un smartphone est en principe impossible. Par ailleurs, solliciter à distance de tels réseaux, via un smartphone, pose des problèmes de délais de réaction, de manque éventuel de couverture Internet… Sans oublier des problèmes de sécurité des données, avec risque de piratages visant des serveurs dont on ignore où ils sont, sur des données sensibles puisqu’elles concernent le visage, les émotions…”  

Premiers démonstrateurs

Source: MoodMe.

Les premiers potentiels sur lesquels se concentrent les chercheurs de l’UMons (deux personnes seront affectées au projet MobFaceNet – dont un chercheur senior que recherche encore l’université) concernent la capacité des réseaux profonds, embarqués sur mobile, à identifier le genre et l’âge. Mais les travaux porteront également, en parallèle – du moins en partie -, sur l’extraction des points caractéristiques permettant de comprendre les émotions.

“Nous voulons vérifier qu’il est possible d’utiliser un seul réseau neuronal pour les trois finalités – détermination du genre, de l’âge et des émotions – et de produire les résultats correspondants voulus sans devoir faire trois opérations distinctes.”

Les trois finalités sont en effet intimement liées et interdépendantes. Un exemple? “La détection de l’âge est dépendante du genre mais aussi des expressions faciales, des émotions qu’exprime le visage…” Ces dernières influencent en effet l’apparence.

Le projet MobFaceNet n’est qu’un des fers IA, orienté optimisation de réseaux neuronaux, que l’UMons a mis sur le feu. Les débouchés applicatifs que visent en effet MoodMe orientent en effet les travaux dans une certaine direction.

L’optique de la recherche doit être plus large, viser une théorie plus globale, déclinable ensuite en cas spécifiques. Dans cette perspective, un doctorant planche donc sur une thèse en collaboration avec un de ses collègues de Télécom SudParis (école d’ingénieurs en numérique).

Les premiers travaux d’intégration sur portable ont été effectués mais il s’agit désormais d’améliorer sensiblement l’efficacité et la “légèreré” des réseaux neuronaux. Cela passe par leur compresson afin de les rendre plus rapides et gérables sur smartphone en les implémentant sur des processeurs ou des cartes graphiques pour mobiles.

“En termes d’efficacité de reconnaissance de l’âge par exemple, tout dépendra du taux d’identification attendu. Autrement dit, la précision, à quelques années près, de l’évaluation de l’âge.

Nous testerons des taux de compression [des réseaux] de plus en plus élevés pour vérifier l’impact sur l’efficacité. Il faudra déterminer avec MoodMe à quel degré de compression on devra s’arrêter pour conserver une précision jugée suffisante pour l’application visée.”

Pour ce qui est de la “performance” (vitesse de calcul), les travaux tendront à obtenir une analyse temps réel, même si toutes les applications ne l’exigent pas forcément. “Si la reconnaissance du visage ou d’une émotion a pour but de lancer une application ou de déterminer l’âge, un petit délai d’une seconde ou deux peut être considéré comme acceptable.

Par contre, s’il s’agit d’une appli qui doit réagir à tout changement de direction ou d’expression du visage, en continu, on ne peut accepter des délais induits par le recalcul de l’image. Et on parle ici de 15 à 20 recalculs/seconde…”

Le nerf de la guerre

Autre paramètre qu’il faudra résoudre: la pertinence des données sur lesquelles les algorithmes et modèles IA “moulinent”. Dans le cas de l’interprétation faciale, il faut entraîner les algorithmes afin qu’ils soient capables de reconnaître et d’interpréter efficacement des visages non seulement de tous les âges mais aussi de toute provenance – européenne, asiatique…“Les bases de données et leur qualité sont le nerf de la guerre en IA. Il existe certes des bases de données mais beaucoup sont payantes ou ne contiennent pas ce qu’on désire. Il faudra donc en constituer nous-mêmes, ce qui prend plus de temps…”

Croiser et exploiter plusieurs bases de données est par ailleurs l’un des obstacles que l’IA n’a pas encore franchi et qui fera l’objet d’un volet majeur de la R&D dans le cadre de ce projet MobFaceNet

“Il faudra adapter, ré-entraîner les modèles, peaufiner les réseaux neuronaux, les spécialiser…”, déclare Matei Mancas. “On a déjà pu constater qu’il est plus aisé de spécialiser un réseau neuronal qui a déjà été entraîné sur une base de données en le ré-entraînant en partie sur une deuxième base. Les résultats sont plus rapides dans la mesure où on peut réduire le volume d’images concernées.”

Le but est en quelque sorte de mutualiser les “compétences” ou “savoirs” acquis par les réseaux neuronaux. “On a actuellement recours à des réseaux différents pour déterminer le sexe ou l’âge d’une personne alors que nombre de caractéristiques sont communes. Après tout, c’est toujours un visage…”

Le but du projet de R&D est donc aussi de mutualiser le calcul, de constituer une “boîte à outils” pouvant extraire les caractéristiques communes, réexploitables pour des finalités diverses.

Le bon moment pour se positionner…

Le projet de R&D MobFaceNet, financé à hauteur de 556.000 euros par la Région wallonne, s’étendra sur trois ans, avec des étapes spécifiques pour produire de premiers résultats.

Matei Mancas estime que le lancement de ce projet intervient au bon moment. “La compression de réseaux neuronaux est quelque chose d’assez neuf. Jusqu’ici, les industriels se sont surtout concentrés et se contentent de solutions IA tournant sur ordinateurs et n’ayant pas forcément de potentiel temps réel.”

Source: MoodMe

Bien entendu, c’est aussi une matière qui attire un intérêt croissant. “C’était pour nous le bon moment pour rentrer dans le jeu” et à essayer ainsi d’apporter sa contribution, voire de battre d’autres à la course, pour faire faire un pas majeur à la technologie…

Les chercheurs utiliseront-ils et amélioreront-ils des modèles et réseaux existants ou faudra-t-il développer de nouveaux réseaux neuronaux? Dans le domaine visé par le projet, Matei Mancas estime qu’“il existe une dizaine d’algorithmes, dont certains sont plus efficaces que d’autres. Nous utiliserons des réseaux existants mais il faudra beaucoup de travail pour obtenir quelque chose qui tienne la route. Au rayon réseaux binaires, on modifie plus qu’on n’améliore. Le résultat est souvent une architecture différente par rapport au réseau de départ.

L’un des objectifs du projet sera donc de réfléchir et de définir une stratégie de compression et une stratégie d’apprentissage automatique.”

Petite fourchette indicative du taux de compression qui devra être appliqué aux réseaux neuronaux pour pouvoir les embarquer sur mobile: “d’un facteur 2 à 10. Pour les plus gros, il est même difficile, actuellement, de les faire tourner sur serveur…”

(1) Le programme Win²Wal (Win-Win Wallonia) vise à “stimuler la recherche stratégique menée au sein des universités, des hautes écoles ou de leurs centres de recherche associés, en amont de projets identifiés par les entreprises wallonnes” et, ce faisant, à “soutenir projets de recherche innovants ayant un haut potentiel de valorisation dans des thématiques liées à des besoins stratégiques industriels identifiés”. [ Retour au texte ]