Wallonia Big Data: le point sur ce projet de recherche collaborative

Article
Par · 30/08/2018

Fin 2014, la Wallonie décidait de se doter d’une structure mi-recherche mi-commercialisation dédiée aux big data afin de faciliter l’accès à des outils de simulation, expérimentation, analyse par des acteurs locaux – privés ou publics.

Nom de baptême: Wallonia Big Data.

La forme, pour le financement et l’opérationalisation de cette “plate-forme”? Un “PIT” – Partenariat d’Innovation Technologique -, une forme de partenariat public-privé entre la Région, le centre de recherche Cetic, des acteurs spécialisés (Pepite, Data Fellas, CBlue), et NRB, ce dernier ayant été chargé de la constitution et gestion de l’infrastructure, de l’hébergement des données et de la prestation de certains services. Plus de détails sur le rôle de ces acteurs dans la suite de l’article.

L’objectif en réalité est double: non seulement “fédérer, faire collaborer et se compléter les ressources et compétences locales disponibles”, comme nous le disions dans le dossier consacré à ce projet Wallonia Big Data (à relire ici), mais aussi faire émerger, si possible, des outils, algorithmes, solutions analytiques qui soient réplicables, mutualisables, exploitables par tout acteur, sans (trop de) développement et d’adaptation. Cette mise à disposition (commerciale) impliquerait bien évidemment que l’on détermine, à l’issue de la phase PIT, qui vend, engrange les recettes, assure le service. L’idée formulée à l’époque était donc de mettre sur pied une SCRL (société coopérative à responsabilité limitée), “impliquant les membres des consortia de recherche mais aussi d’autres acteurs locaux”. On n’y est pas encore mais le volet PIT, lui, a réussi à se mettre sur les rails – après des débuts un rien hésitants.

Retard (en partie) pour cause de force majeure

Le projet Wallonia Big Data avait été approuvé fin 2014 par le gouvernement wallon de l’époque, Début 2016, son coup d’envoi était officiellement donné. Toutefois, le projet a pris du retard à l’allumage. L’une des raisons est à chercher du côté du partenaire technologique choisi au départ pour mettre en oeuvre l’infrastructure de traitement. En l’occurrence IBM.

Michel Mans, consultant principal chez NRB, s’en explique. “La plate-forme technologique choisie au départ s’appuyait sur la solution de distribution Hadoop BigInsights” [Ndlr: la plate-forme proposée incluait par exemple des clusters Hadoop, des systèmes dédiés PureData (analytique), le Big Data Framework (évaluation du stade et du modèle de maturité big data) ou encore les logiciels PMQ (Predictive Maintenance and Quality) pour la surveillance temps réel des sources de données].

Chaque “use case” (projet-pilote) bénéficie de son propre environnement HortonWorks et de services complémentaires. Quatre noeuds Hadoop sont réservés à chaque environnement, avec inscription systématique des informations en trois endroits distincts. “Ce qui évite de devoir effectuer des sauvegardes”, souligne Michel Mans.
Espace attribué par cluster: 8 To, avec possibilité d’ajouter des incréments (en principe 2 To par noeud supplémentaire mais modulable de manière plus fine à la demande).
Outre les modules complémentaires prévus d’office par NRB (Talend et MicroStrategy – ou un autre module orienté BI qu’exigerait le client), l’environnement de chaque use case peut inclure d’autres modules. Un use case peut par exemple avoir intérêt à utiliser la solution Data Maestro de Pepite, l’un des partenaires du projet de recherche. Cet outil procure en effet un ensemble d’algorithmes et d’arbres de décision pré-conçus, prêts à l’usage…

La mise en place d’éléments de sécurité a subi du retard en raison de problèmes. La mise en oeuvre s’est avérée plus complexe que prévu.

IBM a ensuite modifié sa stratégie commerciale, abandonnant la distribution de sa solution Hadoop BigInsights au profit de celle de HortonWorks [Ndlr: aux termes de l’accord passé entre les deux sociétés, HortonWorks adopte en retour les outils analytiques collaboratifs Data Science Experience d’IBM et son Big SQL, moteur de requêtes SQL-on-Hadoop. Les deux partenaires s’allient en outre pour poursuivre les développements du volet gouvernance de données, basé sur le framework Apache Atlas d’HortonWorks].

Suivant en cela le choix d’IBM avec lequel, bien entendu, le partenariat se poursuit, en ce compris dans le cadre du projet Wallonia Big Data, nous nous sommes donc tournés vers cette HortonWorks Data Platform qui est un ensemble intégré d’outils open source Apache Hadoop, avec architecture centralisée.

La société dispose notamment d’équipes spécialisées dans des secteurs verticaux (banques, services d’utilité publique…) que nous pouvons solliciter pour des conseils.”

Si les matériels (serveurs IBM) ont été préservés, le “virage” HortonWorks a nécessité de reconstruire tout le montage logiciel, aménager les grappes de serveurs virtualisés, intégrer la plate-forme avec des modules complémentaires (Talend pour l’ETL, Microstrategy pour la BI) et choisir, comme on le verra plus loin, des outils plus flexibles et plus récents.

Autre facteur de retard: le recrutement de profils plus spécifiquement orientés big data, analytique, algorithmes etc. et ce, afin de faire face à la complexité que représentait la mise en place de la plate-forme et la mise en oeuvre des différents projets-pilote proposés.

Le retard, multi-forme comme on vient de le voir, a justifié un prolongement d’un an du projet de recherche. Aucune des parties prenantes ne désirait en effet mettre au rebus le scénario élaboré et sacrifier la perspective de transformer les “use cases” en source de solutions concrètes, commercialisables. Le “retour sur investissement” en dépendait…

Prolongement donc du projet jusqu’en août 2019, sans toutefois de rallonge de financement public.

Il n’y a pas eu que le problème de plate-forme…

Il y eut également d’autres retards – ou raisons de retard. D’une part, le choix des outils de départ. Et l’on ne parle pas uniquement de la plate-forme proprement dite (IBM BigInsights remplacée par HortonWorks). La nature-même des outils fut remise en question. “Plusieurs partenaires du PIT ont émis des réserves à propos de la première version de la plate-forme”, déclare Stéphane Mouton,  chef de projet R&D au Cetic. “Même s’il n’y avait pas eu le changement de plate-forme, il y aurait eu réorientation des outils afin de mieux les faire correspondre aux besoins, d’intégrer des outils plus récents.

Plusieurs partenaires l’avaient signalé et le constat a d’ailleurs aussi été fait par NRB qui a pris ces remarques en considération et a opéré le changement de direction – radicale, nécessaire… Il fallait une plate-forme qui soit plus souple par rapport à des besoins spécifiques. Cela a été fait mais cela a nécessairement pris du temps…”

Autre raison de la lenteur de démarrage, cette fois du côté des “use cases”: certains projets ayant posé leur candidature pour servir de scénarios-pilote ont peiné, voire n’ont pas réussi, à procurer les nécessaires accès aux données ou à collecter suffisamment de données pour autoriser une analyse big data valable, pertinente et représentative. Ce fut notamment le cas dans le registre médical où, dans un cas particulier, l’étape nécessaire de l’anonymisation des données a fait surgir un obstacle supplémentaire.

Les partenaires

Le CETIC fait office d’organe de référence pour l’évaluation, l’approbation et le suivi de l’évolution des use cases, contrôle de qualité inclus. Son rôle a également inclus la définition d’une méthodologie d’analyse de pertinence et de faisabilité des use cases. Il prête par ailleurs aussi des ressources au projet, sous forme de compétences, conseils, analyse et data scientists. 

L’UNamur, elle aussi, met à disposition un data scientist pouvant travailler sur un ou plusieurs use cases.

Côté acteurs privés, les sociétés retenues en raison de leurs compétences spécifiques en matière de big data sont NRB, Pepite, Data Fellas/NextLab et CBlue. NRB et CBlue ont été essentiellement choisies en raison de leurs compétences en infrastructure, même si elles interviennent aussi sur le volet traitement et analyse de données. 

NRB met à disposition et gère l’infrastructure de traitement et de stockage big data et fait par ailleurs office de coordinateur du projet. La société met également des consultants, voire l’un ou l’autre data scientist, à la disposition de certains use cases.

Data Fellas et Pepite sont plus spécifiquement des spécialistes de l’analyse de données.

Selon leurs compétences, ces sociétés sont dont associées à l’un ou l’autre use case pour lesquels elles mettent à disposition des connaissances et/ou des outils et solutions. Pepite, par exemple, auteur de la solution Data Maestro, collabore davantage avec les porteurs de use cases orientés industriels (tel celui de Thales Alenia dans le domaine spatial voir l’article dédié aux neuf “use cases”)

A lire dans la suite de notre article: