S’il est un terme que l’on voit de plus en plus surgir et que l’on associe immanquablement au domaine du “big data”, c’est bien celui de “data scientist”. Terme d’ailleurs largement galvaudé ou mis à toutes les sauces. Sorte d’oiseau rare, de mouton à 5 voire 10 pattes, qui devrait concentrer toutes les qualités et compétences, selon certains. Statisticien hors norme, génie de l’ICT, bon communicateur (avec le “business”), magicien trouvant, d’un simple regard, l’aiguille dans la botte de foin, orfèvre en algorithmique…
Voici l’idée que s’en font divers acteurs locaux du big data.
“Un data scientist est avant tout un scientifique, un docteur ou doctorant qui a utilisé du big data dans le cadre de ses travaux”, souligne Laurent Kinet, co-fondateur de Swan Insights. LIEN vers article. “C’est un ingénieur qui écrit l’algorithme. C’est lui qui apporte la caution scientifique. Il doit penser en termes d’applications. Ce n’est pas un expert technique. Ces deux profils, toutefois, sont nécessaires dans une équipe, le data expert étant là pour “manipuler” les données.”
“Un data scientist est un champion de l’analytique”, déclare pour sa part Marc Santerre, vice-président IT Enterprise Technology chez UCB. “C’est par exemple quelqu’un qui est détenteur d’un PhD. Quelqu’un qui aime explorer, manipuler les données pour en faire sortir des patterns. Mais aussi quelqu’un qui puisse interagir avec les gens du business. Il ne faut pas nécessairement que son expertise soit sectorielle. Un haut profil générique peut parfaitement convenir.”
Pierre-Paul Fares, responsable de l’unité Business Intelligence & Advanced Analytics de NRB, estime quant à lui qu’un “data scientist” doit pouvoir opérer en duo avec un autre profil, qu’il qualifie de “business scenario modeler”.
“Un data scientist peut par exemple être un ingénieur, quelqu’un ayant une formation scientifique. Mais avant tout, quelqu’un de curieux par nature. Il doit pouvoir travailler de concert avec un qui identifiera et construira le scénario, qui comprenne la valeur ajoutée que l’exercice d’analyse big data procurera au business. Une fois le scénario élaboré, il le passe au data scientist pour que ce dernier valide ou non sa pertinence, identifie des patterns dans les données. Il faut travailler en binôme: quelqu’un plus orienté business et un profil plus scientifique – un mathématicien, un physicien, etc. – qui a déjà une première expérience en statistiques, en traitement de données, qui est habitué à une démarche scientifique, par itération.”
Pour Andy Petrella de Next Lab (société spécialisée dans le développement de logiciels et de projets informatiques big data), le terme de “data scientist” est en fait trompeur. “C’est un méta-statut, un label que l’on applique à trois profils différents: data engineer, data analyst, et développeur opérationnel. Au sens strict, le data scientist est un data analyst. Il n’est pas possible de réunir ces trois profils en une seule personne. Un “expert” est, par définition, quelqu’un de “pointu” dans un domaine spécifique, réduit. Si on veut tout faire, on commet forcément des bourdes. Nous ne sommes plus au 17ème siècle, lorsqu’il était encore possible de tout connaître. Entre ces profils, il y aura nécessairement des recoupements mais il faut continuer de se concentre dans un de ces trois domaines pour avoir le droit d’être qualifié d’“expert” ou de “scientist”. La bonne nouvelle, c’est que ces trois profils existent déjà mais qu’ils devront nécessairement évoluer pour faire face aux nouveaux défis.”
Les profils actuels devront donc, selon lui, acquérir de nouvelles compétences. “Si l’analyste se positionne en amont du processus [de traitement], il doit savoir que ce qu’il crée doit être en mesure d’effectuer un saut quantique. Il lui faut trouver un modèle qui devra être parallélisé, par exemple. S’il se place en aval, il doit savoir comment les données ont été générées, “packagées”. S’il s’agit de faire du traitement brut, in situ, de traitée des péta-octets de données à la volée, un bagage technologique et un acquis de développeur sont nécessaires. Bien au-delà de simples compétences de statisticiens…”
Alimenter le pipeline
S’il est une chose sur laquelle tous s’accordent, c’est que les profils de data scientists sont encore rares et les filières de formation fort rares, pour ne pas dire quasi inexistantes chez nous. NRB, par exemple, procède pour l’instant par formation complémentaire des consultants existants. Formation qu’ils suivent à distance, en piochant dans des ressources américaines. “Nous n’avons pas trouvé de formateur en local.”
Les universités et Hautes Ecoles commencent toutefois à s’intéresser à la question. De premiers cours orientés big data, souvent encore optionnels, ont été insérés dans les programmes.
Des sessions d’informations sont organisées. Comme à l’ULg, par exemple, qui organise aussi des séances d’information et conférences, invitant des acteurs de terrain à venir expliquer aux étudiants comment les technologies émergentes, telles que l’analytique ou les traitements distribués, vont remodeler les métiers informatiques.
Des thèses et mémoires choisissent des thèmes touchant à ce nouveau domaine. Parfois, sur proposition de sociétés ou d’indépendants qui se sont spécialisés dans cette matière. Tels Andy Petrella de NextLab ou Eric Charles de Data Layer. “Nous proposons des idées variées. Notamment pour faire évoluer la technicité, forcer un peu la main aux étudiants pour les inciter à s’intéresser à la question. Par exemple, en leur proposant des projets de classification de spam… Un autre objectif est de leur faire se réapproprier les modèles mathématiques qui sont efficaces sur des systèmes monolithiques mais qu’il faut appliquer à des infrastructures distribuées.”
A l’UNamur, des projets sont également proposés aux étudiants. En 2013, par exemple, une équipe multidisciplinaire s’est penchée, pendant un semestre, sur la problématique des recommandations (par exemple de lectures) sur base de données Facebook et de milliers de profils. Cette année, le thème de la recherche est le traçage de la mobilité des Belges, en se basant sur des données GSM mais aussi Tiwtter et Foursquare. Objectif: dresser la carte de mobilité des Belges.
Même si les choses bougent, tous les établissements n’ont pas encore sauté le pas. Loin s’en faut. La question qu’ils se posent est sans doute de savoir si la demande est assez forte pour justifier la création de cours ou de cursus spécifiques, souligne Ferdinand Casier, responsable business development chez Agoria. “Pour l’instant, les étudiants ne semblent pas vouloir se précipiter pour suivre ce genre de cours. Il y a sans doute un gros effort d’informatisation et de conscientisation à faire.” En évitant peut-être aussi l’étiquette “big data”, qui reste floue et frise le buzz éventuellement sans lendemain. Si le besoin et le potentiel sont bien réels, “peut-être vaudrait-il mieux recourir à des appellations employant le terme ‘analytique’…”
“L’une des pistes qu’évoquent assez souvent les personnes qui s’intéressent à cette problématique est celle des MOOC [Massive Open OnLine Courses]”, déclare-t-il. “Ce pourrait être là une ressource intéressante: quelques formatons mises à disposition de quiconque veut se former aux big data.”
Dans certains pays, des universités ont en tout cas placé le big data à leur agenda, sous forme de cursus complet et structuré. C’est par exemple le cas de l’université de Berlin.
Et chez nous?
Namur. A l’UNamur, Naji Habra, doyen de la faculté d’informatique, rappelle que l’émergence du terme “big data” est le fruit d’un phénomène de buzz. “Le big data est une très ancienne préoccupation remontant au data mining, qui prend maintenant une nouvelle ampleur avec l’apparition et la mise à disposition d’énormes volumes de données numérisées, nécessitant de nouvelles techniques liées au volume, à la dispersion des données, à leur manque de structure etc. Le big data s’inscrit davantage dans une évolution que comme une découverte à un moment t d’un nouveau paradigme. Et dans ce contexte, notre formation a toujours été en phase avec cette importance accordée aux données dans les systèmes d’informations et continue à évoluer avec ce paradigme.”
Naji Habra (UNamur): “Le big data s’inscrit davantage dans une évolution que comme une découverte à un moment t d’un nouveau paradigme.”
Le big data se retrouve donc en filigrane de l’orientation Systèmes d’information, “spécifique à l’Université de Namur, qui place notamment les données au centre de ses préoccupations. Concrètement, notre programme de base comporte plus de 100 heures de cours en bases de données (en bac et Master). Nous avons des cours de spécialité (en Master): 30 heures en data mining et 30 heures en techniques d’intelligence artificielle. En Master, le cours “questions spéciales des systèmes d’information” est dédié à des questions d’actualités et se centre ces dernières années sur l’analyse de Twitter, de Facebook et sur des projets Open Data.”
Deux cours d’une semaine ont par exemple été donnés, cette année, par un professeur venu de Cambridge sur l’utilisation de Python dans un contexte d’extraction de données sur Twitter.
Deux postes académiques sont par ailleurs actuellement ouverts [ils seront pourvus en septembre] qui s’orientent notamment vers les thématiques big data et knowledge management.
Enfin, l’UNamur a déposé plusieurs projets de recherche multidisciplinaires (avec la filière Math et Gestion) dans le domaine ont été déposés (projets FEDER, projet de Plate-forme wallonne Big Data…) qui touchent aussi à cette problématique.
Mons. En 2013, l’université de Mons a inauguré, en 5ème année de master (informatique et gestion), un cours – optionnel – en “référencement et indexation multimédia”. Pas de “big data” pur et dur donc mais un cours qui s’intéresse de manière plus spécifique à la recherche et au traitement d’informations multimédia (potentiellement volumineuses). Les étudiants s’y frottent à des techniques et concepts tels que les méthodologies de recherche dans de grandes bases de données, les méthodologies de référencement, l’identification de structures de données, les techniques de parallélisation, ou encore le potentiel du calcul HPC (high performance computing) pour la recherche du ‘big data’.
Ce cours sera d’ailleurs intégré au programme de base dès l’année académique 2015.
Le contenu des cours s’appuie, en partie, sur les recherches menées au sein de l’Institut Numediart de l’université qui croise des équipes aux compétences hybrides, venues des départements informatique, mathématiques & recherche opérationnelle, et traitement du signal.
Liège. A l’ULg, Louis Wehenkel, professeur en méthodes stochastiques (probabilités appliquées aux statistiques) à l’Institut Montefiore de l’ULg et chercheur en machine learning (apprentissage machine), simulation stochastique et optimisation, souligne que “le département Montefiore propose depuis de nombreuses années un cours dans le domaine du machine learning (apprentissage automatique) qui aborde les principes des méthodes de fouille de données et les problématiques de mise à l’échelle pour traiter le ‘big data’. Ce cours est à option pour plusieurs filières d’études Ingénieur civil (M1 et M2) et obligatoire pour la filière d’étude en Sciences informatique (M2). Chaque année une trentaine d’étudiants, environ, le suivent.
Par ailleurs, un enseignement est offert dans le domaine de la bioinformatique, également au niveau Master Ingénieur Civil et Sciences informatiques. Cela touche aussi au big data.”
Et d’ahjouter: “Je suis convaincu que, dans les années qui viennent, les enseignements en relation avec le Big Data vont certainement s’intensifier dans plusieurs filières de formation de l’ULg. Le débouchés sont en effet considérables.”
UCL. “De premiers éléments, liés au big data, figurent déjà dans les cours: théorie des graphes (réseaux), nouveaux défis que représente le big data.”, indique Jean-Charles Delvenne, professeur adjoint à l’UCL et professeur à l’Ecole Polytechnique de Louvain. “Dès 2015, le cloud computing figurera au programme des masters pour les ingénieurs informatiques. Dès l’année prochaine également, des cours big data seront proposés, en option, dans les 4ème ou 5ème années d’ingénieurs, mathématiques appliquées. Avec des sujets tels que les nouveaux défis, la détection automatique et la correction des erreurs, le traitement des algorithmes, la représentation et la visualisation synthétique du big data…”
Jean-Charles Delvenne (UCL): “Big data c’est peut-être aussi du big team. Il n’est pas possible d’être expert en tout. Mais il faut par contre être conscients des différentes problématiques…”
Il est évident aux yeux de Jean-Charles Delvenne que le big data requiert une multiplicité de compétences: algorithmique, IT pure… “Les compétences à acquérir touchent à la fois à la manière de traiter les données et d’organiser les ressources informatiques. Optimisation, mathématiques appliquées, réseaux, programmation, statistiques… Ce sont là des compétences nécessaires qui sont rarement enseignées ensemble. Mais ce dont il faut sans doute se rendre compte, c’est que big data c’est peut-être aussi du big team. Il n’est pas possible d’être expert en tout. Mais il faut par contre être conscients des différentes problématiques…”
Et en Flandre?
Les universités flamandes semblent avoir pris une petite longueur d’avance sur ce qui se fait du côté francophone. Même si l’on ne peut pas encore réellement parler de “filière” big data.
La Haute Ecole Thomas More (Malines-Anvers), par exemple, propose une formation complémentaire, de niveau major, en “big data crunching”. Formation analytique que l’école propose en plus d’une autre formation plus traditionnelle en business intelligence. Les appellations utilisées sont révélatrices des différences entre ces deux disciplines: diplôme de “big data cruncher”, d’un côté; d’“information blender”, de l’autre…
L’université de Gand propose quant à elle carrément un “master of science” en marketing analytics, spécifiquement axé sur la maîtrise des outils big data (Hadoop en tête).
La KULeuven, pour sa part, a inscrit un master en information management avec option Data Science à son catalogue.
Découvrez-nous sur Facebook
Suivez-nous sur Twitter
Retrouvez-nous sur LinkedIn
Régional-IT est affilié au portail d’infos Tribu Médias.