Qualité du big data: probabilité ou certitude?

Article
Par · 03/06/2014

Plus le volume de données augmente, plus on peut accepter un certain degré d’inexactitude dans les données, le volume minimisant l’impact de ces imperfections sur l’image globale. Le tout est évidemment de savoir quel degré de “bad/dirty data” est acceptable.

Si le contrôle de la qualité des données, à la source, demeure une règle de pure logique, elle est parfois, voire souvent, difficilement applicable en matière de big data. En tout cas, pour certaines provenances (le world wild web, les capteurs, les réseaux sociaux, des bases de données mal identifiées…).

Données internes ou même des open data venant d’organismes de confiance (services publics, EuroStats…) sont fiables, vérifiables. Idem pour des données B2B “cautionnées” par le fournisseur (Dun & Bradstreet, van Dijk, sociétés lambda…). Le reste présente un degré de certitude variable. Il s’agit donc de choisir – si possible – ses sources avec soin. De vérifier autant que possible. Et, pour le reste, d’appliquer certains principes.

 

Laurent Kinet: “L’amplitude de l’incertitude est un paramètre dont il faut tenir compte. Plus on ajoute de données, plus cette amplitude diminue.”

Swan Insights, par exemple, applique une pondération différente selon l’ancienneté des données. “Plus un jeu de données est vieux, moins important sera son degré pondéré de contribution à nos algorithmes”, déclare Laurent Kinet, patron de la société. “Plus les données sont anciennes, moins on s’en sert. Elles peuvent servir à dégager des tendances mais n’autorisent pas une caractérisation précise. L’amplitude de l’incertitude est un paramètre dont il faut tenir compte. Plus on ajoute de données, plus cette amplitude diminue. Il y a donc intérêt à jouer sur la variété des données – informations internes, open data, données provenant des réseaux sociaux… – afin de rendre la prédiction valide.”

Il est illusoire de contrôler la qualité des méga-jeux de données, qui se chiffrent parfois en téra-octets, confirme Marc Santerre, vice-président IT Enterprise Technology chez UCB. “Il faut composer avec un certain degré de non-qualité. Les sources ne sont pas forcément validées mais par contre, en ce qui nous concerne, les résultats sont hyper-contrôlés. Nous ne pouvons pas courir le moindre risque de déviation et nous devons veiller à nous conformer à des normes régulatoires extrêmement sévères.”

Comment marier, dans ce cas, ces deux éléments apparemment irréconciliables: nécessité de résultats scrupuleusement contrôlés et fiables, d’une part, et non-pureté des données de départ, de l’autre? “Par des tests de corrélation, par croisement avec les données internes, dont nous sommes certains à 100% de la fiabilité.”

Ne pas se contenter d’approximation

Pour Dominique Orban, directeur de ReveR (société namuroise spécialisée en migration, exploration, modélisation et structuration de données), si l’imprécision est inévitablement présente dans le big data, dès l’instant où “la finalité de l’analyse concerne des cas concrets, voire spécifiques – ce qui est par définition le cas du business -, les mêmes règles que celles qui ont cours en matière de statistiques s’appliquent.”

Il prend un exemple pour rappeler toute la relativité des moyennes: “statistiquement, un individu qui a la tête dans le frigo et les pieds dans l’eau chaude est en moyenne à bonne température…”

Jean-Charles Delvenne (UCL): “Les grands volumes entraînent de nouveaux inconvénients. Il devient par exemple impossible d’analyser de manière exhaustive. Le traitement devient donc plus sommaire.”

Pour Jean-Charles Delvenne, professeur adjoint à l’UCL et professeur à l’Ecole Polytechnique de Louvain, il ne faut pas non plus se laisser piéger par les sirènes de la prédiction par déduction sur de gros volumes, qui autoriseraient une certaine dose d’approximation.

“Il est vrai que les grands volumes entraînent de nouveaux inconvénients. Il devient par exemple impossible d’analyser de manière exhaustive, de multiplier les passages sur les bases de données. Le traitement devient donc plus sommaire. Certains déclarent que le big data implique peut être la fin des théories, qu’on remplace les algorithmes sommaires par le principe des corrélations [Ndlr: source de déductions à plus ou moins haut taux d’approximation]. Mais sans modèle précis, sans devoir comprendre ce qui se passe par exemple dans la tête des gens. C’est exagéré. Le principe de la corrélation est une chose mais il est toujours utile de concevoir des modèles au cas par cas, sur base d’expériences précises.”

Comment peut-on, selon lui, “nettoyer” malgré tout les gigantesques bases et sources de données du big data? “En comprenant mieux les moyennes. En identifiant les éléments anormaux, les événements spécifiques. Par exemple les comportements différents des consommateurs à la veille de Noël, les soirs de match… Il faut détecter les événements, comprendre leur apparition. Ce qu’il faut encore améliorer, c’est le côté temporel, le phénomène de renouvellement des données qui exige des algorithmes supplémentaires. Car le temps d’analyser certaines données, elles sont déjà périmées…

Pièges et dérives

La myriade d’informations et de sources d’informations que l’on peut puiser à même le Web est déterminante pour les exercices d’analytique évoluée. Mais on s’aperçoit de plus en plus aujourd’hui que le diable se cache aussi dans cette richesse. Et ce phénomène risque encore de s’accentuer à l’avenir.

Certains mécanismes, nés de la main de l’homme (et de son esprit retors), risquent d’échapper à tout contrôle et d’induire des erreurs non négligeables dans les “fouilles numériques”. Ces mécanismes contribuent en effet à… polluer les données voire même à générer des données qui ne sont pas pertinentes, voire totalement fausses.

Une équipe de chercheurs du MIT a ainsi démontré récemment que les “prédictions” d’épidémies de grippe de Google (Google Flu Trends/Suivi de la grippe) perdaient de plus en plus de pertinence.

Le principe utilisé était simple: en analysant la fréquence des mots-clé utilisés pour de la recherche sur les maladies grippales à travers la planète, Google se disait apte à anticiper le déclenchement d’épidémies. Après un gigantesque exercice de calcul, de mise en corrélation et de déduction, effectué sur un référentiel de quelque 50 millions de termes les plus fréquemment utilisés dans des requêtes par les internautes entre 2003 et 2008 (requêtes qui se chiffrent, elles, en milliards), la société a sélectionné 45 mots-clé liés au concept de grippe (mal de tête, nez qui coule…). Principe de déduction retenu: “plus la fréquence des mots-clé est grande sur une zone donnée, plus le virus fait des ravages.”

Mais voilà, les choses changent et la précision n’est pas forcément au rendez-vous. Les chercheurs du MIT ont notamment pointé les technologies qui évoluent, les méthodes de recherche qui évoluent elles aussi, côté utilisateurs, l’insuffisance des paramètres sociologiques dans le modèle de prédiction… Lire l’article publié dans le magazine Science en mars 2014 à propos de ces travaux du MIT).

D’autres, par contre, estiment qu’il n’y pas forcément perte de précision mais éventuellement (il faudrait évidemment le prouver) une impossibilité à vérifier les analyses de Google avec la réalité. Lors de la conférence qu’il donnait à Mons, à l’occasion de la Big Data Week (relire notre article), Kenneth Cukier déclarait par exemple que “les statistiques officielles ne sont pas forcément pertinentes. Comment comparer ce que Google détecte avec les chiffres de consultation des Américains auprès de leurs médecins? Surtout dans une période de crise où les gens, pour des raisons financières, ne vont pas forcément voir leur médecin, parce qu’ils ne sont pas assurés ou ne veulent pas perdre un jour de travail? En finale, nous n’avons aucune certitude. Peut-être que Google est plus précis que les autorités. Just maybe…

Kenneth Cukier: “Les prévisions ne sont que des probabilités, jamais des certitudes.”

Côté technologies, toutefois, il est un élément qui peut largement polluer les données générées par les individus et les réseaux sociaux. Et qui peut donc faire mentir un outil du genre “Flu Trends”. Cet élément, , souligne Renaud Lambiotte, de l’UNamur, c’est le phénomène des ‘bots sociaux’. Ceux-là même qui, moyennant finance, peuvent vous créer quelques centaines d’amis Facebook en moins de temps qu’il ne faut pour cliquer, tous fictifs bien entendu.

Ces petits agents virtuels automatiques se font avatars tout aussi virtuels et génèrent des données, du trafic, des messages, des commentaires sur les forums… Autant de messages, de mots et donc d’attrape-nigauds potentiels pour le moteur de recherche et les algorithmes de Google.

Ces facétieux bots

Les bots sont devenu une véritable plaie. Outre leur impact potentiel (si ce n’est probable) sur certaines analyses et prédictions (grippales ou autres), ces bots “polluent” bien d’autres types de données. Ils sont en effet très recherchés et utilisés par les marques qui en usent et abusent pour se donner une bonne image, influencer les influenceurs et ceux qui se laissent influencer par eux.

Un article publié récemment dans le New York Times citait d’autres catégories d’utilisateurs voraces de bots: les célébrités, les musiciens, les politiciens… Tous ceux qui veulent gonfler artificiellement leur popularité. L’article citait aussi l’usage qu’en font certains gouvernements ou partis politiques, pour créer de faux débats, de fausses rumeurs, dénaturer le message d’opposants, etc.

Des acteurs tels que Google, Facebook ou Twitter doivent faire la chasse à ces ces ‘bots’ et à leurs créateurs, afin de “nettoyer” leurs sites et référentiels mais le feu follet se reproduit de manière endémique.

L’utilisation de ces bots prend parfois des tournures qui donnent froid dans le dos et promettent de nous faire jeter des regards dubitatifs sur les données de l’Internet des Objets. Un exemple cité par ce même article du New York Times: dans le cadre d’un projet  scolaire, deux étudiants de Technion (le pendant israélien du MIT), ont réussi à berner le service de navigation Waze de Google. Ils ont créé des bots évolués qui “se comportaient” comme… des smartphones Android. Soudain, de faux téléphones mobiles ont ainsi poussé comme des champignons, imitant des signaux GPS, comme s’ils étaient de réels téléphones utilisés par des automobilistes. Waze, “croyant” que toutes ces voitures risquaient de bloquer le trafic, a dévié les – vraies – voitures vers de nouveaux itinéraires… Imaginez le chaos potentiel!