Kenneth Cukier: attention, données vivantes!

Hors-cadre
Par · 13/05/2014

Dans le cadre de la Big Data Week, le Mundaneum de Mons avait organisé, jeudi dernier, une conférence sur le thème de la “révolution des données”. Orateur invité: Kenneth Cukier, journaliste et “data editor” du magazine The Economist, et co-auteur, avec Viktor Mayer-Schönberger, professeur à l’université d’Oxford, du livre « Big Data: la révolution des données est en marche”.

Son exposé tendait à conscientiser l’assistance aux potentiels, aux changements de paradigme et aux écueils, voire risques, qu’induit le “big data”. Un exposé bien rodé où l’on retrouvait les ingrédients des conférences et articles qu’il produit depuis la sortie du livre (1). Son exposé n’en demeurait pas moins intéressant puisqu’il a le mérite de démontrer combien la matière est complexe et quasiment insondable.

La valeur des données

L’un des fils rouges de l’exposé était la démonstration de la valeur latente, souvent méconnue, des données que possède une organisation, quel que soit son domaine d’activité. Kenneth Cukier citait l’exemple d’une jeune start-up américaine (qui allait être rachetée par la suite par Microsoft). En collectant, en passant à la moulinette d’algorithmes spéciaux et en analysant la masse de données que représentent les réservations de places d’avion sur les vols commerciaux américains (enregistrement du coût du billet pour chaque siège en particulier selon sa position dans l’avion, l’époque de son achat, la distance qui sépare l’achat du voyage proprement dit etc.), la start-up était parvenue à prédire le coût que chaque voyageur risquait de devoir payer pour ledit billet.

Quand on connaît l’apparent manque total de logique qui dicte les tarifs aériens, leur versatilité, l’effet est loin d’être négligeable pour les portefeuilles des passagers. Le fait est aussi que cet exercice d’analyse de ‘big data’ a totalement pris de court les compagnies aériennes elles-mêmes et les sociétés de réservation.

Kenneth Cukier: “Les données recèlent une valeur latente qui ne demande qu’à être mise au jour.”

Autre exemple: WallMart qui, via l’analyse de big data, a redimensionné son utilisation de la “business intelligence”. En passant au crible toutes les données de ventes de produits et en les corrélant aux… données météorologiques correspondant aux périodes d’achat, la chaîne a par exemple pu déterminer quels produits étaient particulièrement recherchés par les Américains en cas d’alerte tempête.

La chose n’est guère nouvelle. Quiconque s’intéresse à la business intelligence a sûrement déjà entendu cette petite histoire des couches-culotte et de la bière (des produits que les papas chargés de faire les courses placent quasi automatiquement dans le caddy). Voilà pourquoi, dans certaines grandes surfaces, on retrouve désormais ces deux produits côte à côte. Idem dans l’exemple de la tempête: le jour J, snacks au chocolat côtoient désormais les lampes torche. Histoire de doper les ventes.

Conclusion de Kenneth Cukier: “les données recèlent une valeur latente qui ne demande qu’à être mise au jour pour créer de nouvelles valeurs et de nouveaux services.”

La “valeur” d’une donnée n’est pas forcément toujours économique et financière. L’une des questions – sans réponse – que Kenneth Cukier donnait en pâture à l’assistance était celle de la valeur des données sur les préférences et profils de vote des électeurs américains.

Républicains comme Démocrates ont amassé au cours des deux dernières campagnes électorales présidentielles un trésor de données hyper-précises: propension d’un électeur à voter ou non, à se laisser influencer sur tel ou tel thème, à changer de camp, etc. etc. le tout “profilé” en fonction de critères socio-démographiques, d’âge, de condition sociale, de couleur de peau, de conviction religieuse, re-etc.etc. L’avantage toutefois est clairement dans le camp d’Obama. D’où cette question de Kenneth Cukier. Que va-t-il en faire, lui qui ne peut plus se représenter? Passera-t-il ce trésor à Joe Biden, à Hillary Clinton, à quelqu’un d’autre? Et qu’est-ce que cela implique pour le libre jeu de la démocratie ou tout au moins pour les chances qu’aura encore tout autre candidat de concurrencer valablement l’heureux héritier de ces données?

La question, telle que posée, est un peu “courte”. Bien d’autres paramètres entreront en jeu et on ne peut présumer du sort réservé à ces données. Mais cela soulève en effet – d’une manière générale – bien des questions sur les usages que l’on peut faire des données, pour influer sur le court d’une chose et, plus encore, influencer bien des “comportements” et décisions.

L’instinct de la machine

Quoi qu’on en pense – ou qu’on en espère -, la “machine”, aussi puissants que soient ses processeurs et/ou les algorithmes qu’on lui injecte, n’est pas intelligente. On ne peut pas lui “apprendre” à faire une chose spécifique.

Elle triture les immenses volumes de données, les trie et en “déduit des probabilités” grâce au simple effet de volume. Ce ne sont pas des conclusions, au sens strict du terme, ou des choses sûres et certaines.

L’intelligence artificielle et l’apprentissage automatique (“machine learning”) ont buté dans un mur, pendant des décennies, parce qu’ils n’avaient que des jeux de données restreints à se mettre sous la dent. Le ‘big data’, affirme Kenneth Cukier, lève l’obstacle. Tout comme il efface dans une large mesure l’écueil de l’obligation d’une qualité impeccable des données. Une prise de position qui est loin de faire l’unanimité parmi les observateurs et spécialistes du ‘big data’ (nous aurons l’occasion d’y revenir).

Kenneth Cukier: à défaut de pouvoir pointer la lien de cause à effet, on peut se contenter d’agir sur les corrélations d’événements nés du traitement de grands volumes de données

La position de Kenneth Chukier est en tout cas de dire que le phénomène de “messy data”, qui avait un gros impact sur la pertinence des résultats sur des jeux restreints (le moindre écart, une fois extrapolé lors de l’exercice de généralisation, avait un effet massif) disparaît dès l’instant où cet écart, ces imperfections, sont noyés dans la masse de données qu’on peut désormais traiter. “It is still pssible to learn something with a certain degree of data messiness.”

La machine, alimentée en ‘big data’, peut donc déduire des probabilités, notamment en établissant des corrélations entre des éléments significatifs éparpillés dans la masse et qu’un oeil humain ne saurait détecter, notamment par manque de temps et de vision globale.

Mais qui dit corrélation ne veut pas forcément dire identification de la causalité entre deux éléments. Autrement dit, on sait qu’en telle ou telle circonstance, telle chose se produit parce que tel et tel élément sont en présence. Mais de là à déduire – pardon, à déterminer – pourquoi, il y a là un pas qui n’est pas forcément toujours franchi.

Un exemple cité par Kenneth Cukier est le problème d’infections qui provoquent la mort de prématurés. L’analyse de données massives (collecte de 1.000 données par seconde concernant les signes vitaux d’un très grand nombre de cas) a permis de dégager des tendances, des schémas récurrents, permettant de débusquer les signes d’infections avant qu’elles ne se déclarent. Chose étonnante, la période critique se déclenche toujours de manière inattendue, après une période de stabilisation – qui induit souvent le médecin en erreur. L’analyse massive a permis d’identifier les signes précoces… sans pour autant parvenir à déterminer la logique qui fait se dérouler le scénario. “On ne sait pas pourquoi mais on sait que cela se produit. Il faut donc renoncer à identifier les causes et se contenter de corrélations. Le plus importa,t après tout, est de détecter l’événement et la corrélation et d’agir en conséquence.”

Big risks?

Loin d’en faire le tour, Kenneth Cukier a également abordé la question des risques que pose ou risque de poser le big data. Il citait ceux qu’il considère comme les plus évidents ou probables.

Risque pour la vie privée. Le décuplement des volumes traités décuplera-t-il les risques?

Risque des algorithmes “boîte noire” sur lesquels la majorité des gens n’auraient aucune prise et qui pourraient cacher des mécanismes loin d’être loyaux.

Risque de détournement de propriété. Qui sera “propriétaire” des données, “l’individu qu’elles concernent ou qu’il produit ou celui qui les collecte?”

Risque qu’implique le concept de “propension”. S’il devient si aisé – et avec une telle précision – de prédire les événements, les comportements, les actions futures, qu’en devient-il de l’interprétation des intentions? Imaginez un monde où la machine pourrait prédire à coup sûr la “propension” qu’a une personne de commettre un délit, voire un crime. “Cas de conscience”, déclarait Kenneth Cukier. “Si l’on agit [pour l’empêcher], on prive l’individu de son libre arbitre. Si l’on agit pas, on abdique le principe de précaution et l’on s’expose à des reproches ou poursuites…”


 

(1) Relire par exemple cet article publié dans le Monde diplomatique, en juillet 2013, où l’on retrouve nombre des exemples cités jeudi à Mons. [Retour au texte]