Données médicales: il est urgent de se poser les bonnes questions

Hors-cadre
Par · 12/10/2017

Après le regard que jette un porteur de projet e-santé sur l’affaire Quintiles (vente de données médicales à des fins d’exploitation commerciale) , nous poursuivons le débat en donnant cette fois la parole à la Frédéric Pivetta, directeur de la start-up bruxelloise Dalberg Data Insights, coutumière de l’analyse de données à finalités sociétales. Relire le portrait que nous en faisions récemment.

Comment concilier droit à la vie privée et exploitation “vertueuse” de données qui sont utiles, vitales, pour les professionnels des soins de santé mais aussi pour la société?

Dans quelle mesure l’anonymisation des données est-elle une solution utile, suffisante, pertinente dans le domaine des données médicales?

“L’anonymisation peut se faire afin de dériver des conclusions collectives tout en protégeant la vie privée des individus”, explique Frédéric Pivetta. “Il existe plusieurs techniques. Enlever le nom des patients, par exemple, est une technique relativement simple mais qui ne permet pas toujours de protéger correctement les personnes en termes de vie privée.

Frédéric Pivetta (Dalberg Data Insights): “Il serait vraiment temps de lancer des débats sur des sujets-clé plutôt que de s’engouffrer dans des combats d’arrière-garde qui ressemblent davantage à des problèmes du 22ème siècle traités par une approche du 19ème siècle.”

Il est de notoriété publique que si on croise des données anonymisées avec d’autres bases de données publiques, il est possible de réidentifier les personnes. Par exemple, en croisant avec des données Netflix anonymisées, recoupées avec des données publiques d’appréciation des films, et des données d’identification des mouvements individuels sur base de données télécom mobiles etc.

Une technique [d’anonymisation] consiste par exemple à peut introduire du “bruit” statistique [insertion de variations aléatoires] au niveau individuel et à corriger ce “bruit” au niveau collectif. Cela permet de ne pas retrouver des traces individuelles trop précises tout en gardant valables les conclusions collectives sur un ensemble de population.

Par ailleurs, il faut se rendre compte qu’il est parfois nécessaire de conserver des données individuelles par exemple afin de pouvoir mieux cibler l’éradication d’une maladie ou de comprendre l’efficacité d’un traitement. Ceci est d’autant plus important dans le cas de maladies peu fréquentes.

Il est possible d’institutionnaliser une protection de la vie privée des patients en faisant appel à des institutions tierces qui collectent les données ou qui s’assurent de créer des liens avec des base de données protégées.

Deux situations peuvent apparaître. Premier scénario, les données sont centralisées auprès d’une institution qui a la charge de les centraliser, de les protéger et de les analyser. Ceci peut se faire sur un serveur particulier ou dans le cloud.

Deuxième possibilité, les données restent sur les serveurs informatiques d’institutions de soins ou de recherche et des algorithmes sont “envoyés” afin de les traiter dans cet environnement protégé. Seules les conclusions agrégées “sortent” de cet environnement et sont re-mélangées entre elles afin de dériver des conclusions plus pertinentes.”

Un contexte en profonde mutation

Le domaine des données médicales est un cas spécifique en matière de protection des données privées. Et, souligne Frédéric Pivetta, il n’est pas possible de faire abstraction des nouvelles tendances de notre société et des nouveaux comportements de chacun d’entre nous.

Il est évidemment impensable de tout autoriser en partant du constat que les mentalités ont changé et qu’une liberté extrême s’est installée dans nos habitudes quotidiennes. Des règles doivent subsister, en particulier en matière de données santé. A cet égard, le garde-fou se trouve du côté de la loi.

Frédéric Pivetta: “L’idée selon laquelle on croit pouvoir être certain que des données sont “safe” ne tient pas compte de la complexité actuelle de la société. Cependant, des dispositions légales nationales et européennes existent.

Comment peut-on être assuré que nos données bancaires sont “safe”? Comment est-on certain que les transactions par Internet sont “safe”? Il existe 3 assurances possibles:

  • les fraudes seront poursuivies et la loi sur la protection de la vie privée s’appliquera
  • la transparence des processus d’utilisation et de traitement des données, qui imposera à chaque institution de se conformer à un certain nombre de processus dans le cadre de la directive européenne GDPR (par exemple, désigner un responsable des données)
  • les organisations ont des réputations à défendre et seront sélectionnées à long terme sur cette base.

Dans le cas des hôpitaux, il existe des règles de protection de la vie privée que toute institution est obligée de suivre. Si un hôpital ne s’y conforme pas, il sera poursuivi et, à terme, des patients pourraient se retourner contre eux et être indemnisés. Mais, à plus long terme, leur réputation serait telle que les patients choisiraient d’autres institutions de soins.

Les règles formelles (telles que le GDPR) ont été pensées en amont afin de résoudre des problèmes à court terme et de protéger les personnes les plus fragiles. Par exemple, les malades ne vont pas se renseigner individuellement des règles de protection de la vie privée d’un hôpital lorsqu’ils sont, gisants, sur le bord de la route suite à un accident de voiture…

Ajoutons encore à cela que le patient doit donner son assentiment avant que les données puissent être partagées, anonymisées ou non.”

Quatre débats

Aux yeux de Frédéric Pivetta, il serait utile de lancer quatre débats:

  • sur la valeur des données et le coût d’opportunité qu’il y a à surprotéger la vie privée
  • sur la manière d’échanger ses données
  • sur la notion de vie privée
  • et sur l’intelligence artificielle.

“Pour ce qui est de la valeur des données, on peut par exemple vouloir anonymiser des données alors que les croiser avec d’autres données ou les conserver à un niveau individuel permettrait d’éradiquer des maladies.

Au-delà du débat sur la valeur des données, il est nécessaire de faire évoluer la notion de vie privée vers quelque chose de plus compatible avec une société démocratique stable, avec l’indispensable besoin qu’il y a à contribuer au bien commun et avec l’approche numérique des réseaux sociaux.

Les hôpitaux peuvent en effet monétiser des données mais cela ne représentera un revenu significatif que si ces données ont un impact massif ou si elles sont croisées avec d’autres sources de données. Il est peu fréquent que des données en elles-mêmes aient une valeur significative. Elles sont davantage valorisées lorsqu’on les mélange avec d’autres sources de données. Par exemple, les données de mobilité ne sont intéressantes que mélangées avec des données de transport public. De même, des données relatives à la santé ne sont intéressantes que lorsqu’elles sont mélangées avec d’autres sources de données, telles par exemple des habitudes alimentaires ou des données d’assurance.”

Frédéric Pivetta (Dalberg Data Insights): “Au-delà du débat sur la valeur des données, il est nécessaire de faire évoluer la notion de vie privée vers quelque chose de plus compatible avec une société démocratique stable.”

Débat suivant à mener: quels modes d’échanges? et qui “capture” la valeur des données?

“Nous en sommes aujourd’hui à un stade où la valeur des données est encore difficilement évaluable. L’évolution du débat ira clairement dans plusieurs directions. Par exemple, faire ou non des données individuelles ou collectives anonymisées un bien commun, ou permettre aux individus de choisir eux-mêmes de monétiser leurs données plutôt que de laisser ce monopole à des entreprises comme Facebook, Google ou Amazon.

Par exemple, un système basé sur la technologie blockchain permet de transférer de manière protégée des données individuelles. Chacun monétiserait ses données de manière différente. Chacun vendrait à Coca-Cola ses données de mobilité sur base de ses appels téléphoniques, sur base d’une valeur de marché établie par Coca-Cola et la valeur qu’il peut en retirer.

Aujourd’hui, Nielsen réalise des études de marché sur base d’échantillons de population que la société conserve dans ses systèmes informatiques. Demain, il serait possible pour tout un chacun de partager ses propres données au travers d’applications d’échange, de monétisation ou d’accès à ses données.

Dans le cas des hôpitaux, on pourrait imaginer que les patients puissent choisir de partager ou non leurs données individuelles et d’en capturer une certaine valeur économique, au-delà des besoins de recherche fondamentale.”

La machine qui s’emballe…

Troisième débat: la notion-même de vie privée. “La notion de vie privée est une idée qui vient de l’Antiquité grecque lorsque l’idée de famille et de vie privée étaient séparées du débat public et de l’implication dans la cité. On a pu constater une évolution progressive de cette notion au cours de l’histoire qui a même abouti à l’idée que la religion est une affaire privée.

Aujourd’hui, les technologies digitales facilement accessibles influent massivement sur les choix et le débat démocratique mais permettent aussi de générer une quantité inimaginable de données. La notion de protection d’une vie privée est aisée dans une société qui ne génère que peu de données individuelles, comme c’était le cas au cours des siècles précédents.”

Les grands problèmes de la planète, eux aussi, attendent que des solutions soient trouvées au problème de la protection des données…

“Aujourd’hui, nous générons de plus en plus de données qui ne peuvent plus être protégées aussi facilement, simplement en raison de leur volume mais aussi du fait que ces données permettraient de résoudre de nombreux problèmes sociétaux, que ce soit en termes de santé publique, de mobilité, de choix politiques etc.

Ceci est d’autant plus vrai que différentes générations auront une approche différente de cette notion. Lorsque l’on considère l’énorme volume de données, leurs valeurs sociétales et l’évolution générationnelle à la lumière de la notion de vie privée, il devient évident qu’il faut arrêter de mettre des barrières et qu’il faut remplacer cette approche par une analyse et une réelle compréhension de la manière dont on peut canaliser tout cela.

“Canaliser” signifie qu’il faudra encore et toujours prévoir des contrepoids afin de protéger les gens contre les stigmas sociaux, les pouvoirs non-démocratiques ou violents ou encore les abus de faiblesse.

Bien entendu, il est plus facile de mettre en avant des principes simplistes plutôt que d’essayer de “protéger”, sans pour autant détruire la valeur sociale des données, voire même, en permettant aux individus de faire des choix clairs pour eux-mêmes.”

Qu’entend précisément Frédéric Pivetta par “mesures simples”? Des mesures décidées souvent en mode réactif, en s’orientant vers ce qui semble le plus immédiat, des “no-brainers” comme diraient les Anglo-Saxons. “L’avantage des mesures simples, c’est qu’elles sont directement applicables. Le problème est alors qu’elles ne sont pas toujours optimales. Il est clair, par exemple, que le fait d’améliorer l’éducation numérique ou la capacité de comprendre et d’utiliser ses données personnelles sont des mesures plus complexes et à plus long terme. Mais elles sont aussi porteuses de plus de valeur économique et sociale…”

Quatrième débat – et non des moindres dans le contexte actuel et celui qui nous attend: celui à mener à propos de l’intelligence artificielle. “Ce débat”, estime Frédéric Pivetta, “est lié au premier, à savoir celui de la valeur des données.

L’intelligence artificielle a besoin d’un large volume de données afin de permettre à des algorithmes “d’apprendre” et de pouvoir aider ou améliorer les processus humains. Par exemple, des approches comme Watson d’IBM ont permis, dans certains domaines de la recherche contre le cancer, de faire davantage de découvertes en 30 mois qu’en 30 ans.”

Frédéric Pivetta (Dalberg Data Insights): “il est peu probable que l’évolution vers l’intelligence artificielle soit remise en question. Même si nous ne sommes pas prêts, en tant que société humaine, à en comprendre et à en maîtriser les conséquences, nous ne pourrons cependant pas remettre son existence en question. C’est un peu ça la difficulté de la situation…”

“Cette technologie est une avancée qui nécessite des débats techniques et éthiques complexes. Sans quoi, il en ira de la survie de la race humaine telle que nous la connaissons aujourd’hui. Cependant, il est peu probable que l’évolution vers l’intelligence artificielle soit remise en question.

Les bénéfices à court terme de l’intelligence artificielle, sur des éléments positifs pour l’être humain, nécessitent de pouvoir accéder à de larges quantités de données. L’intelligence humaine et la notion de conscience sont encore essentielles dans ces approches. Par exemple, les algorithmes sont relativement peu performants lorsqu’il s’agit d’analyser des situations peu fréquentes. C’est une des raisons pour lesquelles il est difficile d’automatiser l’évaluation des “fake news”. De larges volumes de données permettent d’éviter cela. Cela mène parfois à ne pas vouloir anonymiser les données ou à vouloir mettre en commun de nombreuses sources de données.”