Intelligence artificielle et respect du RGPD: des tensions à tous les étages

Hors-cadre
Par · 16/11/2020

L’atelier LegIA, organisé par la société Anthemis ce 10 novembre 2020, fut l’occasion de passer en revue une longue liste de dispositions et protections du RGPD (Règlement général sur la Protection des Données) qui entrent potentiellement – parfois clairement – en conflit ou en “friction” avec les principes-même des traitements et décisionnel automatisés qu’implique ou vise l’Intelligence Artificielle.

Les trois intervenants de cet atelier – Philippe Laurent et Claude Englebert, avocats au barreau de Bruxelles, et Andy Petrella, fondateur et patron de la société Kensu, auteur d’une solution de gestion de gouvernance et de conformité des données – ont présenté et débattu des caractéristiques et implications de l’exploitation de données à caractère personnel voire sensible par les algorithmes et processus analytiques automatisés. Implications qui touchent tout à la fois au juridique et à l’éthique.

Des tensions à tous les étages

En raison des caractéristiques intrinsèques de l’intelligence artificielle et du fonctionnement des algorithmes, les dispositions du RGPD semblent être en claire contradiction par rapport à ce qui est permis ou non.

Quelques exemples? Le droit de rectification, la formulation préalable d’un consentement “libre, spécifique, éclairé et univoque”, la possibilité de retirer le consentement donné à un traitement, la proportionnalité des données (opposition entre big data et minimisation des données en respect de la vie privée), la durée de conservation (durée liée à la finalité, côté vie privée ; durée indéterminée pour usages ultérieurs, côté IA), le droit à l’effacement des données personnelles…

Anonymisation et réidentification

Le règlement RGPD propose (impose) toute une série de protections par rapport à l’utilisation qui est faite des données personnelles, autrement dit de toute “information concernant une personne qui permet de l’identifier directement ou indirectement”. L’Intelligence Artificielle ne peut donc pas utiliser comme bon lui semble des données susceptibles de révéler l’identité et de porter atteinte à la vie privée d’une personne.

Pour autoriser les algorithmes à traiter ce genre de données, il faut donc les “désolidariser” des personnes auxquelles elles se rapportent en les anonymisant. Problème souligné par les intervenants de l’atelier LegIA: les progrès de la technologie permettent de plus en plus de… désanonymiser les données. Notamment par des techniques IA !

Le croisement de données et de bases de données, le croisement avec des informations livrées en pâture aux réseaux sociaux par exemple, permettent de réidentifier une personne. Les travaux effectués notamment à l’UCLouvain et par Yves-Alexandre de Montjoye l’ont déjà pleinement démontré. A (re)lire notamment, notre article “OpenPDS/SafeAnswers: une solution contre les “oreilles et yeux” indiscrets” ou cet article de l’UCLouvain.

“Il est devenu quasi impossible de rendre une donnée vraiment anonyme”, soulignait Andy Petrella. “Il est en effet possible d’“interroger” la donnée de multiples façons. Quelques données connues suffisent pour réidentifier [une personne]. Même face à de grandes quantités de données.”

Il prenait l’exemple de Netflix. Il suffit tout compte fait de savoir quelle personne aime et consomme tel ou el type de film et regarde de préférence à tel ou tel moment, pour recouper efficacement l’information. D’où sa mise en garde: “le problème ne se définit pas tellement en termes de quantité de données que de quantité de questions”.

Un autre cas particulier est celui des données médicales. Comment les anonymiser pour autoriser leur traitement par des mécanismes automatisés, quand on sait que l’identité des patients est clairement exprimée dans les métadonnées des documents médicaux (par exemple, des images de scanner ou de radios) puisque ces documents comportent une date, l’identité du médecin, la raison de l’examen…

Identification de ce qui n’était pas identifié

L’exploitation des données a fait de tels progrès, dus à la fois à la puissance des “bécanes” et des outils analytiques et à la quantité et variété des données collectées ou générées, que des données qui, en soi, n’ont rien de personnel ou de sensible peuvent soudain le devenir.

Quid, s’interrogeaient les intervenants de l’atelier LegIA, si l’intelligence artificielle permet de déterminer la race d’une personne, ou tout autre type de caractéristique “sensible” la concernant? Le problème, ici, soulignait les deux avocats, ne tient pas au caractère sensible de la donnée mais bien au caractère sensible du traitement qui en est fait et de la nature sensible de la finalité du traitement.

Autre exemple, cité par Philippe Laurent: la capacité d’extraire ou de déduire de données a priori anodines des informations sur l’état de santé ou les prédispositions d’une personne à développer une maladie. Par exemple, via l’analyse de ses intonations vocales, de la vitesse avec laquelle ses doigts pianotent sur un clavier ou à l’écran d’un mobile, de la fluidité relative avec laquelle elle utilise une souris…? “Il faut à tout le moins se poser la question ou lancer la réflexion…”.

 

Philippe Laurent (MVVP): Face aux facultés de déductions (parfois ésotériques) de l’IA, “il est essentiel d’être très clair sur les finalités du traitement et de l’utilisation qui est faite de l’outil”.

 

Sans contester cet avis, Andy Petrella tenait pour sa part à souligner que ce genre d’interrogation est une preuve supplémentaire de “l’inventivité de l’homme” – plutôt que de la machine. Autrement dit, les usages potentiels, parfois tarabiscotés en apparence, auxquels l’être humain peut penser – qu’il soit bien intentionné ou malveillant – sont insondables. “C’est ce qu’on appelle “pourrir la donnée” pour en tirer des conclusions qui n’ont parfois plus de sens”. Ou des conclusions qui seront exploitées pour certaines finalités plus ou moins inattendues, voire douteuses…

Andy Petrella poursuivait son propos en soulignant que l’usage qui peut être fait d’une analyse (par exemple, prédire ou déduire un état de santé du son de la voix ou de la dextérité au clavier) n’est pas forcément une science exacte ! “Attention. Certaines choses peuvent avoir l’air vraies mais les conclusions [que tire l’IA] sont-elles réellement représentatives et pertinentes par rapport à la population? Après tout, on sait, pour reprendre cet exemple, qu’une voix varie dans le temps…” Pour toute une série de raisons qui n’ont rien à voir avec un risque génétique…

Déduction et réfutation

Il est certains cas où l’IA se mêle de faire des prédictions qui peuvent avoir des conséquences non négligeables pour la qualité de vie ou encore pour les perspectives de carrière d’une personne. Quid si les “déductions” algorithmiques sont biaisées ou carrément fausses? Le GDPR prévoit que, face au traitement de ses données personnelles, tout individu a le droit à la rectification des données récoltées et gérées à son sujet. En ce compris, lorsque les informations en question sont le résultat de “déductions invérifiables ou probabilistes”.

Exemple cité lors de l’atelier LegIA: la prédiction de probabilité de maladie. Chose qui a une connotation toute particulière dans le cadre d’une demande d’assurance. Le Groupe de travail Article 29 [qui a planché sur les implications du GDPR] souligne qu’une rectification “peut être nécessaire lorsque la déduction [inférence statistique] est erronée et lorsque la personne concernée fournit des données supplémentaires spécifiques qui appuient une conclusion statistique différente…”

Aux termes de la législation sur le protection des données personnelles, une inférence n’est acceptable que si elle remplit trois conditions: acceptabilité (les données sur lesquelles on se base doivent être considérées comme acceptables, valides) ; pertinence (par exemple, pas d’utilisation de l’ethnicité pour l’octroi d’un prêt) ; fiabilité (exigence de précision et de fiabilité des données d’entraînement de l’intelligence artificielle et des méthodes de traitement).

Consentement et compréhension

Aux termes du RGPD, comme c’était d’ailleurs déjà le cas avec la précédente loi de protection de la vie privée, toute personne dont les données personnelles vont être utilisées doit, au préalable, donner son consentement à la personne ou à l’organisation qui veut en faire usage. Un consentement qui doit être “libre, spécifique, éclairé et univoque”.

Là où le bât risque fort de blesser tout particulièrement avec l’IA, c’est le mot “éclairé”. En effet, ce qui est en jeu, c’est le type de traitement, sa finalité. C’est sur base de cette finalité, obligatoirement explicitée par l’auteur du traitement, que la personne donne ou non son consentement au traitement. 

Mais comment savoir quel traitement sera fait des données par l’IA et dans quel but? Déjà en temps “normal”, indique Claude Englebert, “la personne n’a pas les compétences pour comprendre les finalités et les conséquences, ou n’a pas le temps ou l’énergie pour prendre connaissance de la totalité des politiques de confidentialité” qu’on lui demande d’accepter au fil de ses pérégrinations sur Internet… “Et la chose devient de plus en plus compliquée quand on est dans le domaine de l’IA. L’élément crucial en la matière est l’utilisation future qui sera faite des données.” Utilisation souvent impossible à déterminer. Surtout si l’IA devient de plus en plus autonome…

 

Andy Petrella (Kensu): “Une transparence est nécessaire sur la totalité de la supply chain. Il faut pouvoir retracer les flux de données dans des schémas et des structures complexes.”

 

A cet égard, Philippe Laurent souligne qu’il est plus qu’utile de faire une distinction entre le concept de transparence de l’IA et celui de son “explicabilité”.“En termes de loyauté [véracité] de l’information, il est certes possible de donner la possibilité d’accéder aux données qui sont utilisées dans le jeu de données pour l’entraînement d’un algorithme, et ce pour y détecter les éventuels défauts, mais Monsieur Tout-le-Monde ne sera pas plus “éclairé” en y accédant…”

Andy Petrella est venu greffer une autre dimension à cette question de “compréhension” des boîtes noires que sont souvent les algos et les traitements automatisés.

“Même les data scientistes et les ingénieurs des données qui opèrent au sein des entreprises ont envie d’avoir accès aux données afin de pouvoir retracer leurs parcours. Souvent, en effet, les données sur lesquelles ils sont appelés à travailler sont le résultat de traitements antérieurs dont ils ne savent rien. Ils n’ont aucune idée de ce qu’était la donnée de départ. Une transparence est donc nécessaire sur la totalité de la supply chain. Il faut pouvoir retracer les flux de données dans des schémas et des structures complexes.”

La transparence devient ainsi de plus en plus multiple: sur les données, sur les modèles, sur les algorithmes, sur la structure et les maillons de la chaîne de traitement, sur les différents acteurs qui constituent cette chaîne…

 

“Peut-on laisser faire un algorithme, quand on ne sait pas ce qu’il utilise et à quoi correspond la réponse qu’il donne?”

 

Qui a le plus d’imagination?

Qui de l’homo sapiens ou de la “machine”, de l’algorithme auto-apprenant libéré de tout contrôle humain, a potentiellement le plus d’imagination? La question n’est pas aussi vaine ou loufoque que certains pourraient le penser.

Chaque jour, ou presque, on découvre de nouvelles applications de l’intelligence artificielle. Les “progrès” de la technologie bousculent normes et habitudes, “repoussent les frontières”. Avec le risque que l’on soit dépassé par ces progrès. Baliser ou cadenasser, juridiquement, légalement ou éthiquement, tous les scénarios est à la fois impossible et souvent contre-productif. Mais un minimum de réflexion apparaît comme nécessaire, à maints égards, pour notre société, notre vivre-ensemble, pour l’avenir de ce qui a fait jusqu’ici l’humanité.

Le champ de réflexion est large, complexe, protéiforme. Et les observateurs, aussi pointus et compétents soient-ils, en sont encore parfois, voire souvent, réduits à énumérer les risques, embûches potentielles et autres impacts éventuels, ou encore à théoriser ce que l’IA pourrait “imaginer” en termes de transgression de conventions et de normes. Comme le disait Philippe Laurent, “définir les règles de l’Intelligence Artificielle [lisez: le périmètre dans lequel elle sera autorisée, légalement et éthiquement, à opérer] prendra encore de nombreuses années. Nous n’en sommes encore qu’au début de la réflexion…”

Pour Andy Petrella, il est nécessaire de prévoir des freins, des précautions, des cadres pour l’utilisation de l’IA: “la plupart des data scientists et data engineers n’ont qu’une infime connaissance des différents principes que contient le RGPD, qui font pourtant sens.

Il faut en arriver à un stade où on ait le “respect” de la donnée, tout comme on montre du respect pour sa maison, pour son portefeuille, parce qu’il contient notamment nos pièces d’identité et cartes de crédit. Ce respect de la donnée, cette approche, n’existent pas encore. Il faut éduquer les gens. Il faut passer de la gouvernance de la donnée, telle qu’on la conçoit aujourd’hui, à la gouvernance de l’utilisation des données…”