Plate-forme destinée à mettre au service du plus grand nombre les données de santé pour faire avancer la recherche dans le respect de l’éthique, le Health Data Hub a choisi Azure de Microsoft pour son support se plaçant de fait sous la régulation états-unienne dont le Cloud Act. Trois points sont préoccupants :

  • Confidentialité : si un hébergement européen voire français nous libère du Cloud Act, ce dernier nous rappelle implicitement que l’hébergeur quel qu’il soit accède à nos données. Le seul moyen de ne pas faire de concession sur l’indiscrétion serait l’abandon de l’externalisation.
  • Pertinence du « data lake » pour la recherche : si le format lac de données est un outil de choix pour la connaissance du client dans une démarche commerciale il présente des faiblesses dans la recherche. La profusion de données accentue la vulnérabilité aux biais et paradoxes statistiques ainsi qu’aux corrélations fallacieuses. Une parade est de dédier un jeu de données spécifiques à une étude particulière.
  • Le point le plus alarmant concerne l’utilisation des données. L’esprit du Health Data Hub est d’ouvrir largement les données à tout projet mais trop de souplesse dans les modalités d’accès est une aubaine pour les « Data Brokers » dans la collecte et la revente de nos données. Le danger, inhérent à la définition du Health Data Hub, persistera même en basculant vers un hébergeur européen voire français.

Confidentialité

La focalisation des craintes pointe le Cloud Act.

Le Cloud Act légalise l’utilisation de toute information détenue sur un serveur US dans le cadre de procédures judiciaires quelque soient leur localisation.

Il y a là deux volets distincts : d’une part la possibilité d’utilisation des données et d’autre part la récupération de ces données par l’hébergeur.

Le premier aspect, l’extraterritorialité est une particularité des États-Unis. Le Conseil d’État considère que les données pseudonymisées sont peu susceptibles de faire l’objet de demande. Sauf que la pseudonymisation ne vise qu’à « réduire » et non pas éliminer le risque d’identification comme le rappelle le Conseil d’État et que plusieurs milliers de paramètres associés à chaque écriture fragilisent sensiblement le dit anonymat.

Le deuxième aspect est la possibilité qu’a l’hébergeur d’accéder aux données, voire de les échapper par inadvertance. Microsoft a ainsi laissé échapper 250 millions d’enregistrements début 2020 suite à une erreur grossière. Sur ce volet, le danger existe que ce soit Microsoft Azure ou tout autre hébergeur, qu’il soit européen ou français.

Pertinence du « data lake » pour la recherche

L’abondance de données est un rêve pour les traitements statistiques. Extraire une tendance semble plus facile et intuitivement on attend des résultats toujours plus précis. Le traitement de données met sur la piste d’effets de bord ; c’est en croisant plusieurs bases de données de l’Assurance Maladie qu’Irène Frachon a détecté une possibilité de lien avec le Médiator. Les statistiques sont riches en enseignement.
Peut-on pour autant les utiliser sans précaution ?

Biais de confusion

Lorsque l’on pioche des données a posteriori les biais de confusion sont des pièges. Quand les corrélations indiquent que le redoublement n’a aucun effet sur les résultats au bac, la tentation est forte alors de supprimer le redoublement, sauf qu’on se concentre sur les élèves les plus faibles chez qui redoublements et échecs au bac sont plus fréquents. La méthode correcte consiste à choisir une classe de sixième, au hasard, d’en faire redoubler la moitié, au hasard et d’observer les résultats au bac. L’épidémiologie utilise ainsi cette double mesure pour lever les biais de confusion. Tomber dans un biais est commun quand on pioche a posteriori dans un « data lake », constituer une base a priori pour une étude peut nous en préserver.

Paradoxes

Les statistiques font face à des paradoxes aussi contre-intuitifs que largement connus. À partir d’un même jeu de données Edward Simpson est capable de mettre en avant une tendance ou son opposé en pratiquant l’analyse sur le groupe ou la somme de parties du groupe. D’autres paradoxes comme celui de Will Rogers mettent également à mal notre sens commun. D’une manière générale, un expert maîtrisant les données utilisées pourra identifier le traitement statistique idoine, mais beaucoup moins un chercheur confronté au data lake. Travailler à partir de données dédiées serait encore la solution.

Utilisation des données

Ce point est peut-être plus critique que les craintes sur le Cloud Act.
Les données sont accessibles à toute organisation qui ferait une demande d’étude. L’analyse des demandes est à la charge du Comité Éthique et Scientifique pour les Recherches, les Études et les Évaluations (CESREES), mais n’est pas réalisée de manière systématique. Les demandes seront acceptées par défaut après un mois.
Les réserves prononcées par la CNIL sur ce point n’ont pas été prises en compte. Les modifications « covidiennes » apportées ces dernières semaines allègent encore les procédures.
Le danger est qu’une société (banque, assurance …) sous couvert d’étude puisse accéder à la banque de données médicales centralisées à des fins purement commerciales, la pseudonymisation semblant alors un rempart bien léger.

En bref …

Le Health Data Hub pose problème sur la forme avec le choix d’une plateforme soumise à la règlementation d’un pays tiers.

L’anomalie de fond est le quasi-libre accès offert à toute société, une éventuelle nature commerciale n’étant pas un obstacle. Elle est indépendante du porteur de la plate-forme.

L’exploitation statistique est une application adaptée et certes fondamentale en épidémiologie par exemple mais constitue également un outil privilégié pour les activités commerciales.

Le risque est que l’État finance sur nos fonds la constitution d’un recueil de nos données personnelles qui soit par la suite exploitée à des fins commerciales.

Jacques Baudron  –  Secrétaire Forum ATENA  –  jacques.baudron@ixtel.fr  –  juin 2020

________

Pour en savoir plus :

Sources cabinets avocats :

Sources CNIL

Sources légales :