Dispositifs techniques d’anonymisation et pseudonymisation des données de santé.

Dispositifs techniques d’anonymisation et pseudonymisation des données de santé
(c) www.pixabay.com

L’explosion du numérique et de l’ouverture des données a contribué à mettre en place plusieurs réglementations et obligations quant à la gestion des données sensibles et/ou à caractère personnel. Les données de santé sont particulièrement impactées, car bien qu’indispensables, la collecte et le stockage de ces données demandent une gestion toute particulière. Pour protéger ces données dites « sensibles », deux solutions : la pseudonymisation, ou plus sûr encore : l’anonymisation de celles-ci.

Tour d’horizon des dispositifs permettant la mise en place de ces solutions.

La particularité des données de santé

Les données de santé (DDS) sont toutes les données médicales et/ou qui portent de manière générale sur la santé. Ces données peuvent concerner la santé d’un individu en particulier, d’un groupe de personnes, voire même d’une population dans son ensemble. Ces données peuvent être utilisées à plusieurs fins (suivi et évaluation des systèmes et politiques de santé, budgets prévisionnels, projections, statistiques, etc.)

Les données sensibles que représentent les données personnelles de santé sont protégées par le Règlement Général sur la Protection des Données (RGPD). La Commission nationale de l’informatique et des libertés (CNIL) quant à elle définit les données personnelles de la santé de la façon suivante : « Les données à caractère personnel concernant la santé sont les données relatives à la santé physique ou mentale, passée, présente ou future, d’une personne physique (y compris la prestation de services de soins de santé) qui révèlent des informations sur l’état de santé de cette personne. »(CNIL). On comprend ainsi que du fait de leur caractère particulièrement personnel et intime, ces données, si elles sont partagées ou stockées, doivent l’être dans un cadre très réglementé.

Effectivement la particularité des données de santé est qu’elle recouvre à la fois des données personnelles et des données sensibles.

« Dans le domaine des données de santé, on est souvent confronté au problème de devoir faire un choix entre la sécurité et le partage. Soit on sécurise les données, au détriment de leur qualité, ce qui les rend moins efficientes. Soit elles restent telles quelles mais on compromet leur confidentialité » explique Olivier Breillacq, dirigeant de WeData (Mathoux, 2020).

Car en effet, dans un monde tourné de plus en plus vers la science ouverte et l’Open Data, les données de santé ne restent plus forcément stockées par l’organisme qui les a récoltées. À des fins utiles (pour la société, les citoyens, les organisations), elles peuvent se retrouver diffusées et partagées bien au-delà, quelquefois même à l’international.

La pseudonymisation

La première des solutions afin de ne plus lier visiblement l’individu à ses données personnelles est le processus de pseudonymisation.

L’article 4 du RGPD définit la pseudonymisation ainsi : « […] on entend par pseudonymisation : le traitement de données à caractère personnel de telle façon que celles-ci ne puissent plus être attribuées à une personne concernée précise sans avoir recours à des informations supplémentaires, pour autant que ces informations supplémentaires soient conservées séparément et soumises à des mesures techniques et organisationnelles afin de garantir que les données à caractère personnel ne sont pas attribuées à une personne physique identifiée ou identifiable. » (Galichet, 2017).

La pseudonymisation consiste donc à supprimer les champs des données directement identifiants, et à les remplacer par un nouveau champ, un nouveau type de données. Par exemple, le nom et le prénom seront remplacés par un numéro, un identifiant. Ce processus doit rendre impossible le lien entre le pseudonyme et l’identification réelle de l’individu. La pseudonymisation est souvent mise en place au travers d’une fonction de hachage. Cette dernière, dérivée de l’anglais « hash function » (traduction de pagaille, désordre, recouper et mélanger), désigne le fait qu’à partir d’une donnée fournie en entrée, on calcule une empreinte numérique servant à identifier rapidement la donnée initiale, au même titre qu’une signature. C’est le cas par exemple d’un identifiant numérique (numéro de passeport, numéro de sécurité sociale, etc.)…

Le principal avantage de la pseudonymisation est que, du fait du remplacement de la donnée confidentielle par un pseudonyme, le traitement des données (non personnelles) peut se faire à l’identique, comme avec une base de données non anonymisée.

Cependant, la pseudonymisation n’est pas reconnue comme un moyen efficace de « dé-identification », car elle ne donne pas un niveau de protection suffisamment élevé. En effet, il est toujours techniquement possible de réattribuer les identifiants pseudonymes à des personnes physiques. Par exemple, des séquences temporelles de positions géographiques (successions de visites médicales dans tel établissement par exemple) constituent très vite une trace unique. Ainsi, bien que cela soit interdit, à partir d’informations connues sur un individu on peut alors rapidement le ré-identifier.

Dans certains cas, la police peut par exemple retrouver un individu à partir de l’historique des coordonnées GPS du téléphone de ce dernier.

L’anonymisation

L’autre solution la plus efficace, pour pouvoir à la fois partager les données personnelles tout en respectant le caractère confidentiel et sensible de celles-ci, est l’anonymisation.

Pour la CNIL, l’anonymisation est « un traitement qui consiste à utiliser un ensemble de techniques de manière à rendre impossible, en pratique, toute identification de la personne par quelque moyen que ce soit et de manière irréversible. » (CNIL, 2019).

Euris group explique sur sa page internet que : « Pour profiter des avantages qu’offrent l’accroissement et l’ouverture des données, les solutions d’anonymisation sont aujourd’hui essentielles pour adopter une gouvernance qui respecte la confidentialité et la protection des données de santé. » (EURIS).

L’anonymisation des données de santé est un processus complexe qui vise à préserver les données de tous les risques « raisonnables » de ré-identification d’un individu. Pour ce faire, l’anonymisation supprime l’association entre l’ensemble de données l’identifiant et le sujet des données. L’objectif étant, bien-sûr, qu’une fois le processus d’anonymisation réalisé, il ne soit plus possible d’associer les données récoltées avec un individu en particulier. L’individu n’est plus identifiable, mais l’utilité des données est préservée. De ce fait, l’anonymisation est un processus irréversible. C’est en cela que l’anonymisation diffère de la pseudonymisation, le remplacement d’un nom par un pseudonyme.

Le processus technique d’anonymisation est assez compliqué, et son principal risque est qu’il soit mal réalisé, et qu’il puisse alors y avoir divulgation de données sensibles et confidentielles.

Des techniques d’anonymisation variées

Il existe plusieurs outils et dispositifs d’anonymisation.

La professeure Latanya Sweeney de l’université de Harvard aux États-Unis a proposé une méthode proche de la pseudonymisation, mais plus efficace : la k-anonymisation.

La k-anonymisation peut être comparée à un processus permettant de flouter. Il s’agit de réduire les détails des données sensibles. Ainsi, des individus d’un même groupe auront la même valeur donnée, c’est ce que Sweeney appelle le « quasi-identifiant ». Il s’agit de généraliser: par exemple, toutes les personnes d’un certain âge, (18 à 32 ans, 32 à 45 ans, etc.) auront une valeur donnée identique. La précision de la donnée à caractère personnel est ainsi réduite. Il est rendu impossible avec ce processus de relier précisément un individu à une donnée… du moins en partie (Nguyen, 2014).

Effectivement il peut s’avérer possible, à partir du moment où l’on connaît le « quasi identifiant » d’un individu, par exemple son âge si l’on garde l’exemple précédent, d’exclure plusieurs données ou valeurs. Il est de même tout à fait envisageable d’établir une probabilité qu’un individu ait telle ou telle valeur pour telle ou telle donnée, d’autant plus si tous les individus d’un même groupe possèdent la même donnée sensible. Dans ce processus la modification des attributs du jeu de données est contraignante surtout lorsque l’on traite des données sensibles comme le sont celles de la santé.

Tandis que la technique dite de la « l-diversité » ne fait que « flouter » un peu plus la technique de la k-anonymisation, celle de la « t-proximité » va un peu plus loin. Sans doute trop loin même, puisque toutes les données considérées comme sensibles sont fractionnées en parts égales, de sorte que toutes les partitions se ressemblent en termes de distribution. Cela présente donc un très gros désavantage, surtout dans le domaine de la santé, puisqu’il devient impossible d’établir des statistiques pertinentes. Par exemple, le fait de savoir si telle maladie touche plus les personnes âgées, les plus jeunes, une certaine classe d’âge, etc. (Nguyen, 2014).

Dans ces trois cas de généralisation (famille de techniques donnée à ce genre de dispositifs), le jeu de données est trop large, et perd en pertinence.

L’autre famille de techniques est celle de la randomisation. Il s’agit ici d’altérer la précision des informations d’un individu. Par exemple, si une personne est mesurée au centimètre près, on peut lui attribuer au final une donnée de + ou – 10 cm. Cette modification de l’attribut de la donnée ayant pour objectif de réduire sa précision est appelée « l’ajout du bruit ». Le niveau de bruit que l’on souhaite est proportionnel au caractère personnel et privé de la donnée affectée. Cependant, attention à ne pas ajouter trop de bruit, ce qui entraînerait une baisse de la pertinence de la donnée récoltée.

Bien sûr, pour accroître la difficulté d’identification de l’individu, il est tout à fait possible d’allier cette technique à celle de la généralisation.

Cette technique de randomisation est par exemple mise en avant par l’entreprise Wedata qui a été approuvée récemment par la CNIL. Sur son site internet, la société française explique : « chacune de ces données est légèrement modifiée. Elles deviennent assez différentes des données de base pour garantir l’anonymat mais quand même assez proches des données de base afin de ne pas perdre leur valeur. L’idée reste de garder la granularité du jeu de données, avec toujours le même nombre de patients. Cette technologie permet d’assurer qu’on va garder les corrélations entre les individus et les distributions sur une variable. Lorsqu’une variable est modifiée, toutes les autres doivent être impactées. Admettons qu’il existe une corrélation entre la taille et le poids dans un jeu de données, alors il faudra modifier les deux afin de rester statistiquement pertinents. » (Mathoux, 2020).

C’est également cette technique que semble proposer l’offre « Cloud Santé® Anonymisation » d’Euris Group qui propose pour sa part de « transformer les données et ajuster la stratégie d’anonymisation pour obtenir la valeur analytique optimale des données dé-identifiées, en fonction du contexte d’utilisation. » (EURIS).

Une autre technique de randomisation est la permutation. Ce processus vise à garder les attributs exacts de chaque donnée, mais à les donner de manière aléatoire à d’autres individus. La corrélation entre les données et les individus n’existe donc plus, mais l’exactitude de toutes les données en tant que telles en revanche reste.

Cependant, tout comme pour l’ajout du bruit, la pertinence des attributs pour des données médicales doit être bien réfléchie. En effet, si par exemple les différents attributs d’un champ de données sont très liés entre eux, la pertinence du processus de permutation n’est plus. Ainsi, si l’on prend pour exemple, comme champs d’attributs, « motifs d’hospitalisation/symptômes/service concerné », on se rend bien compte alors que les 3 champs sont particulièrement liés les uns aux autres. Une « dé-identification » n’est plus forcément garantie. C’est pourquoi, tout comme pour l’ajout du bruit, cette technique ne garantit pas en elle-même l’anonymat et doit souvent être combinée avec d’autres techniques.

Supprimer les données à caractère personnel ?

Et si la méthode la plus simple était, tout simplement, de supprimer les données à caractère personnel et/ou sensible ? Sans les données identifiantes, alors a priori il n’y a aucun moyen d’identification. C’est vrai, mais cela soulève un autre problème. Supprimer ces données peut entraîner la suppression de données qui peuvent, elles, s’avérer utiles. Aussi, cela enlève évidemment le caractère personnel de la donnée, ce qui d’un point de vue statistique ou d’étude peut également être problématique. Dans le domaine de la santé la suppression de données à caractère personnel n’est bien évidemment pas envisageable.

Alors, comment anonymiser des données sensibles de manière plus fiable, et garantir ainsi la sécurité de la vie privée des individus en procédant à une réelle « dé-identification » ?

Nous avons vu que finalement aucune anonymisation n’emploie une méthode véritablement parfaite et fiable. Elles ont toutes leurs avantages et leurs inconvénients.

La CNIL et les autorités de protection des données européennes ont défini trois critères qui permettent de s’assurer qu’un jeu de données est véritablement anonyme :

  • « L’individualisation : il ne doit pas être possible d’isoler un individu dans le jeu de données »
  • « La corrélation : il ne doit pas être possible de relier entre eux des ensembles de données distincts concernant un même individu »
  • « L’inférence : il ne doit pas être possible de déduire, de façon quasi certaine, de nouvelles informations sur un individu. »

La CNIL ajoute que si les trois critères ne sont pas remplis, le responsable de traitement souhaitant anonymiser son jeu de données devra démontrer, par une évaluation des risques d’identification, que le risque de ré-identification est nul (CNIL, 2020).

L’importance de l’anonymisation dans le domaine de la santé, dans lequel la garantie de la vie privée est primordiale, n’est plus à démontrer. Aussi, de son côté, la CNIL rappelle également que, pour tout processus d’anonymisation, « si un jeu de données publié en ligne comme « anonyme » contient en réalité des données personnelles et qu’aucune des exceptions mentionnées à l’article L.312-1-2 du Code des relations entre le public et l’administration (CRPA) n’est applicable, cela peut être considéré comme une violation de données. Il est alors nécessaire de :

  • Procéder au retrait du jeu de données en question dans les plus brefs délais
  • En informer la CNIL si cette violation est susceptible d’engendrer un risque pour les droits et libertés des personnes ;
  • D’en informer les personnes concernées si ce risque est élevé. » (CNIL, 2020)

C’est ainsi que pour certains chercheurs la protection des données sensibles et/ou à caractère personnel est peut-être à imaginer dans le « cloud ». Un stockage des données décentralisé, directement géré par les individus concernés serait pour eux une solution intéressante. L’individu est finalement le cœur du « problème », étant donné qu’aucune anonymisation fiable à 100% n’existe ; l’important est que la personne soit bien informée sur le modèle utilisé, la manière dont sont gérées ses données personnelles, et puisse à tout moment du processus, de la collecte au stockage, en passant par l’utilisation, avoir un droit de regard et de retrait de ses données.

Bibliographie

Ben Fredj, F. (2018). Méthode et outil d’anonymisation des données sensibles. [thèse de doctorat, Université de Sfax]. https://tel.archives-ouvertes.fr/tel-01783967/document

Galichet, C. (2017, 17 octobre). Données personnelles : anonymisation ou pseudonymisation ? Village de la justice. https://www.village-justice.com/articles/donnees-personnelles-anonymisation-pseudonymisation,26194.html 

Mathoux, J. (2020, 5 novembre). La Cnil approuve WeData pour l’anonymisation des données de santé. Usine Digitale. https://www.usine-digitale.fr/article/la-cnil-approuve-wedata-pour-l-anonymisation-des-donnees-de-sante.N1024644 

Matusek, F. Anonymisation statique vs dynamique. https://ressources.genetec.com/blog/anonymisation-statique-vs-dynamique

Nguyen, B. (2014, décembre). Techniques d’anonymisation. Statistique et société. https://www.benjamin-nguyen.fr/papers/ss.pdf 

Piquette-Muramatsu, S. (2021, 3 février). Anonymisation/Pseudonymisation. Université de Lille. https://pod.univ-lille.fr/ethique-et-protection-des-donnees-en-recherche/video/16591-s17-anonymisation-pseudonymisation/ 

Agence esanté Luxembourg. Service de pseudonymisation en santé (sps). https://www.esante.lu/portal/fr/je-m-informe/services-pour-professionnels-de-sante-188-205.html 

CNIL. (2019, 17 octobre). L’anonymisation des données, un traitement clé pour l’open data. https://www.cnil.fr/fr/lanonymisation-des-donnees-un-traitement-cle-pour-lopen-data 

CNIL. Quelles formalités pour les traitements de données de santé à caractère personnel ? https://www.cnil.fr/fr/quelles-formalites-pour-les-traitements-de-donnees-de-sante-caractere-personnel

CNIL. Santé. https://www.cnil.fr/fr/sante

CNIL. (19 mai 2020). L’anonymisation de données personnelles. https://www.cnil.fr/fr/lanonymisation-de-donnees-personnelles 

CNIL. (10 avril 2014). Avis 05/2014 sur les Techniques d’anonymisation. https://www.cnil.fr/sites/default/files/atoms/files/wp216_fr.pdf 

EURIS. Anonymisation. https://www.euris.com/fr/cloud-sante-marketplace/anonymisation/

French Tech Central. (2020, 3 juin). Webinar : data et santé les bénéfices de l’anonymisation et de la pseudonymisation CNIL [vidéo]. YouTube. https://www.youtube.com/watch?v=70EOF4xvhXE 

Groupe de travail « article 29 » sur la protection des données. Avis 05/2014 sur les Techniques d’anonymisation. https://www.dataprotection.ro/servlet/ViewDocument?id=1288 

Oracle. Comment anonymiser des données ? https://www.oracle.com/fr/cloud/comment-anonymiser-donnees.html

Documentation du SNDS. Pseudonymisation. (16 décembre 2019) https://documentation-snds.health-data-hub.fr/glossaire/pseudonymisation.html#interet

Sham. Les données de la santé. https://www.sham.fr/blog/nouveaux-risques/la-donnee-de-sante

Wikipedia. Données de santé. https://fr.wikipedia.org/wiki/Donn%C3%A9es_de_sant%C3%A9

Wikipedia. Fonction de hachage. https://fr.wikipedia.org/wiki/Fonction_de_hachage 

https://controverses.minesparis.psl.eu/public/promo16/promo16_G13/www.controverses-minesparistech-3.fr/_groupe13/index.html

https://pixabay.com/fr/ 

Crédits image : https://www.europeanscientist.com/fr/sante/il-faut-consacrer-un-droit-fondamental-international-a-la-protection-des-donnees-personnelles-de-sante/