OPEN DATA VS RGPD

GDPR
(c) www.pixabay.com

Comment concilier open data et anonymisation des données ?

Le terme d’Open data (ou données ouvertes en français) désigne, comme son nom l’indique, des données auxquelles l’accès est totalement public et libre de droit, au même titre que l’exploitation et la réutilisation. Si l’open data ne concerne pas initialement la protection des données à caractère personnel, le nouveau contexte numérique implique de la prendre en considération, au niveau de la mise à disposition et de la réutilisation des données ainsi que la protection de la vie privée. Le nouveau cadre juridique relatif à l’open data permet cette conciliation. Entre ces deux termes, il n’y a pas lieu de choisir, car la libre réutilisation des données ouvertes, tout comme le droit à la vie privée, constituent des principes d’égale valeur qu’il convient de concilier, et non de sacrifier l’un à l’autre. L’enjeu est ici de trouver un équilibre entre ces deux principes qui sont en théorie, opposés.

1. Principes de bases de la protection des données

Qu’est-ce qu’une donnée à caractère personnel ?

Données personnelles

(c) Fotolia

La CNIL la définit comme étant une information se rapportant à une personne physique identifiée ou identifiable. Une personne physique peut être identifiée directement par son nom et prénom ou indirectement par une information qui la concerne telle que son numéro de sécurité sociale, son numéro de téléphone, son adresse postale ou courriel mais aussi par sa voix ou une image. L’identification peut se réaliser à partir d’une seule donnée ou alors par un croisement de plusieurs données.

Le traitement de ces données – c’est-à-dire – l’ensemble d’opérations portant sur des données personnelles, quel que soit le procédé utilisé (collecte, enregistrement, organisation, conservation, adaptation, modification, extraction, consultation, utilisation, communication par transmission diffusion ou toute autre forme de mise à disposition, rapprochement) doit être justifié par un objectif légal et légitime.

La protection des données personnelles repose sur 5 grands principes de règles :

  1. Le principe de finalité : le responsable d’un fichier ne peut enregistrer et utiliser des informations sur des personnes physiques que dans un but bien précis, légal et légitime;
  2. Le principe de proportionnalité et de pertinence : les informations enregistrées doivent être pertinentes et strictement nécessaires au regard de la finalité du fichier;
  3. Le principe d’une durée de conservation limitée : il n’est pas possible de conserver des informations sur des personnes physiques dans un fichier pour une durée indéfinie. Une durée de conservation précise doit être fixée, en fonction du type d’information enregistrée et de la finalité du fichier ;
  4. Le principe de sécurité et de confidentialité : le responsable du fichier doit garantir la sécurité et la confidentialité des informations qu’il détient. Il doit en particulier veiller à ce que seules les personnes autorisées aient accès à ces informations;
  5. Les droits des personnes.

Que dit la Loi ?

Le RGPD – Règlement Général sur la Protection des Données- est le texte législatif encadrant le traitement des données personnelles sur le territoire de l’Union européenne. Celui-ci s’inscrit dans la continuité de la Loi française Informatique et Libertés de 1978 et de la loi CADA (Commission d’Accès aux Documents Administratifs).

Ce cadre juridique garantit la protection des données personnelles dans le contexte de l’Open Data en France et plus largement sur le territoire européen. D’une part, il tient à l’interdiction de principe qu’une donnée personnelle fasse l’objet d’une mise en ligne par l’administration et d’une réutilisation par un tiers. Ce principe connaît trois exceptions : le consentement de l’intéressé à cette diffusion, l’existence d’une obligation légale de publication, ou l’anonymisation des données publiées.

D’autre part, il contribue à la soumission de toute réutilisation de données personnelles aux exigences de la loi «Informatique et libertés » et à la sanction lors de non-respect des dispositions précédentes : engagement de la responsabilité de l’État, voire condamnation pénale pour diffusion de données personnelles par négligence.

Les données personnelles sont donc des données dites « sensibles » et ont l’obligation d’être protégées.

Pourquoi protéger les données de la recherche ?

Les projets de recherche intégrant des données à caractère personnel et particulièrement ceux en SHS (Sciences Humaines et Sociales) sont quotidiens et il est important de les protéger. Au-delà des contraintes juridiques et du cadre législatif posé par le RGPD, les données de recherche ont le mérite d’être protéger pour des raisons éthiques. D’une part, dans le but de protéger l’identité des personnes dans les publications et données de recherche contenant des informations sensibles, illégales, confidentielles mais aussi pour dissimuler le lieu de la recherche.

Pour finir, les chercheurs souhaitant collecter ou accéder à ces données doivent s’engager à ne pas en faire un usage commercial ou à le redistribuer. Il est important de les sensibiliser sur l’importance de leur collecte mais surtout de leur sécurisation de stockage sachant que les données personnelles sont considérées comme « le pétrole du XXème siècle » pour les entreprises du web.

2. Les techniques à mettre en œuvre pour la protection des données 

Comment anonymiser les données ?

L’anonymisation est un traitement qui consiste à utiliser un ensemble de techniques de manière à rendre impossible, toute identification de la personne par quelque moyen que ce soit et de manière irréversible et permet, ainsi, de respecter sa vie privée. Il s’agit d’une solution, parmi d’autres, pour pouvoir exploiter des données personnelles dans le respect des droits et libertés des personnes. En effet, l’anonymisation ouvre des potentiels de réutilisation des données initialement interdits du fait du caractère personnel des données exploitées, et permet ainsi aux acteurs d’exploiter et de partager leur « gisement » de données sans porter atteinte à la vie privée des personnes. Avec cette méthode, la législation relative à la protection des données ne s’applique plus, car la diffusion ou la réutilisation des données anonymisées n’a pas d’impact sur la vie privée des personnes concernées.

Pour construire un processus d’anonymisation pertinent, il est ainsi conseillé :

  • d’identifier les informations à conserver selon leur pertinence.
  • de supprimer les éléments d’identification directe ainsi que les valeurs rares qui pourraient permettre un ré-identification aisée des personnes (par exemple, la présence de l’âge des individus peut permettre de ré-identifier très facilement les personnes centenaires) ;
  • de distinguer les informations importantes des informations secondaires ou inutiles (c’est-à-dire supprimables) ;
  • de définir la finesse idéale et acceptable pour chaque information conservée.

Une fois cette étape réalisée, un procédé d’anonymisation doit être défini et appliqué. Il faut donc choisir entre deux techniques :

  • La randomisation qui consiste à modifier les attributs dans un jeu de données de telle sorte qu’elles soient moins précises, tout en conservant la répartition globale. Un jeu de données, ou dataset- est un ensemble cohérent de données produites dans le cadre d’un même projet.et/ou recueillies sur un même lieu. Toutes les données d’un dataset peuvent donc être décrites avec une majorité de métadonnées communes. Cette technique permet de protéger le jeu de données du risque d’inférence – via une théorie déductive. L’objectif de cette méthode est de réduire le biais de confusion c’est-à-dire un ensemble d’erreurs pouvant survenir dans l’interprétation des liens entre les variables dépendantes et indépendantes, de réduire les biais de sélection c’est-à-dire des erreurs systématiques faites lors de la sélection des sujets à étudier. Cette technique permet, par ailleurs, de respecter les contraintes éthiques et d’interpréter correctement les tests d’hypothèse. Le principal inconvénient de la randomisation est le risque de déséquilibre des traitements pour les facteurs.
  • La généralisation consiste à modifier l’échelle des attributs des jeux de données, ou leur ordre de grandeur, afin de s’assurer qu’ils soient communs à un ensemble de personnes. Cette technique permet d’éviter l’individualisation d’un jeu de données. Elle limite également les possibles corrélations du jeu de données avec d’autres.

Quelles pratiques pour quels types de données à anonymiser ?

RGPD : Règlement Général sur la Protection des Données

(c) www.europe.groupebgfibank.com

Anonymisation des données quantitatives

  • Supprimer les identifiants directs ou les remplacer par des pseudonymes, par exemple les noms, l’adresse, l’institution, la photo ;
  • Réduire la précision/le détail par l’agrégation, par exemple l’année de naissance par rapport à la date de naissance, les catégories professionnelles, la région plutôt que le village ;
  • Restreindre les fourchettes supérieures et inférieures pour cacher les valeurs.

Anonymisation des données qualitatives

  •  Éviter de supprimer les informations ; utiliser des pseudonymes ou des remplacements – Identifier les remplacements, par exemple avec des [crochets] ;
  • Éviter de trop anonymiser car la suppression des informations dans le texte peut déformer les données, les rendre inutilisables, peu fiables ou trompeuses : il faut donc trouver un équilibre entre l’anonymisation et la nécessité de préserver le contexte ;
  • Conservez un journal d’anonymisation des remplacements ou des suppressions effectués.

Anonymisation des données audiovisuelles

  • La manipulation numérique de fichiers audio et d’images peut supprimer des identifiants personnels, par exemple l’altération de la voix ou le flou des images (par exemple des visages). Ce type de données est plus difficile à anonymiser car cela demande un travail intensif avec un coût élevé et risque de nuire au potentiel de recherche des données.

Que faire si l’anonymisation est impossible ?

Différentes pistes s’offrent aux chercheurs. La plus simple reste l’obtention du consentement pour le partage de données non anonymisées auprès des personnes. A défaut de cette solution, il est possible de restreindre l’accès des utilisateurs, réservé aux chercheurs agréés, par exemple, le UK Data Archive met à disposition des données archivées qui ne sont pas diffusées dans le domaine public ou encore, de réglementer l’utilisation de ces données : les utilisateurs de données signent une licence d’utilisateur final juridiquement contraignante, par exemple, ne pas identifier toute personne identifiée ou identifiable. Les chercheurs doivent dans tous les cas envisager l’accès aux données et leur stockage en toute sécurité.

Les critères et risques liés à l’anonymisation

Open Data

(c) www.donnees-rgpd.fr

Pour vérifier l’efficacité de l’anonymisation des données, il faut s’assurer que le jeu de données réponde aux trois critères du RGPD :

  • l’individualisation : il ne doit pas être possible d’isoler un individu dans le jeu de données. Par exemple, une base de données de CV où seuls les nom et prénoms d’une personne auront été remplacés par un numéro (qui ne correspond qu’à elle) permet d’individualiser cette personne. Dans ce cas, cette base de données est considérée comme pseudonymisée et non comme anonymisée.
  • la corrélation : il ne doit pas être possible de relier entre eux des ensembles de données distincts concernant un même individu. Par exemple : une base de données cartographique renseignant les adresses de domiciles de particuliers ne peut être considérée comme anonyme si d’autres bases de données, existantes par ailleurs, contiennent ces mêmes adresses avec d’autres données permettant d’identifier les individus.
  • l’inférence : il ne doit pas être possible de déduire, de façon quasi certaine, de nouvelles informations sur un individu.

À défaut de remplir parfaitement ces trois critères, le responsable de traitement qui souhaite anonymiser un jeu de données doit démontrer que le risque de ré-identification avec des moyens raisonnables est nul.

Les techniques d’anonymisation et de ré-identification étant amenées à évoluer régulièrement, il est indispensable pour tout responsable de traitement concerné, d’effectuer une veille régulière pour préserver, dans le temps, le caractère anonyme des données produites. Cette veille doit prendre en compte les moyens techniques disponibles ainsi que les autres sources de données qui peuvent permettre de lever l’anonymat des informations.

Si un jeu de données publié en ligne comme « anonyme » contient en réalité des données personnelles et qu’aucune des exceptions mentionnées à l’article L.312-1-2 du Code des relations entre le public et l’administration (CRPA) n’est applicable, cela peut être considéré comme une violation de données. Il est alors nécessaire de :

  • procéder au retrait du jeu de données en question dans les plus brefs délais ;
  • en informer la CNIL et les personnes concernées si cette violation est susceptible d’engendrer un risque pour les droits et libertés des personnes.

Pour conclure, l’anonymisation est donc une technique fondamentale favorisant la réutilisation des données initialement interdite du fait du caractère personnel des données exploitées, et permet ainsi aux chercheurs d’exploiter et de partager leur « gisement » de données sans porter atteinte à la vie privée des personnes. Elle permet également de conserver des données au-delà de leur durée de conservation. Le RGPD ne s’applique pas aux données anonymisées dans la mesure où l’utilisation de ces données n’a pas d’impact sur les droits et libertés des personnes concernées.

En revanche, lorsque l’anonymisation n’est pas possible notamment lorsque les objectifs de la recherche nécessitent de mentionner l’identité de l’interviewé (personnalité, expert, etc.), il convient de leur préciser que des données identifiantes seront publiées et de leur garantir l’accès à la retranscription.

Enfin, une dernière possibilité s’offre au chercheur quant à la diffusion des données et la publication : la transmission de données non-anonymisées à d’autres chercheurs est rendue possible sous autorisation du responsable de traitement en vertu du décret du 1er août 2018 (article 100-1).

Bibliographie

(2018, juillet 18). Données personnelles et recherche scientifique : Quelle articulation dans le RGPD ? – S.I.Lex. https://scinfolex.com/2018/07/18/donnees-personnelles-et-recherche-scientifique-quelle-articulation-dans-le-rgpd/

Coulibaly, I. (2011). La protection des données à caractère personnel dans le domaine de la recherche scientifique. [Phdthesis, Université de Grenoble]. https://tel.archives-ouvertes.fr/tel-00798112

L’anonymisation des données, un traitement clé pour l’open data | CNIL. (s. d.).  https://www.cnil.fr/fr/lanonymisation-des-donnees-un-traitement-cle-pour-lopen-data

Les collectivités territoriales et l’open data : Concilier ouverture des données et protection des données personnelles | CNIL. (s. d.). https://www.cnil.fr/fr/les-collectivites-territoriales-et-lopen-data-concilier-ouverture-des-donnees-et-protection-des

Open data : La protection des données comme vecteur de confiance | CNIL. (s. d.).  https://www.cnil.fr/fr/open-data-la-protection-des-donnees-comme-vecteur-de-confiance

Practical data anonymization.pdf. (s. d.).  https://www.fosteropenscience.eu/sites/default/files/original/47544.pdf

Quel statut pour les données de la recherche après la loi numérique ? – – S.I.Lex –. (s. d.).  https://scinfolex.com/2016/11/03/quel-statut-pour-les-donnees-de-la-recherche-apres-la-loi-numerique/

Quels sont les grands principes des règles de protection des données personnelles ? | Besoin d’aide | CNIL. (s. d.).  https://www.cnil.fr/fr/cnil-direct/question/quels-sont-les-grands-principes-des-regles-de-protection-des-donnees

RESEARCH DATA MANAGEMENT AND OPEN DATA.pdf. (s. d.).  https://www.fosteropenscience.eu/sites/default/files/pdf/1895.pdf

RGPD / open data : Comment concilier les deux ? (s. d.). Smart City Mag. http://www.smartcitymag.fr/article/306/rgpd-open-data-comment-concilier-les-deux

RGPD : De quoi parle-t-on ? | CNIL. (s. d.).  https://www.cnil.fr/fr/rgpd-de-quoi-parle-t-on

RGPD et open data : Est-il possible de concilier les deux ? (2019, mars 12). Données & RGPD.  https://donnees-rgpd.fr/traitement-donnees/concilier-rgpd-open-data/