Les perspectives de l’open data juridique

Cyber sécurité - Haker (Source : Pixabay - CC0)
Cyber sécurité - Haker (Source : Pixabay - CC0)

« Ouvrir les données juridiques, et les données de jurisprudence en particulier, c’est ouvrir un immense terrain de jeu pour l’application des techniques les plus avancées de traitement des données. Pour l’intérêt final du justiciable et de la justice elle-même : espérance de gain de cause et de dédommagement, pilotage statistique d’activité de tribunaux ou de résultats. Et par intérêt commercial. Car l’open data c’est l’opportunité de développer des produits et services commerciaux innovants et disruptifs. »

Open Data (Source : http://www.pressmyweb.com)
Open Data (Source : http://www.pressmyweb.com)

Comme le souligne Guiraude Lame, l’enjeu de la mise en place d’un open data des décisions de justice est double. Il répond à la fois à la volonté de transparence de la vie publique et à un enjeu économique et social lié à la valorisation des données.[1]

Jusqu’alors, le principe était l’accès aux décisions de justice. Cet « open access » (mise gratuitement à la disposition du public) est prévu depuis le décret du 7 août 2002 et prévoit « de faciliter l’accès du public aux textes en vigueur ainsi qu’à la jurisprudence ». [2] Pour ce faire, le site Legifrance met en ligne une sélection d’arrêts.

La loi de la République numérique dite loi Lemaire va plus loin et consacre que « la totalité des décisions de premier et second degré seront mises à disposition en open data» (articles 20 et 21). Est consacrée aussi dans l’optique d’une mise disposition des données de décisions en open data la mise à disposition dans un standard ouvert et réutilisable.

Comme on le voit, le secteur juridique n’échappe pas à l’ouverture des données détenues par les acteurs publiques en open data. Toutefois, la composition des décisions de justice pose question. En effet, elles sont composées à la fois de données publiques et de données personnelles.

D’ailleurs, la loi Lemaire stipule d’ailleurs que la mise à disposition des jurisprudences ne pourra être effectuée que « sous réserve du principe du respect de la vie privée » c’est-à- dire sous condition de protéger les données à caractère personnel ou sensible.

On entend par données personnelles Article 2 de la loi Informatique et Liberté : « Constitue une donnée à caractère personnel toute information relative à une personne physique identifiée ou qui peut être identifiée directement ou indirectement, par référence à un numéro d’identification ou à un ou plusieurs éléments qui lui sont propres »  [3]

Dès lors, la question se pose :

Quelle gouvernance des données à caractère personnel et sensible est à mettre en place ?

Pour ce faire, nous verrons quelles sont les méthodes actuelles de protection des données personnelles et sensibles (I) puis en étudierons les limites (II-2.1) et les solutions envisagées pour y faire face (II-2.2).

I- Les méthodes de protection des données personnelles et sensibles

L’utilisation des décisions de justice contenant des données à caractère personnel ou sensible ne peut être possible que dans un des cas suivants :

1- Consentement des personnes concernées ;

2- Anonymisation ou pseudonymisation préalable ;

3- Dispositif légal le permettant.

Dans le cas des décisions de justices, il est fort compréhensible que la pseudonymisation ou l’anonymisation est la solution la plus fréquemment envisagée.

1.1 Pseudonymisation

Le terme porte sur la protection apportée directement sur un texte, et en aucun cas sur tous les autres éléments extérieurs qui pourraient permettre la réidentification des personnes physiques. Autrement dit la pseudonymisation s’entend, hors de tout croisement de jeux de données, comme étant un moyen efficace de rendre anonyme une personne physique ou sein d’un ensemble d’informations.[4]

La pseudonymisation est une mesure technique qui permet de compliquer l’identification d’une personne. Autrement dit, il s’agit d’un procédé par lequel les données à caractère personnel ou sensible sont rendues inidentifiables.

Par exemple, on peut remplacer un nom de famille par un autre nom de famille ou par une chaine de caractères aléatoires.

Il est question dans ce procédé des données contenues uniquement dans le corps de la décision. En d’autres termes, la pseudonymisation s’intéresse exclusivement aux données intrinsèques aux jurisprudences.

A ce jour, cette pseudonymisation des données à caractère personnel et sensible peut intervenir aux trois moments suivants [5] :

  • L’écriture en « privacy by design » : prise en compte du risque de ré-identification en amont, dès l’écriture de la jurisprudence. Cette méthode peut nécessiter l’aide d’un outil d’aide à la rédaction.
  • La pré-pseudonymisaion : la pseudonymisation advient une fois la décision de justice signée. Ce sont les greffiers qui en sont chargés.
  • La pseudonymisaion centralisée : elle s’appuie sur un acteur tiers qui peut être par exemple un diffuseur public ou privé (comme un éditeur juridique).

Elle intervient dans deux cas :

  •  Éditeurs juridiques classiques : récupèrent les jurisprudences directement auprès des autorités judiciaires.

En général, ils « pseudonymisent » les décisions une fois reçues. Ce processus n’est pas géré en interne par les éditeurs juridiques. Si l’on prend le cas de l’éditeur juridique Lexbase, cette dernière fait appel à un prestataire extérieur appelé NUMELEX.

  • Sociétés de diffusions du droit plus nouvelles (appelées « legal tech ») : collectent les décisions de justice via les données mises à disposition en open data. La pseudonymisation n’est pas directement traitée par ces dernières, elle intervient en amont.[6]

Actuellement, c’est la technique de la pré-pseudonymisaion qui est envisagée. La Cour de Cassation s’inscrivant dans le mouvement de l’open data, teste un logiciel d’aide à la pseudonymisation qui sera en soutien au contrôle humain.

Ce logiciel substituera le nom de famille des parties ou témoins par une lettre de l’alphabet et gommera l’adresse.

D’autres éléments d’identification seront aussi effacés.[7]

On l’a vu, la pseudonymisation ne s’intéresse qu’aux données incluses dans la décision de justice. Elle assure la non-identification au sein de la jurisprudence.

Une des limites majeures de cette méthode est qu’elle ne garantit pas la non ré-identification des personnes qui interviendrait par un croisement avec d’autres données. En d’autres mots, elle rend l’identification plus complexe mais pas impossible.

Une des solutions serait d’avoir recourt à l’anonymisation qui permet d’empêcher la ré-identification d’une donnée personnelle ou sensible car le recoupement des informations est rendu impossible.

Selon le rapport d’information rédigé par le Sénat de 2014, « l’anonymisation peut être définie comme l’opération de suppression de l’ensemble des informations permettant d’identifier directement ou indirectement un individu, contenues dans un document ou une base de données ». [8]

L’anonymisation peut être définie comme l’opération de suppression de l’ensemble des informations permettant d’identifier directement ou indirectement un individu, contenues dans un document ou une base de données. [9]

Selon l’Avis 05/2014 sur les techniques d’anonymisation adopté le 10 avril 2014 par groupe de travail «article 29» sur la protection des données [10] , trois critères sont nécessaires pour assurer l’anonymisation complète :

  • L’individualisation : possibilité d’isoler des données spécifiques à une personne d’un ensemble de données ;
  • La corrélation : revient à l’éventualité de relier des données pour en détacher des données sur un même individu ;
  • L’inférence : consiste à déduire des informations concernant un individu.

Ce même groupe, composé de chaque autorité indépendante de protection des données personnelles dans l’ensemble de l’Union européenne (en France, cette autorité correspond à la Commission Nationale de l’Informatique et des Libertés, la CNIL), examine quelles sont les méthodes possibles pour la mise en oeuvre d’une solution d’anonymisation. En définitive, les techniques d’anonymisation se composent de deux modèles :

  • La randomization est une altération de la véracité des données personnelles afin d’atténuer le lien entre les données et la personne concernée. Cela signifie que les données seront assez incertaines pour ne pas pouvoir être reliées à un individu précis. Par exemple, une de ces méthodes s’appelle « l’ajout de bruit »  qui conduit à la distension du lien entre les données et la personne réelle. Un autre de ces moyens, « la permutation » consiste à mélanger les valeurs liées à une personne de telle manière que certaines données sont artificiellement rattachées à des personnes concernées différentes.
  • La généralisation consiste à généraliser ou diluer les données personnelles de sorte à ce qu’elles perdent en précision. Ces données ne sont plus ciblées et ne caractérisent plus une personne avec exactitude. Elles ne pointent pas avec précision une personne mais peuvent être partagées par plusieurs personnes. Ainsi, l’identification devient moins aisée. Ainsi, on affectera à un individu une région plutôt qu’une ville ou une semaine plutôt qu’un jour. En pratique, une anonymisation aujourd’hui partielle est seulement possible. En effet, de nombreux obstacles tant techniques que financiers se dressent devant la mise en œuvre de cette pratique.

Le procédé n’est pas encore abouti puisque l’anonymisation complète n’est pas encore garantie. Pour y parvenir, de nombreuses recherches et études devraient être envisagées générant un coût non négligeable.

De surcroit, le contexte de l’ouverture des données complexifie encore plus ce travail. Les jeux de données de décisions de justices qui seront mises à disposition dans la mouvance de l’open data juridique sont énormes. Il s’agit alors de trouver des techniques pour éviter de ré-identifier un individu par le croisement de ces mêmes données avec le big data alors même que les processus de ce dernier sont en constante amélioration.

Des techniques d’anonymisation complète ou partielle existent déjà. C’est le cas de l’assistant d’anonymisation NOME [11] , solution logicielle développée au Québec. Entre autres, NOME permet d’automatiser le remplacement des noms mentionnés dans un document par leurs initiales ou par d’autres signes. Toutefois, afin d’assurer cette anonymisation, une intervention humaine demeure indispensable. L’on peut prendre l’exemple d’un justiciable s’appelant M. Pierre. Dans le corps de la jurisprudence, une coquille s’est glissée le dénommant alors M. Piere. Si un des noms d’un des participants au système judiciaire est mal orthographié, une vérification humaine est indispensable, la technologie NOME ne permettant de relever et corriger cette erreur.

Afin de palier ce manque, nous pourrions imaginer une solution basée sur le « machine learning ». On pourrait alors concevoir un système d’apprentissage automatique qui apprendrait à reconnaitre les erreurs dans les chaînes de caractères, ou mieux, à repérer elle-même les données à caractère personnel ou sensibles.

Toutefois, cette perspective, bien que très prometteuse, n’est pas encore disponible !

Quelle que soit la solution envisagée – pseudonymisation ou anonymisation – un contrôle humain est nécessaire.

Pourtant, comme le souligne Axelle Lemaire, ancienne Secrétaire d’État chargée du numérique :

« Imposer une vérification et une analyse des risques à chaque fois qu’il est question de publier le jugement d’un tribunal de première instance reviendrait en pratique à empêcher la mise en place de l’open data, puisque les ressources des tribunaux ne le permettraient pas. »[12]

Aujourd’hui, les moyens techniques disponibles rendent chimériques la garantie de la non ré-identification tout comme la nature irrémédiable de l’anonymisation.

Note —————————————————————-

[1] Open Case Law. « Livre Blanc Open Data Jurisprudentiel ». p.9 http://openlaw.fr/, 1 janvier 2017.

[2] Décret n° 2002-1064 du 7 août 2002 relatif au service public de la diffusion du droit par l'internet https://www.legifrance.gouv.fr/affichTexte.do?cidTexte=JORFTEXT000000413818&categorieLien=id [consulté le 18/04/2017]

[3] Loi n° 78-17 du 6 janvier 1978 relative à l'informatique, aux fichiers et aux libertés [consulté le 18/04/2017]

[4] Cassar, Bertrand. « De la pseudonymisation et l’anonymisation des données à caractère jurisprudentiel ». Mémoire d’université, Université Paris 1 – Panthéon – Sorbonne, 2015. P.57 ttp://openlaw.fr/images/7/7d/Anom_Pseudo_Donn{b23bcbc6564704ae5314c50cf6e55ef99bc09de32ef3fcb54190da321a083ca4}C3{b23bcbc6564704ae5314c50cf6e55ef99bc09de32ef3fcb54190da321a083ca4}A9es_Justice_(CASSAR_B).pdf.

[5] Open Case Law. « Livre Blanc Open Data Jurisprudentiel ». http://openlaw.fr/, 1 janvier 2017., p.51 et 52

[6] Cassar, Bertrand. « De la pseudonymisation et l’anonymisation des données à caractère jurisprudentiel ». Mémoire d’université, Université Paris 1 – Panthéon – Sorbonne, 2015. P.25 http://openlaw.fr/images/7/7d/Anom_Pseudo_Donn{b23bcbc6564704ae5314c50cf6e55ef99bc09de32ef3fcb54190da321a083ca4}C3{b23bcbc6564704ae5314c50cf6e55ef99bc09de32ef3fcb54190da321a083ca4}A9es_Justice_(CASSAR_B).pdf.

[7]  Cour de cassation. « Anonymisation des décisions : la Cour teste un logiciel | Cour de cassation ». Cour de  Cassation, 12 septembre 2016. https://www.courdecassation.fr/cour_cassation_1/open_data_7821/cour_teste_35045.html.

[8]  Gorce, Gaëtan, et François Pillet. « La protection des données personnelles dans l’open data : une exigence et une opportunité ». Rapport d’information du Sénat. Sénat, 16 avril 2014. http://www.senat.fr/rap/r13-469/r13- 4697.html.

[9] Gorce, Gaëtan, et François Pillet. « La protection des données personnelles dans l’open data : une exigence et une opportunité ». Rapport d’information du Sénat. Sénat, 16 avril 2014. http://www.senat.fr/rap/r13-469/r13-4697.html.

[10] Le G29 publie un avis sur les techniques d’anonymisation. CNIL [en ligne]. avril 2014 https://www.cnil.fr/fr/le-g29-publie- un-avis- sur-les- techniques-danonymisation- 0

[11] Pelletier, Frédéric, Luc Plamondon, et Guy Lapalme. « L’assistant d’anonymisation NOME », 2004. http://www.frlii.org/IMG/pdf/Pelletier_Paris2004_NOME.pdf.

[12] Source Séance du 27 avril 2016 (compte rendu intégral des débats). Sénat [en ligne]. [Consulté le 11 mai 2016]. Disponible à l’adresse : http://www.senat.fr/seances/s201604/s20160427/s20160427_mono.html

Soyez le premier à commenter

Poster un Commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.