Ouverture des données de la recherche : de quoi parle-t-on ?

COMMENT DÉFINIR LES DONNÉES DE LA RECHERCHE ?

Les données de la recherche, aussi appelées research data en anglais, sont définies par l’Organisation de Coopération et de Développement Économiques (OCDE) dans leur rapport de 2007 Principes et lignes directrices pour l’accès aux données de la recherche financées sur fonds publics comme « des enregistrements factuels (chiffres, textes, images et sons), qui sont utilisés comme sources principales pour la recherche scientifique et sont généralement reconnus par la communauté scientifique comme nécessaires pour valider les résultats de la recherche ».

La définition données par l’OCDE est très restrictive car les données de la recherche ne se limitent pas aux «enregistrements factuels». En effet, l’INIST (l’Institut de l’Information Scientifique et Technique) du CNRS définit 5 types de données :

  • Les données d’observation : données capturées en temps réel, habituellement uniques et donc impossibles à reproduire.
  • Les données expérimentales : données obtenues à partir d’équipements de laboratoire, qui sont souvent reproductibles mais parfois coûteuses.
  • Les données computationnelles ou de simulation : données générées par des modèles informatiques ou de
    simulation, souvent reproductibles si le modèle est correctement documenté.
  • Les données dérivées ou compilées : données issues du traitement ou de la combinaison de données «brutes», elles sont souvent reproductibles mais coûteuses.
  • Les données de référence : collection ou accumulation de petits jeux de données qui ont été revus par les pairs, annotés et mis à disposition.

Cependant, les données de la recherche sont très diverses et hétérogènes et même la typologie de l’INIST n’épuise pas toutes les possibilités. Un article du carnet des URFIST sur hypothese.org donne des exemples qui montrent toute l’étendue que peut recouvrir le terme de «données de la recherche» : «les « données » d’un linguiste peuvent des écrits ou des discours, des enregistrements de locuteurs ; les « données » d’un médiéviste sont des sources archivistiques, archéologiques, épigraphiques, iconographiques, littéraires ; les « données » d’un géologue rassemblent des coupes et observations de terrain consignées sur un carnet, des résultats de carottage, des analyses d’échantillons, des données sismographiques» (urfistinfo.hypothèses.org).

On peut tout de même définir deux tendances :

  • En sciences humaines et sociales, l’exploitation des documents (textes ou images) est, de loin, la source la plus répandue. Néanmoins les enquêtes, les entretiens, les observations, ainsi que les archives se révèlent également être des sources importantes.
  • Dans le domaine des sciences exactes, la typologie des données peut varier mais il y a majoritairement des données expérimentales (exemple : chromatographe) ou de données de simulations (exemple : simulations sismiques).

La définition donnée par l’OCDE est également trop restrictive sur un deuxième point, les données de la recherche ne sont pas seulement des données «nécessaires à la validation des résultats». En effet, le «chercheur produit plus de données que celles qui sont stricto sensu nécessaires pour valider le résultat de la recherche» (Rosemberg, 2015) or ces données n’étant pas directement impliquées dans les résultats «pourraient être utilisées par d’autres chercheurs dans le cadre d’un projet de recherche inédit» (Rosemberg, 2015). C’est même un des principaux intérêts du mouvement d’ouverture des données.

 

A QUI S’ADRESSENT LES DONNÉES DE LA RECHERCHE ?

Il existe différents types de données collectées en fonction des phases du projet de recherche. Les données ne sont pas figées. Ainsi, il faut distinguer les données brutes, des données traités ou dérivées et de celles qui ont été analysées. Ces différents types de données ne sont pas destinées aux mêmes acteurs

  • Les données brutes (ou données primaires) sont des données non interprétées et qui n’ont été soumises à aucun traitement. A destination des experts, elles sont difficilement interprétables et s’adressent donc à un public pointu très restreint. 
  • Les données traitées (les données «produites après calibration/étalonnage ou correction des données brutes») et les données dérivées (celles qui «présentent un résumé ou une représentation/vue spécifique des données (agrégation, compilation, calcul, réorganisation» : Jacquemot-Perba, 2015), s’adressent quant à elles à un public composé de scientifiques et/ou de citoyens avertis. 
  • Enfin, les données analysées s’adressent à tous : il s’agit des données publiques.

 

 

POURQUOI PARTAGER LES DONNÉES DE LA RECHERCHE ?

Il est souvent question du partage et du libre accès aux résultats de la recherche, pourtant les données issues de la recherche ont autant d’importance que les résultats publiés. Le chercheur produit généralement des données seulement en vue de publier des articles (ou autres travaux). Cette culture de l’article a longtemps entraîné un désintérêt pour les données issues de la recherche mais les choses sont en train de changer.

  • L’intérêt de partager les données est de permettre leur réutilisation et donc l’exploration de nouvelles pistes qui n’avaient pas été envisagées au départ par les chercheurs à l’origine de la collecte des données, ce qui permet de rentabiliser la recherche et d’accélérer l’innovation car la collecte des données peut être coûteuse. De plus, la réutilisation des données permet de favoriser de nouvelles collaborations, il n’y a plus de frontières, et d’éviter la duplication des travaux.
  • L’intérêt de mettre à disposition les données de la recherche est aussi d’aboutir à une science plus intègre en facilitant l’évaluation des données, ainsi que leur critique : ce qui réduit le risque de fraude et favorise le débat sur la méthode avec une possibilité de remettre en cause des résultats.
  • Enfin, le partage des données permet de rendre plus visible la communauté scientifique. En effet, les travaux peuvent être visibles non seulement à partir des articles publiés mais aussi à partir des données elles-mêmes. Le partage des données multiplie donc les chances pour les chercheurs d’être cités. En effet, l’auteur des données est identifiable [1] et a aussi la possibilité de publier des data papers (c’est-à-dire une publication scientifique qui a vocation de décrire un ou plusieurs jeux de données, plutôt que des résultats d’analyse).

Cependant, il est important de rappeler que tout n’est pas partageable. Par exemple, les données engageant la sécurité nationale sont exclues. Les données personnelles sont protégées et leurs publications doivent faire l’objet d’anonymisation. D’autre part, les données relevant du droit à la propriété intellectuelle ou liées à une exploitation commerciale sont difficilement partageables.

 

UNE VOLONTÉ POLITIQUE POUR INCITER LES CHERCHEURS À DÉPOSER EN LIBRE ACCÈS LES DONNÉES DE LEUR RECHERCHE

En France et dans de nombreux pays de l’Union européenne, l’évolution de la législation vise à permettre aux chercheurs de publier en libre accès à la fois les résultats de leurs recherche et leurs données. Mais, au delà de cette possibilité (qui n’est pas une obligation), de plus en plus d’organismes publics finançant la recherche exigent en contrepartie de leur contribution que la publication des résultats de la recherche, ainsi que les données soient publiés en Open Access. 

Par exemple, en 2014, l’Union Européenne lance «Horizon 2020», reconnu pour être le plus grand programme de recherche et d’innovation d’Europe. Il est ouvert à la participation des équipes des 28 Etats membres de l’UE et des pays associés. Ce programme a pour objectif de s’assurer que l’Europe atteint un niveau scientifique et technologique de classe mondiale qui stimule la croissance économique. Avec près de 80 milliards d’euros de financement sur 7 ans (de 2014 à 2020), Horizon 2020 se concentre sur trois domaines clés : l’excellence scientifique, la primauté industrielle et les défis sociétaux (Union européenne, Horizon 2020 en bref, 2014). La participation à ce programme est ouverte aux chercheurs du monde entier à condition que ceux-ci diffusent les résultats qu’ils produisent aussi rapidement que possible [2]. Les chercheurs sont ainsi poussés à partager leurs données de recherche, sous peine de sanctions financières. Ces dernières sont à déposer sur le site internet du projet et/ou dans un entrepôt en Open Access.

 

COMMENT PARTAGER LES DONNÉES DE LA RECHERCHE SUR LE WEB [3]?

Les chercheurs qui souhaitent donner un accès libre à leurs données pour les valoriser ont le choix entre deux voies principales et complémentaires : 

  • Publier un data paper en libre accès, c’est-à-dire une publication dont l’objet est de décrire «un ou plusieurs jeux de données plutôt que des résultats d’analyse» dans une forme «structurée et lisible pour un humain». Il existe des revues spécialisées dans la publication de data papers appelées data journals
  • Publier ses données dans un entrepôt de données (data repositoryou réservoir de données contenant «des données de recherche brutes ou élaborées qui sont décrites par des métadonnées de façon à pouvoir être retrouvées». Il existe des annuaires répertoriant les entrepôts existants pour aider le chercheur dans son choix. Ces deux dispositifs, le data paper et l’entrepôt, permettent à la fois de valoriser les données de la recherche mais aussi de valoriser le travail du chercheur qui pourra être cité si celles-ci sont réutilisées. En effet, un data paper est une publication citable au même titre que n’importe quelle publication et un identifiant pérenne attribué au jeu de donnée permet de relier les deux.

 

TOUTES LES DONNÉES PEUVENT-ELLES ÊTRE PARTAGÉES ?

En 2016, la loi pour une République numérique veut permettre la réutilisation des données dès lors que celles-ci sont issues de recherches financées au moins pour moitié par des fonds publics et qu’elles ne sont «pas protégées par un droit spécifique ou une réglementation particulière et qu’elles ont été rendues publiques par le chercheur, l’établissement ou l’organisme de recherche, leur réutilisation est libre[4]». En effet, certaines restrictions existent pour protéger notamment les données personnelles, les données sensibles menaçant la sécurité nationale ou les données ayant une valeur commerciale

On a donc d’une part, une volonté politique en faveur du partage et de la réutilisation des données et d’autre part «le secret médical, le secret des affaires, le droit d’auteur ou le règlement européen sur la protection des données personnelles (RGDP) s’imposent à tous et pondèrent, réduisent voire annulent toute possibilité d’ouverture des données[5]». Le gouvernement a donc publié en décembre 2017 un guide juridique pour aider les chercheurs à y voir plus clair et à déterminer s’ils doivent partager leurs données et le cas échéant sous quelles conditions. Le document Ouverture des données de la recherche, guide d’analyse du cadre juridique en France[6] différencie les données dont la communication est obligatoire et celles dont la communication est possible sous certaines conditions, de celles dont la publication est interdite par principe : 

  • Communication obligatoire Données géographiques et relatives à des émissions de substances dans l’environnement.
  • Communication interdite par principeDonnées présentant des risques pour la protection du secret de la défense nationale. Données présentant des risques pour la sûreté de l’État, la sécurité publique, la sécurité de l’établissement, Secrets professionnels.
  • Communication sous conditionsDonnées présentant des risques pour la protection du potentiel scientifique et technique de la nation. Le cas des zones à régime restrictif (ZRR) Données protégées par le droit d’auteur et autres droits de propriété intellectuelle. Données relatives aux personnes, à la vie privée. Données statistiques. Données liées à un contrat avec un tiers non soumis à une obligation de service public.

 

Sonia SALAMI

Alison DEVILLERS

 

Notes

[1] Doranum nous rappelle que «les données sont citables et que la paternité du chercheur est reconnue» notamment par le biais du PID «identifiant pérenne objet»

[2] En France, ce n’est pas moins de 3 milliards d’euros de subventions qui ont été obtenues, ce qui nous classe en première position ! Une somme qui va s’accroître dans le temps, puisque qu’en effet de 2018 à 2020 30 milliards d’euros seront encore en jeu dans les appels à propositions.

[3] Cette partie se fonde sur le module de formation en ligne de l’INIST «Une introduction à la gestion et au partage des données de la recherche» [En ligne : http://www.inist.fr]

[4] Voir dans ce numéro l’article de Laure PIERRAT «Loi pour une République numérique éclairage sur l’article 30».

[5] Préface de : «Ouverture des données de la recherche, guide d’analyse du cadre juridique en France», décembre 2017.

[6] Disponible sur le site web : http://www.bibliothequescientifiquenumerique.fr 

 

Bibliographie

JACQUEMOT-PERBAL Marie-Christine, COSSERAT Françoise, CIOLEK-FIGIEL Anne, «Gestion et diffusion des données de la recherche», support de stage du 12 mai 2016. URL : https://drive.google.com/file/d/0BxKZLWq08xX-TW5VOEUtd2FSRE0/view  

COMMISSION EUROPEENNE, Horizon 2020 en bref. Le programme cadre de l’UE pour la recherche et l’innovation, 2014. URL : https://ec.europa.eu/programmes/horizon2020/sites/horizon2020/files/H2020_FR_KI0213413FRN.pdf

ROSEMBERG Noëmie, «De la définition des données de la recherche», hypothese.org, 30/09/2015. URL : https://donneesshs.hypotheses.org/39