Ouvrir et partager des données de recherche selon les principes FAIR : Comment rédiger un Plan de gestion de données de recherche (PGD ou DMP)?

(c) www.pixabay.com

Dans un contexte favorable à l’Open Data, il y a de plus en plus de mandats pour rendre  accessibles les données liées aux publications en particulier de l’édition scientifique, des  organismes de financement et des politiques nationale et institutionnelle. Même après leur  publication, 80% des données scientifiques sont perdues pour les auteurs, les organismes,  les institutions et pour la recherche mondiale. Pour éviter ces pertes, comment les  chercheurs devraient-ils publier leurs données ? Et comment publier les données de manière  fiable (selon les principes FAIR)? Le plan de gestion de données est très lié au principe du  libre accès aux données de recherche et il est devenu l’outil de gestion incontournable des  projets de recherche pour les États et les financeurs. 

De manière générale, les principes FAIR [1] concernent l’ouverture, la communication,  l’appropriation et la réutilisation des données de recherche. Ainsi, une bonne gestion des  données est un moyen de soutenir les principes FAIR. En pratique, le plan de gestion de  données est un instrument de la « FAIRification [2] » de la recherche permettant la  découverte des données, leur accessibilité, leur interopérabilité et leur réutilisation.  

Mais d’abord, un PGD, qu’est-ce que c’est ? 

« Le plan de gestion des données est un outil de gestion. Il se présente sous la forme  d’un document structuré en rubriques. Il a pour objectif de synthétiser la description et  l’évolution des jeux de données d’un projet de recherche. Il prépare le partage, la réutilisation et la pérennisation des données. » [3] (Doranum).  

La gestion des données, en vue de leur partage et de leur réutilisation éventuelle, est un  processus qui demande planification et organisation. Les chercheurs doivent prévoir et  allouer du temps pour la gestion des données dès le début de leur projet de recherche.  Le Data Management Plan (DMP) – ou Plan de gestion des données – aide à organiser  la gestion des données (création, collecte, documentation, description, partage et  préservation) tout en abordant les questions juridiques en lien avec leur utilisation ou  réutilisation (restriction légale, propriété des données, propriété intellectuelle, obligations  contractuelles, données sensibles) [4]. Le DMP est un document évolutif qui doit être complété  et mis à jour de façon régulière et qui peut prendre différentes formes (document électronique,  modèle en ligne, formulaire papier, etc.) et peut amplement varier selon les disciplines et  projets de recherche [5]. Le plan de gestion de données s’appuie sur le cycle de vie des données qui désigne les différentes étapes de traitement des données au cours d’un projet  de recherche.  

En résumé, le DMP c’est :  

1
Document évolutif
(3 versions minimum)

2
Aide pour bien organiser les données

3
Description des données 
selon leur cycle de vie

4
Définition des responsabilités

 

5
Aide pour évaluer les ressources nécessaires

6
Aide pour obtenir des données fiables

Rédiger un DMP, une approche réglementée ?  

Rédiger un DMP est primordial pour plusieurs raisons. Il permet un gain de temps et  l’anticipation de plusieurs problématiques : coûts, destruction ou perte des données,  infrastructure, etc. Il est parfois obligatoire et exigé par certains bailleurs de fonds publics  pour l’octroi de financements. Il favorise considérablement la réutilisation des données,  met en valeur les données et travaux de recherche, et enfin soutient une recherche intègre,  responsable et transparente. Il est à noter que le DMP est obligatoire pour obtenir un  financement du FNS [6]. Il est également obligatoire pour obtenir un espace de stockage  sécurisé [7] mis en place par la Division calcul et soutien à la recherche[8]. Afin de favoriser  la diffusion ouverte des données de recherche, l’ANR [9] attire l’attention des déposants sur l’importance de considérer la question des données de recherche au moment du montage et tout au long du projet. Elle impose un DMP pour tous les projets qu’elle finance  (Plan d’action ANR 2019, p.9).  

Rédiger un DMP est utile pour se poser les bonnes questions dès le départ d’un projet,  quitte à évoluer au fur et à mesure de l’avancement du projet. Il consent par exemple à identifier les risques liés à la gestion des données, assurer la sécurité et la préservation  des données, prévoir les budgets, matériels, logiciels, personnels, etc., identifier les  responsabilités, les rôles de chacun dans la gestion des données, planifier les ressources  et compétences nécessaires à cette gestion, garantir des données fiables et bien gérées,  compréhensibles, disponibles et préservées sur le long terme pour une réutilisation future (démarche FAIR) [10] ou encore répondre aux exigences d’un financeur.  

Pour les financeurs, l’intérêt est la réutilisabilité des données (retour sur investissement,  ne pas dupliquer inutilement l’effort financier). Pour les organismes de recherche, c’est la  reproductibilité de la recherche qui prime avant toute chose. Pour les chercheurs, il est  fondamental de procéder à une bonne gestion des données au cours d’un projet, et ce  pour diminuer les risques, réduire les coûts, augmenter l’efficacité avec la valorisation du  travail et permettre les demandes de financement.  

Le DMP est un phénomène mondial incontournable qui est de plus en plus recommandé ou exigé, partout dans le monde. La soumission des DMP dépend des : 

  • exigences de la Commission européenne (Modèles Horizon 2020, ERC)
  • déploiements d’outils et infrastructures d’ampleur européenne en lien avec la gestion  et le partage des données de la recherche (l’entrepôt Zenodo, l’infrastructure  OpenAIRE …)  

À l’échelle nationale, l’État français a instauré une politique avec le Plan national pour la  science. L’ANR a rendu le DMP obligatoire depuis 2019. Au niveau des organismes, il a  été mis en place des trames de DMP institutionnelles (CIRAD, INRA, Institut Pasteur, Irstea,  Universités…), des politiques d’établissements (INRA…) ainsi que des recommandations  intentionnelles (intégrées dans les DMP OPIDoR [11]).  

L’objectif principal est de « garantir des données fiables et bien gérées tout au long d’un  projet, compréhensibles, disponibles et préservées sur le long terme pour une réutilisation  future [12]».  

D’après une conférence donnée à Amsterdam en 2016 sur la science ouverte, « la gestion  et le partage des données doivent devenir l’approche par défaut pour les recherches  financées par le secteur public. » (Amsterdam Call for Action on Open Science, 2016). 

Comment rédiger un DMP dans les règles de l’art ?  

Sa rédaction commence dès le début du projet ! D’ailleurs, il peut être demandé dès la  soumission du projet. D’après Inist-CNRS [13], pour bien rédiger un DMP, il faut :  

  • prévoir 3 versions au minimum (3 versions successives demandées pour H2020  par exemple): au début du projet, au milieu du projet et à la fin du projet 
  • désigner nominativement les personnes responsables de la gestion des  données pour toutes les étapes du projet : saisie des données, production des  métadonnées, contrôle de la qualité des données, stockage, partage et archivage  des données 
  • évaluer les ressources nécessaires (budget, temps alloué, personnels)  permettant la mise en œuvre des actions décrites dans le DMP : temps nécessaire  à la préparation des données pour le stockage, le partage et l’archivage des  données, coûts de matériel, rémunération des personnels, frais de stockage  (serveurs dédiés, traitement, maintenance, sécurité, accès…), partage (site web,  publication…) et d’archivage des données.  

Son contenu informationnel peut varier en fonction du modèle de plan, qu’il soit imposé par  un tiers ou choisi. Selon Science Europe [14], les rubriques doivent préciser les aspects  suivants [15]:

  • Contexte : La nature et le contexte du projet de recherche 
  • Description : Le type de données de recherche collectées et produites 
  • Documentation et qualité : Les formats, métadonnées et standards utilisés 
  • Quelles métadonnées et quelle documentation (méthodologie de collecte et mode d’organisation des données) accompagneront les données ? 
  • Quelles mesures de contrôle de la qualité des données seront mises en œuvre ? 
  • Stockage et sauvegarde : Les informations sur le stockage, la sauvegarde et la  sécurisation des données  

Exigences légales et éthiques : Les questions éthiques, juridiques et déontologiques  (code de conduite) qui se posent :

  • Si des données à caractère personnel sont traitées, comment le respect des  dispositions de la législation sur les données à caractère personnel et sur la sécurité  des données sera-t-il assuré ? 
  • Comment les autres questions juridiques, comme la titularité ou les droits de  propriété intellectuelle sur les données, seront-elles abordées ? 
  • Partage et conservation à long terme : L’accès, le partage, la réutilisation des données,  ainsi que l’archivage et le dépôt utilisé 
  • Comment les données à conserver seront-elles sélectionnées et où seront-elles  préservées sur le long terme (un entrepôt de données ou une archive) ?  o Comment l’application d’un identifiant unique et pérenne (DOI) sera réalisée pour chaque jeu de données ? 
  • Responsabilités de gestion et ressources : Les rôles et responsabilités des différentes  parties prenantes à la gestion des données 
  • Qui sera responsable de la gestion des données? 
  • Quelles seront les ressources dédiées à la gestion des données permettant de  s’assurer que les données soient FAIR? 

Dans le contexte des appels à projet, il peut être demandé d’expliciter plus spécifiquement  comment les principes FAIR sont pris en compte et appliqués. 

Un focus sur les modèles de DMP du FNS et H2020… 

Exigences du modèle FNS  

Depuis 2017, il est obligatoire d’inclure un DMP avec chaque requête. Le FNS met à  disposition un modèle de DMP dans le compte de chaque chercheur sur MyFNS [16]. En  contrepartie, le FNS demande aux chercheurs qu’il finance d’archiver les données de  recherche sur lesquelles ils ont travaillé et qu’ils ont produites durant leurs travaux, de  partager ces données avec d’autres chercheurs et enfin de déposer leurs données dans  des archives (dépôts) publiques existantes, dans des formats accessibles et réutilisables  sans restriction par tous, et répondant aux principes FAIR.  

Le FNS considère le partage des données de recherche « comme une contribution  fondamentale à l’impact, à la transparence et à la reproductibilité de la recherche  scientifique. Les bénéficiaires de subventions doivent donc s’assurer que les données  générées par leur projet soient accessibles au public dans des dépôts de données non  commerciaux et respectant les exigences FAIR. »  

Pour aider à la rédaction d’un DMP pour le FNS, le centre de compétences suisse en  sciences sociales a élaboré un guide intitulé : How to draft a DMP from the perspective of  the social sciences, using the SNSF template – june 2019 [17].  

Exigences du modèle H2020  

Depuis 2017, tout projet de recherche financé par Horizon 2020 fait partie par défaut de  l’Open Research Data Pilot (ORDP). Ce projet a pour but d’ouvrir les données de  recherche tout en protégeant les données sensibles d’accès inappropriés.  La rédaction d’un DMP est obligatoire et les chercheurs doivent décrire dans les grandes lignes leur politique de gestion des données en répondant aux questions suivantes :  

  • Comment les données seront-elles gérées, pendant et après le projet ?
  • Quelles données seront collectées, traitées ou générées ? 
  • Quels méthodologies et standards seront appliqués ? 
  • Les données seront-elles partagées/rendues accessibles et comment ?
  • Comment les données seront-elles archivées, conservées et préservées ?  

Guides pour la rédaction de DMP dans Horizon 2020 :  

Modèles de DMP en français et en anglais (docx et PDF)  

Guidelines on Data Management in Horizon 2020. Version 3.0 (Union européenne,  26.07.2016)  

Réaliser un plan de gestion des données « FAIR » : guide de rédaction [V2,  2018] (A.CARTIER, R.DELEMONTEZ, M.MOYSAN, N.REYMONET, 2018)  

Quelles recommandations et quels outils à disposition pour rédiger un DMP ?  

Quel que soit l’organisme de financement d’un DMP, il existe des recommandations  générales pour concevoir un bon DMP. Sur le site de Doranum, il est notamment conseillé  de consulter des exemples de DMP, de suivre les conseils des sites de référence et d’opter  pour un modèle (nombreux modèles des financeurs et/ou organismes). Cette pratique oblige  à respecter les usages de sa communauté. Par ailleurs, il est vivement recommandé de  s’autoévaluer avant l’évaluation externe, de partager ses données (avec des collaborateurs  identifiés aux droits définis copropriétaire/éditeur/lecteur, toutes personnes de son organisme ou avec tout le monde) et de publier son DMP. Pour cette dernière étape, vous  pouvez utiliser un outil online comme…  

DMP-OPIDOR (France, INIST-CNRS, en français, recommandé par  

l’ANR et par l’IRD)  

DMP Online (UK, DCC-Digital Curation Centre, en anglais)  DMP-Tool (US-University of California, en anglais)  

Plusieurs outils sont disponibles pour aider à rédiger DMP, avec des propositions de trames  prédéfinies. Il peut s’agir soit de simples fichiers Word ou Excel contenant les différents  champs souhaités, ou bien d’applications en ligne ouvertes à la communauté de recherche.  En France, l’outil le plus répandu est Opidor : développé par le CNRS, il propose plusieurs  trames de plans de gestion de données ou de logiciels, et offre une possibilité de personnalisation aux établissements de recherche français. Certains établissements de  l’Université Paris-Saclay (CEA, INRA) proposent des plans de gestion de données  accessibles via les pages de vos services de documentation.  

Conclusion  

Établir un DMP et partager ses données est une action qui permet d’accroître l’efficience  de la recherche tout en facilitant l’accès et l’analyse. Il est essentiel d’assurer la continuité  et la reproductibilité de la recherche pour protéger l’intégrité de la recherche elle-même.  Cela réduit notablement le risque de perte de données et le gaspillage des ressources. Cette  politique accompagne l’évolution actuelle de la publication scientifique, répond aux  conditions de financement des projets et atteste la responsabilité scientifique.  

La Commission européenne a généralisé le DMP pour tous les projets du programme  Horizon 2020. Il en est de même pour les projets ANR (Agence Nationale de la Recherche)  depuis 2019. Le DMP est un élément clé pour produire des données FAIR dans le cadre  de la gouvernance des données. Il s’agit d’un document qui décrit comment sont ou seront  obtenues, traitées, organisées, stockées, sécurisées, préservées, et partagées les données  produites au cours et à l’issue d’un projet de recherche. Ce document synthétique aide à  organiser et anticiper la mise en place de bonnes pratiques de gestion à toutes les étapes  du cycle de vie des données. Il explique pour chaque jeu de données comment seront  gérées les données d’un projet, depuis leur création ou collecte jusqu’à leur partage et leur  archivage.  

Des exemples de plans de gestions de données publics sont consultables à partir de la page d’accueil de ces outils (Rubriques DMP Publics/Public DMPs et Aide), ou publiés dans des  journaux comme Research Ideas and Outcomes (RIO).  

Pour en savoir plus :  

  • une présentation des PGD
  • un mode d’emploi de DMP-Opidor  Féret, R., Bracco, L., Cheviron, S., Lehoux, E., Arènes, C., & Li, L. (2020, Avril). Améliorer  les chances de succès de son projet ANR grâce à la Science Ouverte. Zenodo.  https://dx.doi.org/10.5281/zenodo.3741666 
  • un jeu pour apprendre à gérer ses données sans douleur : GopenDoRe  les pages DMP de l’INRA (Datapartage), du Cirad (CoopIST) et de DoRANum (Données de  la Recherche : Apprentissage NUMérique à la gestion et au partage)

Sources :  

[1] Wilkinson, M. D., Dumontier, M., Aalbersberg, Ij. J., Appleton, G., Axton, M., Baak, A., Blomberg, N., Boiten, J.-W., da Silva Santos, L. B., Bourne, P. E., Bouwman, J., Brookes, A. J., Clark, T., Crosas, M., Dillo, I., Dumon, O., Edmunds, S., Evelo, C. T., Finkers, R., … Mons, B. (2016). The FAIR Guiding Principles for scientific data management and stewardship. Scientific Data, 3(1), 160018. https://doi.org/10.1038/sdata.2016.18

[2] FAIRification Process. (s. d.). GO FAIR. Consulté 10 mars 2021, à l’adresse https://www.go-fair.org/fair-principles/fairification-process/

[3] Plan de gestion des données : Fiche synthétique – DoRANum. (s. d.). https://doranum.fr/plan-gestion-donnees-dmp/fiche-synthetique/

[4] Data Management Plan (DMP). (s. d.). Consulté 10 mars 2021, à l’adresse https://www.unil.ch/openscience/fr/home/menuinst/open-research-data/gerer-les-donnees-de-recherche-research-data-management/data-management-plan-dmp.html

[5] Fonds national suisse de la recherche scientifique.

[6] Hébergement de données hors recherche. (s. d.). Consulté 10 mars 2021, à l’adresse https://www.unil.ch/ci/fr/home/menuinst/catalogue-de-services/stockage-et-serveur/hebergement-de-donnees-hors-recherche.html

[7] Division calcul et soutien à la recherche—DCSR. (s. d.). Consulté 10 mars 2021, à l’adresse https://www.unil.ch/ci/fr/home/menuinst/calcul–soutien-recherche.html

[8] Agence Nationale pour la Recherche

[9] Service, U. D. (s. d.). Research data management. UK Data Service. Consulté 10 mars 2021, à l’adresse https://ukdataservice.ac.uk/learning-hub/research-data-management/

[10] Modèles de DMP, 10 mars 2021, DMP OPIDoR, site web: https://dmp.opidor.fr/

[11] IST IRD – Service IST de l’Institut de Recherche pour le Développement. (14:56:35 UTC). Gerer ses données avec un Plan de Gestion de Donnees (PGD/DMP). 20/09/18 https://fr.slideshare.net/IST_IRD/grer-ses-donnes-avec-un-plan-de-gestion-de-donnes-pgddmp

[12] Tutoriel sur l’outil de rédaction DMP OPIDoR – DoRANum. (s. d.). https://doranum.fr/tutoriel-sur%20loutil-de-redaction-dmp-opidor/

[13] https://www.scienceeurope.org/

[14] Guide pratique pour une harmonisation internationale de la gestion des données de recherche. (s. d.). https://www.ouvrirlascience.fr/guide-pratique-pour-une-harmonisation-internationale-de-la-gestion-des-donnees-de-recherche

[15] MySNF. (s. d.). Consulté 10 mars 2021, à l’adresse https://www.mysnf.ch/login.aspx?language=fr

[16] Data Management Plan – content of the mySNF form, 10 mars 2021, FN-SNF:  https://www.unil.ch/openscience/files/live/sites/openscience/files/Donnees_de_recherche/Files/DMP_content _mySNF_form_en.pdf 

[17] What is the EC Open Research Data Pilot?, 10 mars 2021, Openaire, site web: https://www.openaire.eu/what-is-the-open-research-data-pilot