Comment “FAIR” de la réutilisation des données un des piliers de la recherche scientifique : publier, déposer, partager

networking
(c) publicdomainpictures.net

Data paper, data journal, matériel supplémentaire, entrepôt de données … Si les années 90 et l’essor d’Internet ont vu naître et se développer différentes initiatives et programmes politiques autour du libre accès et des principes FAIRs, les solutions d’ouverture des données de la recherche se sont mises en place petit à petit pour aboutir à une liste de possibilités offertes aux chercheurs.

Mais comment ne pas se perdre dans ce labyrinthe du partage des données de la recherche ? Et pourquoi, finalement, “prendre le temps” de les rendre publiques ? Nous tenterons de nous frayer un chemin dans le dédale de la publication et du partage des données de la recherche en prenant pour modèle la Data Publication Pyramid, et plus précisément les deuxième, troisième et quatrième niveaux …

OPEN RESEARCH DATA : UN OBJECTIF, CINQ ENJEUX !

       “L’ouverture des données de la recherche (open research data) a pour objectif la diffusion libre, gratuite et universelle, via internet, des données d’origine publique ou privée. Le terme ouvert est défini comme la liberté d’utiliser, de modifier et de redistribuer librement les données[1]. L’open data considère la science comme un bien commun dont la diffusion est d’intérêt public et général. Ce mouvement s’inscrit donc dans l’Open science [2] et l’Open knowledge [3].

 Selon Laurence Dedieu et Marie-Françoise Fily, l’ouverture des données de la recherche répond à cinq enjeux majeurs [4] :

  • accélérer les découvertes scientifiques, les innovations et le retour sur investissement en recherche et développement ;
  • encourager la collaboration scientifique et les possibilités de recherche interdisciplinaire ;
  • éviter la duplication des expériences, favoriser la réutilisation des données et minimiser le risque de perte des données ;
  • assurer l’intégrité et la reproductibilité de la recherche (meilleure qualité des résultats, transparence des méthodologies) ;
  • accéder librement à une masse de données ouvrant de nouveaux champs d’analyse non envisagés par le producteur des données (gain de temps et de ressources).

Nous comprenons bien là l’importance de rendre publiques les données de la recherche.

VOUS AVEZ DIS RESEARCH DATA, DATA SET, DATABASE ? AVANT TOUTE CHOSE, DE QUOI PARLONS-NOUS ?

 Afin de mieux appréhender notre propos, arrêtons-nous quelques instants sur quelques définitions…

 Selon l’OCDE [5], les données scientifiques sont « des enregistrements factuels (chiffres, textes, images et sons), qui sont utilisés comme sources principales pour la recherche scientifique et sont généralement reconnus par la communauté scientifique comme nécessaires pour valider des résultats de recherche. Un ensemble de données de recherche constitue une représentation systématique et partielle du sujet faisant l’objet de la recherche. Ce terme ne s’applique pas aux éléments suivants : carnets de laboratoire, analyses préliminaires et projets de documents scientifiques, programmes de travaux futurs, examens par les pairs, communications personnelles avec des collègues et objets matériels (par exemple, les échantillons de laboratoire, les souches bactériennes et les animaux de laboratoire tels que les souris). »

Le Digital Curation Center et l’Australian National Data Service apportent des définitions complémentaires. Pour le premier, une donnée est « une représentation réinterprétable de l’information dans une manière formalisée et adaptée à la communication, l’interprétation, ou le traitement » [6]. Pour le second, “fournir une définition faisant autorité des données de recherche est difficile, car toute définition est susceptible de dépendre du contexte dans lequel la question est posée ». [7]

Mais tous définissent les données de la recherche comme l’ensemble des informations collectées, observées ou créées sous une forme numérique dans le cadre d’un projet de recherche.

Les données de la recherche peuvent se regrouper de la façon suivante [8] :

  • Les données d’observation : il s’agit là de données “capturées” en temps réel, habituellement uniques et donc impossibles à reproduire ;
  • Les données expérimentales : autrement dit les données obtenues à partir d’équipements de laboratoire, qui sont souvent reproductibles mais parfois coûteuses ;
  • Les données computationnelles ou de simulation : ce sont les données générées par des modèles informatiques ou de simulation, souvent reproductibles si le modèle est correctement documenté ;
  • Les données dérivées ou compilées : par définition les données issues du traitement ou de la combinaison de données « brutes », elles sont souvent reproductibles mais coûteuses ;
  • Les données de référence : elles se présentent sous forme de collections ou d’accumulations de petits jeux de données qui ont été revus par les pairs, annotés et mis à disposition.

             Le jeu de données, “dataset”, rassemble les données brutes ou dérivées en un ensemble cohérent. Ces informations sont généralement numériques, textuelles, sonores et/ ou picturales. L’action de les rassembler permet leur recherche, leur récupération et leur réorganisation. Il peut être également défini comme une collection d’éléments connexes de données associées entre elles et accessibles individuellement ou de façon combinée, ou gérées comme une entité. Les jeux de données numériques sont formatés. Ils sont alors communicables, interprétables et adaptés à un traitement informatisé. Le jeu de données vient étayer les résultats d’une recherche publiés dans une revue. Il sera alors soit cité, soit déposé, soit cité et déposé.

             Une base de données numérique (database) est un ensemble structuré et organisé permettant le stockage de grandes quantités d’informations afin d’en faciliter l’exploitation (ajout, mise à jour, recherche de données). D’où l’importance d’accompagner le jeu de données de métadonnées descriptives. 

RENDRE PUBLIC UN JEU DE DONNÉES : PUBLIER, DÉPOSER, PUBLIER ET DÉPOSER

            En tant qu’organisme de financement de la recherche, l’Union européenne détermine, à ce titre, les règles d’accès et de diffusion de l’information scientifique issue de ses fonds. Le Programme-cadre pour la recherche et le développement technologique (PCRD), appelé Horizon 2020, se caractérise par un Open Research Data Pilot des données générées au cours de recherches financées par Horizon 2020. L’objectif étant de promouvoir l’ouverture et la réutilisation des données et des métadonnées associées. Le 11 décembre 2020, le budget d’un montant de 95,5 milliards d’euros a été voté par l’Union européenne, lançant ainsi le programme Horizon Europe [9] consacré au financement de la recherche et de l’innovation jusqu’en 2027. Ce dernier s’inscrit dans la continuité du programme Horizon 2020 en mettant l’accent sur la science ouverte et l’accès aux résultats et aux données des recherches. Il se structure autour de trois piliers : Pilier I, Excellence science, Pilier II, Défis mondiaux et compétitivité industrielle européenne et Pilier III, Europe innovante. Ces piliers s’organisent autour de politiques et stratégies diverses.