Data paper, un type de publication de données scientifiques en accord avec les principes FAIR

Les données font partie intégrante d’une publication scientifique, pourtant le travail de fond conséquent effectué en amont pour leur obtention et leur exploitation n’est pas systématiquement valorisé – selon les disciplines et les politiques éditoriales des revues – dans un article classique.

Un nouveau type de publication, le data paper, est en plein essor depuis ces dernières années et répond à cet enjeu. Il bouleverse les codes de l’article standard, bien que formalisé dans la forme, son objectif premier n’est pas de tirer des conclusions basées sur l’analyse de données mais bien de décrire de façon exhaustive ces données. A savoir les processus de collecte, de traitement et de production des données. L’intérêt de publier dans un data paper est multiple. Le premier objectif est d’être un vecteur de reproductibilité et de transparence pour la science. De là découle naturellement une valorisation des données et de son ou ses créateurs en raison de l’augmentation de leur visibilité respective. En effet le data paper est une publication citable et repérable facilement car intégrée directement dans des revues classiques ou dans des data journals, revues spécialisées dans ce type de publication. La réutilisation facilitée des données présentées dans l’article concourt à l’objectif des principes FAIR, à savoir une ouverture des données de la recherche.

Qu’est-ce qu’un data paper ?

Il s’agit d’une publication évaluée par les pairs ^[1]. Quant à son contenu, on trouvera des descriptions faites via des métadonnées sur des jeux de données issus de la recherche scientifique. Ayant été soumis à un processus de révision par un comité de lecture, le data paper est aussi un moyen d’assurer la qualité des données de recherche. De plus on communique l’existence de ces données à la communauté scientifique et par ce biais une reconnaissance des auteurs ^[2]via lien de paternité des données est faite. Ces données sont structurées et lisibles par un humain.

Où est-il publié ?

Dans des data journals, revues qui dédient la totalité de leurs publications à ces data papers ou bien dans une revue classique les publiant également. Ceux-ci sont évalués par le comité de lecture de la revue les hébergeant.

D’après DoRANum (Données de la Recherche : Apprentissage Numérique), les principaux critères d’évaluation ^[3] sont : l’importance et l’originalité des données, leur potentielle valeur de réutilisation, la qualité et la fiabilité des données, l’accès aux données, la qualité et rigueur de la méthode de collecte des données, le choix des métadonnées descriptives et formats et le respect des normes classiques de rédaction.

Quelles sont les similarités et différences observées avec un article classique ?

Il adopte une structure standardisée ^[4] totalement ou partiellement, avec des sections obligatoires dans ce dernier cas de figure, imposée par la revue. Le data paper contient des métadonnées sur les jeux de données ainsi que sur le data paper en lui-même. Des identifiants normalisés sont à joindre dans la publication, comme le DOI (Digital Object Identifier) ou moins fréquemment, ORCID (Open Researcher and Contributor ID).

Trois sections sont systématiquement présentes : une introduction, une description des données et la méthodologie avec l’équipement nécessaire pour la production des données.

La section description des données peut contenir les informations suivantes : le type de données, la couverture géographique et temporelle, les conditions d’accès et de réutilisation, la taxonomie, l’intérêt du jeu de données ainsi que les méthodes utilisées pour garantir un contrôle qualité.

D’autres sections optionnelles et communes avec un article classique sont possibles comme les résultats/ discussion, la conclusion et les annexes.

D’autres sont spécifiques au data paper et facultatives comme la réutilisation potentielle des données par d’autres chercheurs ou d’autres publics, leur accessibilité et leur disponibilité (lien vers l’entrepôt de données, les droits et restrictions) et leur valeur et validation (au sens de la qualité de contrôle selon le type d’évaluation utilisé).

Son but diffère des articles standards, il n’a pas une fonction de compte-rendu et ne sert pas non plus à prouver ou à réfuter des hypothèses formulées. Les articles classiques se focalisent sur les résultats obtenus et dans ce contexte, les données servent d’appui de preuve de ces recherches. Par opposition les data papers informent et redirigent vers les données décrites, stockées dans des entrepôts prévus à cet effet.

Le data paper a donc un rôle descriptif et prend en compte l’environnement de production des jeux de données à savoir les conditions et le contexte de leur collecte ainsi que leur utilité potentielle. Il améliore la visibilité ainsi que la réutilisation et donc l’accessibilité des jeux de données avec l’ajout de métadonnées supplémentaires.

En effet, il faudra distinguer les métadonnées du data paper en lui-même qui décrivent des informations générales (auteur, organisation…) de celles décrivant les jeux de données (contenu des données).

Il faudra cependant nuancer cette différence de traitement des données avec le fait que la structure d’un data paper pouvant varier énormément d’une revue à une autre, la frontière distinctive en matière de contenu qui différencie un article classique d’un data paper peut s’avérer ambiguë. Les data papers deviennent eux-mêmes des sources de connaissances et de données.

Le rôle du data paper dans l’ouverture des données

Le but premier des principes FAIR ^[5]est d’améliorer la réutilisation des données de la recherche. Le data paper y répond en partie en permettant une meilleure interprétation des données de recherche par machine ainsi qu’un transfert plus performant de ces données.

Faciles à trouver :

Les métadonnées déjà présentes dans les jeux de données (exemple de Nakala où il est possible d’ajouter des métadonnées suivant le standard Dublin Core) sont enrichies avec les métadonnées de description du data paper (suivant éventuellement des formats standards, selon le cadre imposé par la revue de la publication).
Les métadonnées et données du data paper sont répertoriées, indexées et conservées sur la plateforme du data journal.

Accessibles :

Les métadonnées sont accessibles même si les données associées ne le sont plus. Bien qu’un lien soit établi entre métadonnées et jeux de données, les métadonnées du data paper n’ont pas besoin des jeux de données pour exister à elles seules.
Cette conservation pérenne des métadonnées est important car celles-ci continuent d’avoir une valeur informative par exemple pour montrer l’existence d’une production de données déjà faite, pour contacter les personnes ayant participé à la création des données si celles-ci ou encore pour trouver d’autres ressources si celles-ci sont indiquées dans ces métadonnées.

Interopérables:

Les métadonnées et les données utilisent un langage formel, accessible, partagé et largement applicable pour une représentation des connaissances compréhensible par la communauté.
Les métadonnées et données font référence à d’autres métadonnées et données comme des liens vers d’autres ressources associées comme des publications de recherche, d’autres jeux de données…

Réutilisables :

Les métadonnées et données sont mises à disposition avec une licence explicitant les droits de réutilisation.
La réutilisation est généralement facilitée par les data journals qui autorisent pour la plupart du temps la publication de ces articles avec une licence libre (type CC-Zero et CC-By, c’est-à-dire respectivement sans et avec attribution de l’auteur avec comme unique contrainte de réutilisation)
Les métadonnées et données sont fournies avec leur source de production détaillée : d’où elles viennent, qui citer, qui a généré ou collecté les données et comment celles-ci ont été exploitées.

L’URL de l’entrepôt où sont stockées les données présentées peut être placée dans une section dédiée à cet effet, dans une annexe, dans l’abstract ou bien encore dans les métadonnées. Certains data papers contiennent les données jointes en téléchargement directement dans le document.

Ci-dessous, l’exemple d’un data paper paru dans la revue en libre accès Scientific Data ^[6].

Dapa paper Scientific Data — (c) www.nature.com

Dans la section Data Records, une référence contenant un lien pérenne DOI vers l’entrepôt de données contenant les jeux de données présentés est joint.

Les métadonnées en tant qu’informations précises servant de descripteurs des jeux de données sont le noyau des data papers, autant pour la publication en elle-même que pour les données qu’elle explicite. C’est pour cette raison que celles-ci doivent adopter une standardisation avec l’attribution d’un PID (Persistent Identifier). Le DOI est un type de PID utilisé par des entrepôts de données (ex : Zenodo) pour faciliter la localisation, l’identification et la citation des données par la création d’un lien hypertexte unique et pérenne associé à un jeu de données.

Les data journals imposent l’utilisation d’identifiants standards pour les jeux de données (d’où l’importance du choix de l’entrepôt de données qui se charge de l’attribution de cet identifiant). Les métadonnées du data paper qui associées aux données doivent ainsi contenir le PID des données qu’elles complètent. L’attribution de ces identifiants aux data papers permet d’une part de créer un lien encore data papers et jeux de données et d’autre part de garantir l’accessibilité aux jeux de données.

En complément à sa valorisation des données par l’enrichissement de celles-ci via des métadonnées les explicitant, le data paper doit les rendre accessibles soit directement annexées dans la publication soit via un lien pérenne vers un entrepôt de données. Ce document permet soit de montrer la disponibilité du jeu de données ou de conserver la trace de la production des données décrites dans le cas où elles n’existeraient plus. L’auteur du data paper a un rôle d’argumentaire justifiant l’originalité et la portée du jeu de données pour inviter ses confrères à la réutilisation de ces données. Le data paper incluant les processus de collecte, de traitement et de production des données sert à valider la qualité des données, confortant la réutilisation potentielle par d’autres scientifiques. Ceci s’inscrit donc dans la démarche entreprise par la science ouverte, d’étendre les données de la recherche à la communauté scientifique et plus globalement au public.

Notes :

[1] Pasteur, C.-I. (2019, novembre 25). Data papers : An emerging form of publication which contributes to the compliance with FAIR principles. Open science : évolutions, enjeux et pratiques. https://openscience.pasteur.fr/2019/11/25/data-papers-an-emerging-form-of-publication-which-contributes-to-the-compliance-with-fair-principles/

[2]Data papers et data journals – DoRANum. (s. d.). Consulté 17 mars 2021, à l’adresse https://doranum.fr/data-paper-data-journal/

[3] Les critères d’évaluation des data papers – DoRANum. (s. d.). Consulté 19 mai 2021, à l’adresse https://doranum.fr/data-paper-data-journal/criteres-evaluation-data-papers/

[4] Schöpfel et al. – 2019—Data Papers as a New Form of Knowledge Organizatio.pdf. (s. d.).Schöpfel, J., Farace, D., Prost, H., & Zane, A. (2019). Data Papers as a New Form of Knowledge Organization in the Field of Research Data. KNOWLEDGE ORGANIZATION, 46(8), 622‑638. https://doi.org/10.5771/0943-7444-2019-8-622

[5] Les principes FAIR – DoRANum. (s. d.). Consulté 16 mars 2021, à l’adresse https://doranum.fr/enjeux-benefices/principes-fair/

[6] Hintz, F., Dijkhuis, M., van ‘t Hoff, V., McQueen, J. M., & Meyer, A. S. (2020). A behavioural dataset for studying individual differences in language skills. Scientific Data, 7(1), 429. https://doi.org/10.1038/s41597-020-00758-x