Le partage des données de la recherche dans la pratique

Le chercheur n’en a pas toujours conscience mais, au cours de ses projets de recherches, il va produire une très grande quantité de données. Si ces données se révèlent être d’une importance capitale tant pour la validation des résultats, que pour leur réutilisation dans de futurs projets de recherche, il est intéressant de se pencher sur la question de la pratique du partage des données par les chercheurs. Y’a-t-il un décalage entre les bonnes pratiques et la réalité du terrain ? Quels sont les leviers pour encourager le partage ?

Le partage des résultats de la recherche en Open Access semble à présent bien ancré dans le quotidien des chercheurs. Pourtant, il n’en est pas de même pour le partage des données de la recherche qui fait l’objet de politiques publiques plus récentes. A travers un exemple concret nous allons vous faire découvrir ce que peut être un projet de partage de données en open access. Ensuite nous aborderons les pratiques des chercheurs quant au partage des données et enfin nous nous intéressons aux leviers disponibles pour inciter les chercheurs à davantage partager leurs données.

Exemple concret d’un projet de partage de données en open access :

La numérisation du plus important herbier universitaire de France [1]

L’université Lyon 1 dispose de l’un des plus importants herbiers au monde après celui d’Harvard. Cette collection fait actuellement l’objet d’un travail de numérisation.

QUELLES DONNÉES ?

Ce projet illustre bien les formes variées que peuvent revêtir les données de la recherche. Dans le cas présent, il s’agit de la mise en ligne de la collection du prince Roland Bonaparte (1858-1924), qui compte trois millions de plantes séchées provenant du monde entier et qui sont âgées de plus de 250 ans pour les plus anciennes. Les données partagées ici se révèlent être bien différentes de données chiffrées, de textes, ou d’autres données généralement disponibles.

PARTAGER POURQUOI ?
  • Pour valoriser un patrimoine scientifique unique : comme l’explique très simplement la directrice de l’herbier de l’Université Claude Bernard Lyon-1 : « Nous avons l’impression d’héberger des trésors (…) Mais les gens ne connaissent pas cet herbier, ne savent pas où il est, à quoi il sert » [2] .
  • Pour ouvrir au plus grand nombre l’accès à ces données et ainsi favoriser un travail collaboratif, multidisciplinaire, sans barrière entre scientifique ou amateur éclairé, ni même frontière : la science est ouverte notamment grâce aux nouvelles technologies.
DES DONNÉES POUR QUI ?

Pour le grand public : Il s’agit bien d’un projet de partage donc destiné à tous : scientifiques ou non.

Pour des chercheurs dans d’autres domaines de recherche : Au-delà du projet de numérisation, il est intéressant de voir un exemple concret de réutilisation des données de la recherche. Ainsi, cet herbier n’est pas uniquement destiné à la botanique. C’est ainsi que Pierre JOLY, professeur des universités à LYON 1 et qui s’est illustré sur des sujets tels que l’écologie ou la biologie, a réutilisé ces données au cours de ses recherches. En effet, dans un spécimen très ancien, il peut y avoir de l’oxygène encapsulé que les scientifiques peuvent analyser pour en déterminer le climat des siècles passés.

Le partage des données dans la pratique

Aujourd’hui on estime que 90% des données de la recherche ne sont pas réutilisables [3]. Ce même constat est également établi par Hélène Prost et Joachim Schöpfel au cours de leur enquête sur les données de la recherche. Il apparaît que les deux tiers des répondants ne partagent pas leurs données. Les auteurs insistent sur le fait que ceux qui partagent le font principalement “avec les collègues du groupe de travail (équipe scientifique) (34%). Très peu (<5%) ouvrent leurs données davantage et partagent avec l’institution, d’autres chercheurs ou « tout le monde », dans une démarche open data au sens strict du terme.”[4]

Refus de partage ou méconnaissance ?

Dans certains cas il y a une réelle réticence au partage, ainsi lors de l’enquête sur les « données de la recherche en SHS » à l’université Rennes 2 [5], à la question « avez-vous déjà stocké vos données en libre accès sur le web » 30% des chercheurs interrogés répondent « non et je ne le ferai pas » [6].

Il faut dire qu’une majorité des chercheurs se trouvent démunis face à cette pratique. La plupart des chercheurs expriment un désintérêt pour des tâches perçues comme étant administratives et chronophages. C’est aux professionnels de l’information scientifique et technique de former les chercheurs à ces tâches qui sont généralement réalisées par ces derniers sans qu’ils s’en rendent réellement compte. En effet, pour exploiter leurs données ils doivent forcément les documenter, les renommer, les stocker pour les retrouver.

D’ailleurs une majorité de chercheurs reconnaissent un manque de connaissances par rapport à la gestion de leurs données. Il s’agit alors de proposer une montée en compétences des chercheurs en leur présentant les méthodes, les standards, mais aussi les outils qui sont disponibles.

Ce qui permettrait de mettre fin à de mauvaises pratiques pouvant entraîner jusqu’à la disparition totale des données de la recherche.

De mauvaises pratiques de gestion

La bonne gestion des données demande une bonne méthodologie et cela dès le début du projet de recherche. Il est conseillé, voire même imposé dans certains cas, notamment lors de la participation à des projets financées, de procéder à la rédaction du plan de gestion des données (Data Management Plan : DMP) [7]. Le DMP est un document qui décrit la collecte, le traitement, la documentation, le stockage, l’archivage, la conservation et le partage des données pendant et après un projet de recherche. C’est donc un outil qui va permettre au chercheur de planifier le dépôt de ses données et faciliter son travail. Afin de simplifier la rédaction d’un tel document, un outil est disponible depuis novembre 2016 : il s’agit de DMP OPIDoR [8]. Il permet aux chercheurs et à ses collaborateurs de rédiger simplement un DMP, un service d’accompagnement donne des conseils et met à disposition des exemples et propose des modèles adaptés au format institutionnel.

Ensuite, les jeux de données peuvent être déposés dans des entrepôts.  Le choix de l’entrepôt se fait en fonction des recommandations des parties prenantes du projet s’il y en a, sinon le chercheur doit faire un choix en fonction :

  • de la discipline : il existe des entrepôts spécialisés qui sont propres à une institution ou à une discipline, des entrepôts multidisciplinaires ou thématiques
  • des besoins du chercheur : a-t-il besoin d’un entrepôt certifié ou seulement d’un entrepôt de confiance reconnu par la communauté scientifique ? Y’a-t-il une nécessité d’avoir un entrepôt hébergé dans tel ou tel pays ? L’entrepôt permet-il de stocker tous types de données ? En effet, certains n’acceptent que des données liées à des publications (Ex. DRYAD), d’autres acceptent tous les jeux de données (Ex. ZENODO).

Les mauvaises pratiques s’illustrent particulièrement dans le domaine de la conservation des données : Le disque local fait encore aujourd’hui figure de grand favori pour le stockage des données [9].

En ce qui concerne le partage des données en lui-même : plus de 50% des chercheurs déclarent ne pas partager leurs données [10]. Ceux qui franchissent le pas privilégient les e-mails avec des pièces jointes, les échanges via serveurs locaux, les échanges via Dropbox ou Google Drive et enfin via Clés USB. Ces supports ne garantissent pas la pérennité des données.

Manque de formation et non recours aux professionnels de l’IST

Les chercheurs sont très demandeurs de formation par rapport à la gestion et au partage des données. Cependant, le principal obstacle réside souvent dans la mauvaise compréhension du périmètre de la gestion de l’information et dans la méconnaissance du rôle des professionnels de l’IST.

En effet, selon Cherifa Boukacem [11], dans le domaine des sciences exactes, seuls 9% des chercheurs se disent formés à la gestion des données. De plus, il apparaît que c’est généralement grâce à leur mobilité qu’ils ont gagné en compétence (par exemple certains se sont formés à la NASA, ou encore par l’intermédiaire de la Bibliothèque du MIT).

D’autre part, toujours selon Cherifa Boukacem, lorsqu’on les interroge, 52% des chercheurs se disent insuffisamment informés mais seulement une moitié d’entre eux se disent favorables à une aide de la part des professionnels de la gestion de l’information : notamment sur les questions d’archivage. Pour ceux qui se disent non favorable à une aide, le manque d’expertise technique des documentalistes vient généralement au premier plan. Rappelons que le professionnel de l’IST n’intervient pas au moment de la production des données par le scientifique mais intervient seulement après, en partenariat, afin d’en faciliter la conservation. Pourtant il s’agit précisément du rôle des professionnels de l’IST qui ont donc un travail de pédagogie conséquent à mener auprès des chercheurs.

Moyens d’agir : comment inciter les chercheurs à partager ?

Mise en place d’obligations de dépôt :

Les politiques publiques actuelles, tant au niveau national qu’au niveau européen et mondial encouragent l’ouverture des données de la recherche. Elles souhaitent par ces politiques favoriser l’innovation : les institutions y voient la possibilité d’un retour sur investissement notamment pour les TPE ou pour les PME qui disposeront d’un accès libre à certaines données et pourraient les réutiliser. Il est important également de rappeler que l’innovation est un vecteur de croissance et d’emploi. Ainsi, à titre d’exemple la cartographie du génome humain va à la fois permettre de progresser dans le domaine médical, mais surtout a permis de créer par le libre accès à l’information 310 000 emplois [12].

Cet engouement des politiques pour l’open science s’explique également par la volonté de réduire les coûts de la recherche en les mutualisant : il est moins coûteux de réutiliser des données existantes plutôt que de les recréer. N’oublions pas qu’un même jeu de données peut servir à plusieurs disciples. C’est pourquoi des obligations de dépôt ont été mises en place dans le cadre de projets financés. C’est le cas pour les projets financés par l’EU dans le cadre du programme H2020 : les chercheurs doivent obligatoirement déposer leurs données dans un entrepôt.

D’autre part, dans le cadre d’une publication, le dépôt peut être une condition obligatoire afin de garantir l’accès aux données sources. C’est ainsi que de plus en plus de revues demandent un accès aux données pour améliorer les conditions dans lesquelles les comités de lectures valident les articles, c’est le cas par exemple de l’éditeur PLOS ONE.

En résumé

Le partage en Open Access des productions scientifiques dans le but de valoriser les résultats de la recherche est à présent bien assimilé par les chercheurs qui l’ont largement adopté. Cependant, il n’en est pas de même pour le partage des données de la recherche. En effet, l’ouverture des données de la recherche est un mouvement récent qui rend nécessaire pour les chercheurs de repenser en profondeur leurs manières de travailler. Malgré les recommandations encouragent l’ouverture des données, force est de constater qu’il y a une réelle nécessité de clarifier la situation pour ne pas laisser le chercheur seul face à des problématiques de gestion documentaire. C’est pour les professionnels de l’information scientifique l’occasion de se positionner en tant qu’intermédiaire en proposant une assistance aux chercheurs.

NOTES :

[1] Catherine Lagrange. « Lyon numérise l’un des plus grands herbiers universitaires au monde ». Le Parisien.fr, [en ligne] 13/03/2018. Disponible sur : http://www.leparisien.fr/environnement/lyon-numerise-l-un-des-plus-grands-herbiers-universitaires-au-monde-13-03-2018-7605249.php (consulté le 20 avril 2018)

[2] Nord Littoral. « À Lyon, un herbier numérique pour partager la connaissance des plantes ».13/03/2018 [En ligne]. http://www.nordlittoral.fr/75162/article/2018-03-13/lyon-un-herbier-numerique-pour-partager-la-connaissance-des-plantes. (Consulté le 20 avril 2018)

[3] DORANUM. « Zoom sur » [en ligne]. Disponible sur : < http://doranum.fr/ > (Consulté le 21 avril 2018).

[4] Hélène Prost, Joachim Schöpfel. Les données de la recherche en SHS. Une enquête à l’Université de Lille 3. : Rapport final. [Rapport de recherche] Lille 3. 2015. 〈hal-01198379〉

[5] Pour une analyse plus en détail des causes du non partage des données de la recherche en SHS voir dans ce numéro l’article de Constance PIQUE « Les données de la recherche, le dark data des SHS »

[6] Alexandre Serres, Marie-Laure Malingre, Morgane Mignon, Cécile Pierre, Didier Collet. Données de la recherche en SHS. Pratiques, représentations et attentes des chercheurs : une enquête à l’Université Rennes 2 : Rapport.[Rapport de recherche] Université Rennes 2. 2017. 〈hal-01635186〉

[7] Pour plus de détail sur le DMP voir article Sonia SALAMI « LA GESTION DES DONNÉES DE LA RECHERCHE ET LEUR DIFFUSION, QUELS ENJEUX ? »

[8] DMP Opidor signifie : Data management Plan pour une optimisation du partage et de l’interopérabilité des données de la recherche.

[9] Hélène Prost, Joachim Schöpfel. Les données de la recherche en SHS. Une enquête à l’Université de Lille 3. : Rapport final. [Rapport de recherche] Lille 3. 2015. 〈hal-01198379〉

[10] Alexandre Serres, Marie-Laure Malingre, Morgane Mignon, Cécile Pierre, Didier Collet. Données de la recherche en SHS. Pratiques, représentations et attentes des chercheurs : une enquête à l’Université Rennes 2 : Rapport.[Rapport de recherche] Université Rennes 2. 2017. 〈hal-01635186〉

[11] Cherifa Boukacem. Données de la recherche et contexte des pratiques des chercheurs : injonctions, risques, opportunités. 14/11/2017. Journée d’étude intitulée : « Partager les données de la recherche : pour qui, pourquoi, comment ? »

[12]  Commission Européenne. « Communication de la commission au parlement européen, au conseil, au comité économique et social européen » [en ligne]. Disponible sur : http://ec.europa.eu/transparency/regdoc/rep/1/2012/FR/1-2012-401-FR-F1-1.Pdf (Consulté le 20 avril 2018).

Soyez le premier à commenter

Poster un Commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.