Les données de la recherche, le dark data des SHS

Le résultat est sans appel, les Sciences Humaines et Sociales (SHS) sont en retard par rapport aux sciences techniques et médicales (STM) en ce qui concerne l’ouverture des données de la recherche. Pour mieux comprendre les chercheurs en SHS, une enquête a été menée sur leurs pratiques et leurs attentes à l’heure de l’Open Research Data.

Face aux exigences européennes et celles d’autres agences de financement, les établissements de Recherche et les bibliothèques françaises se mobilisent pour participer à l’élaboration de politiques en faveur du partage des données de la recherche.

Entre 2015 et 2016,  Hélène Prost (chercheuse à l’INIST [1] du CNRS), Joachim Schöpfel (maître de conférences en SIC [2] à l’université de Lille 3), Alexandre Serres (maître de conférences en SIC et co-responsable de l’URFIST [3] de Rennes) Marie-Laure Malingre (conservatrice des bibliothèques et co-responsable de l’URFIST de Rennes), Morgane Mignon (ingénieur d’étude), Cécile Pierre (conservatrice des bibliothèques, responsable du département recherche, SCD [4] de Rennes 2) et Didier Collet (Technicien de bibliothèque, Département Recherche, SCD de l’Université Rennes 2) ont réalisé deux projets de recherches au sein des universités de Rennes 2 et Lille 3 pour faire un point sur la gestion de leurs données de recherche et leurs attentes dans le domaine des Sciences Humaines et Sociales (SHS).

AVÈNEMENT DE L’OPEN RESEARCH DATA

Depuis le début des années 2000, l’ouverture des résultats de la recherche est devenu l’objet d’une préoccupation à l’échelle européenne et internationale. A travers la déclaration de l’OCDE [5] en 2003 sur l’accès aux données de la recherche financée par des fonds publics, la Commission Européenne a pour ambition de mettre en place, à l’horizon 2030, une infrastructure collaborative des données de la recherche, garantissant leur accessibilité, leur utilisation, leur réutilisation et leur fiabilité (Gaillard, 2014). Ainsi, pour assurer l’intégrité des jeux de données, l’ensemble des agences de financement public imposent aujourd’hui une politique de gestion des données par le biais notamment du DMP [6] (data Management plans). 

Bien que l’objectif de départ était d’analyser les pratiques des chercheurs en SHS, les deux enquêtes ont permis de mettre en exergue l’insuffisance des infrastructures et les services auprès des universités de Rennes 2 et Lille 3 pour répondre à l’ambition des agences de financements françaises.

« LE MAÎTRE MOT […] C’EST LA DIVERSITÉ »

NATURE DE LA DONNÉE

Qu’elle soit brute (raw data), d’observation, traitée (processed) ou dérivée (derived), la donnée de recherche, « Datasets » en anglais, est un enregistrement factuel qui peut contenir des informations qualitatives ou quantitatives nécessaires à la validation des résultats d’un projet de recherche. Tout comme la publication scientifique, les données appartiennent à des produits de la recherche. Pour illustrer cette définition, les deux enquêtes nous donnent un aperçu des données manipulées dans le domaine des SHS.

Tout d’abord, les chercheurs collectent ou créent des données très diverses telles que les données sources avec un trio de tête : les données personnelles, très largement cités (72 % des répondants à Rennes et 64 % à Lille), les données d’enquêtes (53 % des répondants à Rennes et 47 % à Lille) puis les données observations (43 % contre 41 % à Lille) (figure 1).

Pour les données dites de résultats, les données textuelles occupent le premier rang avec 71 % pour Rennes et 75 % pour Lille. Le rapport sur l’enquête de l’Université de Lille révèle également que les chercheurs ont parfois des difficultés à délimiter la frontière entre les sources utilisées et les données produites. 

Ainsi, quelles que soient les disciplines concernées, de multiples types de données sont manipulées au quotidien dans les laboratoires. Pour autant la définition donnée par l’OCDE reste encore ambigüe aux yeux des chercheurs, qui sont pourtant les principaux producteurs de la donnée de la recherche. 

PRATIQUES DE STOCKAGE ET D’ARCHIVAGE

La diversité des données pose un certain nombre de problématiques.

Les deux enquêtes ont mis en évidence des difficultés sur le plan de la conservation des données :

  • Nécessité d’avoir des espaces de stockage plus important. L’émergence des humanités numériques accroît les besoins de stockage. De plus, le besoin d’espace de stockage entre les enseignants-chercheurs est différent. Puisque certains réclament plus d’espace, cela suppose la mise en place d’un service personnalisé de stockage adapté aux besoins de chacun. Or, ce n’est pas la politique mise en œuvre actuellement au sein des deux universités.
  • Le papier n’a pas disparu. Outre le contraste volumétrique entre les disciplines, toutes les données ne sont pas numériques parce que le support papier n’a pas totalement disparu dans les pratiques. Cela suppose que l’accès libre à l’ensemble des données n’est pas possible pour l’intégralité des données.
  • L’utilisation de nombreux logiciels et de formats de données propriétaires soulèvent des problèmes liés à l’archivage à long terme.
  • Un stockage principalement local et individuel. Les sauvegardes donnent l’impression d’une pratique personnelle, privée plus souvent que professionnelle avec les moyens du bord (disque dur, clé USB) mais avec un certain souci de sécurité (stockage à plusieurs endroits et sur plusieurs supports, sauvegardes plus ou moins régulières) [extrait d’enquête de Lille 3]. En effet, le stockage en local sur ordinateur privée ou professionnel est le mode de sauvegarde le plus fréquent. Parmi les participants, rares sont ceux qui mentionnent un stockage sur le web (dans le Cloud). De même que les personnes interrogées mentionnent très majoritairement l’utilisation de disques durs externe et de clés USB. Le problème soulevé ici est le risque de perte et le faible niveau de sécurité des données contrairement au stockage institutionnel et en réseau. Pour autant, le recours au stockage sur le Cloud institutionnel (27 % pour Rennes 2 et 40 % pour Lille 3) semble progressivement se développer d’après l’enquête sur l’Université de Rennes 2.
  • Les fréquences de sauvegardes sont chronophages. Comme nous montre la figure 2, les sauvegardes sont faites de manière régulière mais variable selon les personnes interrogées. Globalement, l’enquête révèle une absence de politique en terme de conservation des documents sauf dans le cas de données considérées comme lourdes.

« L’ARCHIVAGE DES DONNÉES SEMBLE ENCORE INEXISTANT »

PRATIQUES DE PARTAGE ET DE DIFFUSION

Selon Jane H. Smith (2013), les chercheurs ne savent tout simplement pas comment partager leurs données. En SHS, les chercheurs ont tendance à se regrouper en équipe, par incitation ou par choix, que ce soit au sein de leur unité de recherche ou dans le cadre de projets de recherche, pour autant les deux enquêtes nous montrent que leurs données sont encore largement inaccessibles et réservées. Comme le montre la figure 3, la majorité ne partage pas ses données avec d’autres (54 % des répondants à Rennes, 64 % à Lille). Et ceux qui le font, partagent d’abord et surtout avec les collègues du groupe de travail (équipe scientifique) (42 % des répondants à Rennes et 34 % à Lille). Les enquêtes relèvent que les chercheurs ayant déjà déposé leurs données de recherche en libre accès sur le web sont une minorité (16 % à Lille), que seul la moitié d’entre eux ont déjà téléchargé les données ou donné l’accès d’autres chercheurs.


Par ailleurs, il y a des différences constatées au niveau des pratiques entre les deux universités. Les enseignants-chercheurs de l’Université de Lille 3 sont nombreux à déclarer ne pas se sentir prêts pour déposer l’ensemble de leurs résultats, ce qui n’est pas le cas pour les chercheurs de l’Université de Rennes 2 qui seraient plutôt d’accord pour diffuser leurs données de recherche en libre accès. Ce positionnement est nuancé par différentes interrogations (l’idée d’un mouvement jugé irréversible, des interrogations quant aux modalités du partage et des réserves face à l’idée du « tout-partagé »).

Pour autant, l’ensemble des chercheurs s’accorde à dire que les aspects juridiques liés à la nature de leurs données, le manque de temps et la crainte de plagiat les freineraient. L’enquête menée à l’Université de Lille 3 précise les deux premières raisons évoquées : l’illisibilité des données brutes (autrement dit, la nécessité de passer du temps pour les rendre lisibles) ou tout simplement la protection de la propriété intellectuelle: « ces données m’appartiennent »… En vue de ces résultats, le partage des données en Libre Accès est encore loin de faire partie de la pratique ou de la préoccupation courante des chercheurs en SHS. Ce phénomène s’explique également par les spécificités des données scientifiques en SHS : les enjeux et les problématiques ne sont pas les mêmes qu’en STM (Sciences Techniques et Médicale).

« TRÈS PEU OUVRENT LEURS DONNÉES […] DANS UNE DÉMARCHE OPEN DATA »

BESOIN ET ATTENTES

Bien qu’il soit de la responsabilité des chercheurs de conserver et de diffuser leurs données, ces derniers ne semblent pas prêts à s’inscrire dans une démarche scientifique plus ouverte et transparente comme l’explique l’enquête menée à l’Université de Rennes 2. Les répondants seraient prêts à rendre leurs données de recherche accessibles en Libre Accès si cela donnait une meilleure visibilité à leurs travaux de recherche et que par conséquent cela leur permettait de créer de nouveaux contacts au sein de la communauté scientifique. L’adhésion aux valeurs du Libre Accès aux résultats de la recherche scientifique n’arrive qu’en troisième position.

En termes de services, d’infrastructures et d’outils, les conclusions tirées par les deux études donnent des pistes de réflexion aux décideurs :

  • Tout d’abord émerge un besoin technique avec la nécessité d’un archivage et d’un espace de travail collaboratif sécurisé. Selon les deux enquêtes, les chercheurs souhaiteraient obtenir avant tout un espace d’archivage sécurisé et fiable (54 % des répondants à Lille et 57 % à Rennes) pour le dépôt de leurs données, tel que les Archives Ouvertes comme HAL ou des plateformes spécialisées, plutôt que le serveur de leur université de rattachement ou encore les réseaux sociaux et les blogs. Sur le plan de la sauvegarde des données, ils souhaiteraient également pouvoir stocker leurs données de recherche au-delà de la durée de vie d’un projet. D’autre part, les chercheurs semblent d’avis qu’il faut mettre en place un plan de gestion de données (DMP). Bien que les chercheurs interrogés déclarent ne pas connaître ce dispositif, l’enquête de Rennes 2 nous montre qu’ils ne sont pas contre cette démarche institutionnelle, sans pour autant accorder une importance à une politique d’établissement pour les métadonnées, ni de système de nommage des fichiers.

« SÉCURISATION, PRÉSERVATION, CLARIFICATION, SOUTIEN »

  • Ensuite, la seconde piste pour les décideurs est le besoin de services en collaboration avec des techniciens, des professionnels de l’IST ou encore des informaticiens. Ce besoin se caractérise par une nécessité de sensibilisation au paysage numérique, de formation et de conseils spécialisés. En effet, comme nous le montre la figure 4, les services de conseil sont très plébiscités, particulièrement ceux portant sur des questions techniques et juridiques. Les conseils relatifs à la publication des données ne semblent pas être une priorité.

BILAN

A travers cette synthèse, nous comprenons mieux pourquoi les SHS sont en retard par rapport aux STM en ce qui concerne l’ouverture des données de la recherche. Entre « Culture du partage », « Culture du libre accès » et « Culture de l’IST* », le chemin est encore long mais n’est pas impossible. Il est du ressort des universités et des professionnels de l’information d’accompagner les chercheurs dans une démarche adaptée et durable.

Comme nous l’avons montré, la tendance est la même dans les deux universités où s’est déroulée l’enquête. Les enjeux de l’Open Research Data en SHS concernent principalement les dispositifs organisationnels et techniques qui sont à mettre en place au sein des organismes de recherche ainsi que l’accompagnement des chercheurs. En sciences de la terre par exemple, il existe déjà des serveurs de stockage et de partage de données comme Georoc (http://georoc.mpch-mainz.gwdg.de/georoc/).

*IST : Information Scientifique et Technique

Notes

[1] INIST : Institut de l’Information Scientifique et Technique
[2] SIC : Science de l’information et de la Communication
[3] URFIST : Unité Régionale de Formation à l’Information Scientifique et Technique
[4] SCD : Service commun de documentation
[5] OCDE : Organisation de coopération et de développement économiques
[6] Qu’est-ce que le DMP ?

Retrouvez la définition dans l’article intitulé « Big Data et données de la recherche » paru le 5 juin 2017 dans le magazine Didaktic. Lien : www.didaktic.fr/actualites/big-data-donnees-de-recherche/

Bibliographie

Hélène Prost, Joachim Schöpfel. Les données de la recherche en SHS. Une enquête à l’Université de Lille 3. : Rapport final. [Rapport de recherche] Lille 3. 2015. URL : https://tel.archives-ouvertes.fr/UNIV-LILLE1/hal-01198379v1 Alexandre Serres, Marie-

Laure Malingre, Morgane Mignon, Cécile Pierre, Didier Collet. Données de la recherche en SHS. Pratiques, représentations et attentes des chercheurs : une enquête à l’Université Rennes 2 : Rapport ; Annexe 1 : Résultats de l’enquête statistique ; Annexe 2 : Croisements statistiques ; Annexe 3 : Extraits des entretiens ; Synthèse des résultats. . [Rapport de recherche] Université Rennes 2. 2017, 159 p., 47 p., 114 p., 26 p., 23 p. Lien : https://hal.archives-ouvertes.fr/hal-01635186

Rémi Gaillard. De l’Open data à l’Open research data : quelle(s) politique(s) pour les données de recherche ? Mémoire d’étude, Diplôme de conservateur de bibliothèque, Janvier 2014.

Soyez le premier à commenter

Poster un Commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.