Consortiums : des groupes de travail dédiés au partage de données scientifiques

groupe de personne
(c) www.freepik.com

Dans un contexte fortement marqué par l’ouverture des données scientifiques, différents groupes de travail appelés « consortiums » voient le jour et s’organisent afin de guider les chercheurs dans le partage de leurs données. Ces groupes, à la fois européens et internationaux, proposent différents outils et émettent des recommandations permettant de rendre les données « FAIR ».

Cet article vise à établir un état des lieux des groupes de travail déjà existants et de se concentrer sur les différents outils et plateformes mis en place.

Des consortiums interdisciplinaires

Ces dernières années, plusieurs groupes interdisciplinaires ont été créés dans l’optique de faciliter le partage et la réutilisation de données.

Parthenos

C’est notamment le cas du projet européen Parthenos[1]. La mission principale de ce dernier est d’œuvrer à une certaine cohésion de la recherche dans des champs disciplinaires très variés : histoire, archéologie, linguistique…

Dans son plan d’action, Parthenos prévoit le développement de normes communes, la coordination d’activités conjointes, l’harmonisation de la définition et la mise en œuvre des politiques, la mise en commun des services et le partage de solutions aux mêmes problèmes.

Concrètement, Parthenos s’engage à mettre en place des normes de données communes dans un contexte fortement marqué par l’interdisciplinarité de la recherche.

Parthenos
(c) www.parthenos-project.eu

Research Data Alliance

La Research Data Alliance (RDA)[2] est une organisation internationale qui a vu le jour en 2013 en tant qu’initiative communautaire. Elle a pour objectif de permettre le partage et la réutilisation des données.

Elle regroupe des groupes de travail réunissant des experts issus du monde universitaire et du secteur privé. Ces différents groupes développent des infrastructures de données destinées à être utilisées par des communautés issues de domaines très variés (santé, agriculture, économie…).

Research Data Alliance (RDA)
(c) www.rd-alliance.org

Des consortiums centrés sur une discipline spécifique

D’autres groupes de travail se sont développés autour d’un domaine de recherche en particulier.

Cahier

C’est par exemple le cas de Cahier[3], dédié principalement aux corpus d’auteurs pour les Humanités.

Les corpus traités dans ce consortium sont le plus souvent associés à une activité éditoriale, intégralement numérique ou sous forme de deux supports (papier et en ligne).

En outre, Cahier offre des formations aux nouveaux outils et méthodes, privilégie le partage d’expériences et veille au bon respect des règles concernant l’échange, l’interopérabilité et la réutilisation des données de recherche scientifique.

Pour ce dernier point, il a mis en place des normes concernant les corpus d’auteurs ainsi que différents guides et recommandations à destination des chercheurs.

Un groupe de travail spécifique a été constitué en 2016 : il s’agit de Data_Cahier[4]. Les principaux objectifs de ce groupe de travail reposent sur l’accompagnement des projets membres du consortium Cahier dans l’exposition de leurs données ainsi que sur l’organisation du stockage de leurs données dans l’optique de mettre en place un archivage de ces données à long terme.

CORLI

Un autre consortium relatif aux corpus existe : il s’agit de CORLI[5] (Corpus, Langues, Interactions). Ce dernier constitue une aide à la diffusion des corpus, des outils et des méthodes de travail, et d’exploration de ces corpus.

Organisé sous la forme d’un réseau de recherche, il permet le partage de méthodes, techniques et données de ses participants. Il promeut grandement l’utilisation de standards et d’outils ouverts et partageables.

Pour cela, des journées de formation sont organisées dans lesquelles sont abordées différentes thématiques parmi lesquelles la gestion des métadonnées ou encore l’utilisation de logiciels pour l’annotation de corpus.

Sur son site internet, CORLI propose de nombreuses ressources : inventaire des outils, guides d’annotation, bonnes pratiques juridiques[6]

CORLI
(c) corli.huma-num.fr

MASA

Concernant le domaine de l’archéologie, le consortium MASA[7] (Mémoires des archéologues et des sites archéologiques) s’impose comme un incontournable.

Le traitement des données en archéologie est en effet primordial car les données de terrain constituent une mine précieuse d’information.

De plus, les documents produits au cours des fouilles archéologiques sont le plus souvent très fragiles et le fait de les numériser facilite grandement leur consultation.

Pour faciliter ces démarches, le consortium MASA propose un accès unifié à des corpus variés de données et de documentations produites par les archéologues.

Il propose des outils destinés à la communauté archéologique, qui veillent au respect des standards internationaux.

Parmi ces outils, on retrouve notamment Opentheso[8], conçu par la Maison de l’Orient et de la Méditerranée de Lyon. Il s’agit d’un gestionnaire de thésaurus multilingue et multi-hiérarchique. Il comporte de nombreuses fonctionnalités telles que la gestion des thésaurus collaborative avec quatre niveaux d’authentification (« superadmin », « admin », « manager » et « contributeur »), l’interopérabilité (génération automatique d’identifiants pérennes), ou encore l’inclusion d’un module d’alignement paramétrable qui permet l’alignement semi-automatique vers des thésaurus externes. Il est important de noter que l’import et l’export peuvent se réaliser sous différents formats (SKOS, Turtle, Json-LD et CSV).

ImaGEO

Le consortium ImaGEO[9] a été conçu pour répondre à un besoin concernant la mise à disposition de données historiques sur les infrastructures de données géographiques (IDG).

Ce consortium se donne ainsi pour mission de rendre accessibles, consultables et mobilisables des données cartographiques et photographiques.

Pour simplifier la consultation des données, il a mis en place la base Navigae[10]. Cet outil permet en effet de rechercher et de visualiser les cartographies produites et de les réutiliser grâce à la mise en place de métadonnées Dublin Core.

NAVIGAE
(c) www.navigae.fr

3D SHS

En 2014, un consortium dédié aux pratiques de la 3D en Sciences Humaines et Sociales voit le jour : il s’agit de 3D SHS[11].

Créé pour accompagner l’émergence de nouvelles pratiques au sein des Sciences Humaines et Sociales, ce consortium permet aussi de rapprocher les différents acteurs du consortium 3D SHS.

Il centre ainsi ses missions autour de la technologie 3D. Parmi ces missions, on retrouve l’archivage des données qui est réalisé par l’intermédiaire du Conservatoire National des Données 3D.

Cet environnement, hébergé par l’infrastructure d’Huma-Num, assure une sauvegarde totalement sécurisée des données produites dans le cadre de projets de l’Enseignement Supérieur et de la Recherche en Sciences Humaines et Sociales.

Les données qui seront sauvegardées dans le conservatoire devront impérativement être accompagnées de métadonnées décrivant le cadre scientifique du projet ainsi que les types de production 3D réalisées.

Par ailleurs, si les données sont destinées à être déposées au CINES (Centre Informatique National de l’Enseignement Supérieur), il faudra être attentif aux différents formats de fichiers.

Pour guider les différents groupes projets dans l’archivage de leurs données 3D, le consortium 3D SHS a rédigé un guide de bonnes pratiques[12].

Notes

[1] https://www.parthenos-project.eu/

[2] https://rd-alliance.org/

[3] https://cahier.hypotheses.org/

[4] https://cahier.hypotheses.org/activites/groupe-data_cahier

[5] https://corli.huma-num.fr/

[6] https://corli.huma-num.fr/bonnes-pratiques/

[7] https://masa.hypotheses.org/

[8] https://github.com/miledrousset/opentheso/releases

[9] https://imageo.hypotheses.org/

[10] https://www.navigae.fr/

[11] https://shs3d.hypotheses.org/

[12] https://hal.archives-ouvertes.fr/hal-01683842v4/document

Bibliographie

À propos. (s. d.). Consortium ImaGEO.   https://imageo.hypotheses.org/a-propos

About RDA. (2016, mars 22). RDA. https://www.rd-alliance.org/about-rda

Baudry, J. (2020). ImaGEO, un consortium au service du géographe. Arabesques, 98, 18‑19. https://doi.org/10.35562/arabesques.1886

Bonnes pratiques – Consortium CORpus, Langues et Interactions. (s. d.). https://corli.huma-num.fr/bonnes-pratiques/

CND3D. (s. d.).  https://3d.humanities.science/

Consortium CORpus, Langues et Interactions – CORpus, Langues, Interactions. (s.d.). Co. https://corli.huma-num.fr/ 

FAIR Data Maturity Model : Specification and guidelines – draft. (2020, avril 10). RDA. https://www.rd-alliance.org/group/fair-data-maturity-model-wg/outcomes/fair-data-maturity-model-specification-and-guidelines

Galonnier, J., Le Courant, S., Pecqueux, A. & Noûs, C. (2019). Ouvrir les données de la recherche ? Tracés. Revue de Sciences humaines. ENS Éditions, Décembre 2019, no19, p. 17-33. ISBN 9791036202278

GP1 – Interopérabilité / Pratique et outils d’exploration de corpus – Consortium CORpus, Langues et Interactions. (s. d.).  https://corli.huma-num.fr/les-groupes-projets/gp1/

Groupe « Data_Cahier ». (s. d.). Consortium Cahier.  https://cahier.hypotheses.org/activites/groupe-data_cahier

Idmhand, F., Galleron, I., (2020). Guide pour la FAIRisation des données des corpus d’auteurs préparé par Fatiha Idmhand et Ioana Galleron pour le [Groupe de travail Data_Cahier].  https://halshs.archives-ouvertes.fr/halshs-02889777/document

Le consortium. (s. d.). Consortium MASA.  https://masa.hypotheses.org/le-consortium

Opentheso. (s. d.). Consortium MASA.  https://masa.hypotheses.org/opentheso

Outils. (s. d.). Consortium MASA.  https://masa.hypotheses.org/outils

PARTHENOS, Hollander, H., Morselli, F., Uiterwaal, F., Admiraal, F., Trippel, T., & Di Giorgio, S. (2019). PARTHENOS Recommandations pour FAIRiser vos données. https://doi.org/10.5281/zenodo.3463521

RDA for Disciplines. (2016, mai 26). RDA. https://www.rd-alliance.org/rda-disciplines

RDA Groups. (s. d.). RDA.  https://www.rd-alliance.org/groups

Outils. Dans : Consortium MASA. (s. d.). https://masa.hypotheses.org/outils

RDA for Disciplines. Dans : RDA. (2016, mai 26). https://www.rd-alliance.org/rda-disciplines

RDA Groups. Dans : RDA. (s. d.).  https://www.rd-alliance.org/groups

Research Data Alliance FAIR Data Maturity Model Working Group – 2020 – FAIR Data Maturity Model specification and guidel.pdf. (s. d.). https://halshs.archives-ouvertes.fr/halshs-02889777/document

Un Consortium 3D pour les SHS | Création – Usage scientifique – Conservation des données 3D. (s. d.)  https://shs3d.hypotheses.org/