HUMA-NUM : une infrastructure au service des SHS

icônes
(c) freepik.com

La science ouverte et le principe de l’accessibilité des données et des résultats de la recherche a vu son essor avec l’Appel de Jussieu. Nous pourrions cependant dater sa naissance au 17ème siècle avec la création de l’Académie des sciences et l’apparition de la Revue académique. 

Aujourd’hui, différents programmes ministériels et européens jouent un rôle majeur dans la construction de l’Espace Européen de Recherche en finançant, notamment au travers de différents projets, les Infrastructures de Recherche et les Très Grandes Infrastructures de Recherche. Ces dernières relèvent de stratégies gouvernementales nationales ou font l’objet de partenariats nationaux et/ ou internationaux. Parmi celles-ci, la TGIR Huma-Num. Outre son implication à l’échelle européenne, elle met à la disposition des utilisateurs différents services tout au long du cycle de vie des données résultant de recherches en sciences humaines et sociales. 

Huma-Num : un engagement européen au service des sciences humaines et sociales

En tant que Très Grande Infrastructure de Recherche (TGIR), Huma-Num [1] a pour principal intérêt de mutualiser, diffuser et favoriser l’accès aux fichiers et données. Mais elle a également pour mission première d’assurer la préservation du patrimoine scientifique

Huma-Num s’inscrit, par le biais de ses partenaires et au titre du programme Horizon 2020, dans plusieurs projets européens [2] visant à soutenir le développement de pratiques conformes aux principes FAIR.

Huma-Num : Projets Européens
(c) NEMER Nadia

Le projet Triple a pour ambition de développer une plateforme favorisant la visibilité des données de publications en SHS mais également de pouvoir les réutiliser. Le but de ce projet, en partenariat avec OpenEdition, est également de mettre en relation des communautés disciplinaires, par le biais des profils des chercheurs, et linguistiques différentes tout en travaillant sur une interface basée sur le principe de l’UX Design. Cette plateforme européenne aura pour nom GO TRIPLE. Lancé en octobre 2019, ce projet prendra fin en mars 2023.

En partenariat avec le CINES, Huma-Num est engagé dans le projet OPERAS-P soutenant la mise en œuvre d’une infrastructure de recherche européenne pour les publications SHS en accès libre, sur la base de l’interopérabilité entre les services de publication et les différents marché, OPERAS. OPERAS est l’infrastructure européenne de recherche pour le développement de la communication savante ouverte dans les sciences sociales et humaines. [3] Ce projet s’achèvera en juin 2021.

De 2013 à 2017, la Commission Européenne a financé un projet de recherche en archéologie appelé ARIADNE. Celui-ci a abouti à la création de ARIADNEplus, catalogue consultable en ligne et regroupant des jeux de données en archéologie. 

Depuis janvier 2019, dans le cadre du programme Horizon 2020, et constatant l’abondance des jeux de données hétérogènes dans leurs structures et formats, deux consortiums de la TGIR apportent leurs contributions dans ce projet : le Consortium MASA, dont l’objectif est la diffusion et la mise en oeuvre des principes FAIR dans la communauté archéologique, et le Consortium 3D-SHS qui s’est donné pour principale mission de diffuser les bonnes pratiques (méthodologie, formats, schéma métadonnées, etc) en matière d’acquisition, de diffusion et d’archivage des modèles 3D. Ils ont jusqu’en janvier 2022, date butoire du financement, pour concrétiser leurs objectifs.

Une des ambitions d’Horizon 2020 est de mettre en place un cloud destiné aux SHS. Différents acteurs européens, parmi lesquels le CNRS (en partenariat avec Huma-Num et MAPS [4]), Sciences Po et EURISHFIRM [5], se sont donné pour mission de créer un environnement sécurisé pour le partage et l’utilisation des données sensibles et confidentielles. SSHOC, qui est le nom de ce projet, a également pour but de mettre à la disposition des chercheurs une plateforme, appelée SSH Open Marketplace, de services et d’outils répondant aux différentes étapes du cycle de vie de la donnée. Ce projet, en lien avec EOSC [6], s’achèvera en janvier 2022 et répondra aux principes FAIR.

Le dernier projet H2020 dans lequel est impliquée la TGIR est EOSC-Pillar [7]. Ce projet ambitieux, réunissant 18 partenaires répartis dans 5 pays européens, a été lancé en juillet 2019, pour une durée de 36 mois, en soutien à EOSC dont l’objectif est d’offrir aux professionnels des SHS un environnement virtuel répondant aux principes FAIR, notamment au principe de réutilisation des données de recherche.

Le projet s’articule autour de différents Work Packages (WP) et Huma-Num, pour sa part, est engagée dans les WP 5 et 6. Son implication dans ces WP n’est pas anodine et reprend son principe de base qui est celui de l’application des principes FAIR

  •    le WP 5, intitulé The data layer: establishing FAIR data services at the national and transnational level s’intéresse essentiellement à l’utilisateur final en élaborant des supports pédagogiques;
  •     le WP 6, EOSC in action : Use cases and community-driven pilots, a pour finalité de rassembler des cas d’utilisation pour analyser différents outils et service pour la FAIRisation des données.

Si Huma-Num marque son engagement au niveau européen à travers différents projets, la TGIR n’en oublie pas moins son rôle premier qui est de mettre à la disposition des communautés SHS une infrastructure dédiée à leur domaine de recherche. 

Huma-Num : des solutions humaines et techniques au service des SHS

Huma-Num est une Très Grande Infrastructure de Recherche (TGIR) impliquée dans le virage numérique de la recherche en sciences humaines et sociales. Son fonctionnement est basé sur une organisation alliant à la fois la concertation collective et les services numériques pérennes.

Elle apporte son aide aux chercheurs en Sciences Humaines et Sociales et met à leur disposition tout un ensemble de services répondant aux besoins des étapes du cycle de vie des données. Elle propose également des listes d’entraides et d’échanges autour de certains outils de gestion et diffusion de corpus et données de la recherche en SHS sur son serveur de listes. Il est à noter que pour bénéficier des différentes solutions proposées par Huma-Num, l’utilisateur doit appartenir à la communauté académique et le projet scientifique concerné doit être validé par la TGIR. D’autre part, ces mêmes projets doivent s’inscrire dans une démarche d’archivage à long terme des données mais également s’engager sur l’interopérabilité des données de la recherche et des métadonnées associées. Ils doivent également s’inscrire dans une démarche de traitement des données (comme l’enrichissement par exemple). Enfin, il est nécessaire de préciser que l’ensemble des solutions proposées nécessitent au préalable des ouvertures de comptes par le biais du service d’authentification centralisé HumanID [8]

Sa mission est de proposer des solutions d’ organisation, de collecte, de traitement, de préservation, de publication et de réutilisation des données [9]

Les différentes étapes ci-dessus se basent sur celles du cycle de vie des données de la recherche, de leur création à leur réutilisation.

Les 6 étapes du cycle de vie des données de recherche [10]:

  •  Création ou collecte des données
  • Traitement des données
  • Analyse des données
  • Conservation des données
  • Accès aux données données
  • Réutilisation des données
Cycle de vie des données de la recherche
(c) UK Data archive

⇒ Voyons de plus près ce que sont ces solutions.

Données : Organisation
(c) huma-num.fr

Avant toute chose, le chercheur doit organiser les données qui seront déposées. Pour ce faire, il dispose de 4 outils : ShareDocs, GitLab, Kanboard et Mattermost. Pourquoi 4 outils? Tout simplement parce que leurs finalités sont différentes. 

ShareDocs est un gestionnaire de fichiers (texte, pictural, multimédia,…). Sa fonction est de préparer les fichiers pour une édition en ligne ou une diffusion. 

GitLab permet de déposer des fichiers de code et d’en maîtriser le partage. Sa particularité est qu’il s’agit là d’une solution open source.

A cette étape d’organisation des données, Huma Num met à disposition trois outils collaboratifs : Kanboard qui est un gestionnaire de projet. Mais également en permettant à l’utilisateur de créer, publiposter et gérer des listes de diffusion par le biais de Sympa. Il est cependant important de souligner ici que les documents partagés par ce biais ne sont pas pourvus d’un identifiant pérenne et qu’à la dissolution de la liste de diffusion, il ne sont pas sauvegardés. Enfin, il est proposé un service de messagerie instantanée et d’échange de fichier par le biais de l’instance Mattermost.

Données : Collecte
(c) huma-num.fr

L’étape suivante est la collecte de données. Les données présentées pouvant être diversifiées, Huma-Num offre la possibilité de les stocker “telles quelles” et de travailler, par exemple, sur des fichiers par le biais de ShareDocs. L’autre service de stockage sécurisé proposé est celui de la Huma-Num Box. Son usage est destiné aux données qui n’ont pas vocation à être consultées fréquemment. Ce sont les données dites froides ou tièdes [11].

 

 

 

 

Données : Traitement
(c) huma-num.fr

Afin de répondre au mieux aux besoins de l’utilisateur, la TGIR lui propose de les décrire en termes de transformation et d’analyse des données en vue d’optimiser leur traitement (comme par exemple la conversion d’un format de fichier vers un autre). Un comité interne d’Huma-Num, le Comité de la grille, est chargé d’analyser ces besoins et de proposer les solutions logiciels les plus adéquates en vue de favoriser l’interopérabilité et la pérennité des données [12].

 

 

A cette étape, il est important de faire un distinguo entre la notion de sauvegarde et celle de préservation. La sauvegarde, ou stockage sécurisé, a pour but d’assurer l’intégrité d’un contenu tandis que la préservation a pour fonction première d’assurer la pérennisation de l’information. Ce maintien de lisibilité du contenu et des métadonnées est cependant lié à la problématique de l’obsolescence des supports et peut nécessiter une conversion des formats de fichiers. Cette étape est majeure car d’elle dépendra celle de la réutilisation dans le temps des données. Ici nous retrouvons Hum-Num Box qui est, comme nous l’avons vu à l’étape de “collecte”, un service de stockage sécurisé.

Données : Préservation
(c) huma-num.fr

Concernant la préservation, Huma-Num met à la disposition des utilisateurs l’entrepôt NAKALA qui est un entrepôt de données sécurisé de deux niveaux : la donnée est décrite, contextualisée et sécurisée dès qu’elle est enregistrée dans Nakala; la donnée est préservée à long terme par le biais d’un partenariat avec le CINES [13] qui assurera, entre autres, l’intégrité du fichier et la migration des formats vers des formats plus pérennes si nécessaire pour le maintien de leur lisibilité. 

 
 

 

Engagée dans divers projets européens, Huma-Num met à la disposition des utilisateurs un ensemble d’outils en faveur de la publication et de l’éditorialisation de leurs données, contribuant ainsi à leur structuration et à leur visibilité.

Données : publication
(c) huma-num.fr

Parmi ces outils nous retrouvons l’entrepôt NAKALA et son module de publication NAKALA-PRESS. Ce dernier fait suite au pack NAKALONA (qui associait NAKALA et OMEKA [14], CMS permettant de créer des sites web, notamment dans le domaine des éditions scientifiques en ligne). NAKALA-PRESS permet d’éditorialiser les données dans un site web public.

En parallèle de cette solution de publication, Huma-Num propose un hébergement web mutualisé et un hébergement de machines virtuelles [15]. 

La dernière étape reprend le 4ème principe FAIR : le “reuse”. Le fonctionnement de l’entrepôt NAKALA est garant de la réutilisation des données hébergées. Par le biais de la standardisation de la description des données, l’attribution d’une licence de diffusion et l’interopérabilité garantie notamment par l’attribution d’un identifiant pérenne, les données deviennent visibles et réutilisables [16].

L’autre service proposé et développé, entre autres, par la TGIR est le moteur de recherche en SHS, ISIDORE. Celui-ci moissonne des données en SHS, en français, anglais et espagnol, et les enrichit également dans ces mêmes langues en se basant sur des référentiels métiers. S’inscrivant dans le mouvement de l’open science, ISIDORE privilégie “l’accès à des données en libre accès (open access) produites par des organismes de recherche et de l’enseignement supérieur, des laboratoires, des équipes de recherche (…)” [17]. ISIDORE va au-delà du web syntaxique. Il accède à toutes sortes de données en reliant les données et les documents entre eux.

Données : Réutilisation
(c) huma-num.fr

La réutilisation des données à long terme n’est cependant possible que si leur préservation est assurée. La pérennisation de l’accès à l’information, quel que soit le type de fichier, est un enjeu majeur et est à envisager dès la production et/ ou la collecte des données. Le CINES, partenaire de Huma-Num à l’étape “préservation” est l’un des acteurs, avec les Archives nationales et départementales, de cet enjeu national et international [18]

Les différentes solutions présentées ne sont pas destinées à rester telles quelles. Pour exemple, le projet Huma-Num Science Ouverte [19] (HNSO) consiste à améliorer les plateformes NAKALA et ISIDORE afin de renforcer leur adéquation avec les principes FAIR et accroître ainsi la visibilité des données en SHS. 

 

  • Pour conclure, si nous devions résumer ce qu’est Huma-Num :

Huma-Num est une Très Grande Infrastructure de Recherche, mettant en œuvre des dispositifs humains et technologiques, au service des Sciences Humaines et Sociales, inscrite dans un engagement en faveur d’une science ouverte, appliquant les principes FAIR, et notamment le “reuse”, au travers de différents projets européens financés par le programme Horizon2020

Notes

[1] Huma-Num est un acronyme pour Humanités Numériques : domaine de recherche regroupant les Sciences Humaines et Sociales, l’Informatique, l’Ingénierie et les Arts et les Lettres.
[2] Projets. (s. d.). Huma-Num. https://site2020.huma-num.fr/projets-internationaux/

[3] “OPERAS is the European Research Infrastructure for the development of open scholarly communication in the social sciences and humanities.” https://operas.hypotheses.org/category/projects/operas-p
[4] Réseau MAPS : Réseau thématique de modélisation multi-agents appliquée aux phénomènes spatialisés. https://maps.hypotheses.org/
[5] EURHISHFIRM a pour projet de concevoir une infrastructure de recherche de classe mondiale pour collecter, fusionner, extraire, rassembler, aligner et partager des données historiques détaillées de haute qualité au niveau des entreprises pour l’Europe. https://eurhisfirm.eu/
[6] EOSC, en étant le portail d’accès aux données, services et ressources des instituts de recherches européens, facilite l’interopérabilité et l’échange. https://www.ouvrirlascience.fr/portail-web-de-leosc/
[7] Pour en savoir plus : https://www.eosc-pillar.eu/
[8]https://humanid.huma-num.fr/
[9] L’ensemble des étapes et des outils présentés ici sont consultables à l’adresse suivante : https://www.huma-num.fr/les-services-par-etapes/
[10] Une introduction à la gestion et au partage des données de la recherche—Le cycle de vie des données. (s. d.). https://www.inist.fr/wp-content/uploads/donnees/co/module_Donnees_recherche_7.html
[11] Les données sont classées en trois catégories : les données “chaudes” désignent les données dont l’accès est fréquent, les données “tièdes” sont consultées de façon plus modérée et les données “froides” sont les données qui n’ont plus lieu d’être consultées (https://www.btb.termiumplus.gc.ca/tpv2alpha/alpha-fra.html?lang=fra&i=&index=frt&srchtxt=DONNEES%20CHAUDES )
[12] https://www.huma-num.fr/presentation/#cogrid
[13]https://www.cines.fr/archivage/typologies/donnees-scientifiques/
[14] Pour en savoir plus : https://omeka.fr/presentation-omeka
[15] Pour en savoir plus : https://documentation.huma-num.fr/hebergement-web/
[16] Pour en savoir plus : https://cat.opidor.fr/index.php/Nakala
[17] Pour en savoir plus : https://isidore.science/about
[18] Différents groupes de travail œuvrent actuellement sur cette problématique des formats de fichiers, et donc de la préservation et la pérennisation des données. C’est le cas, en France, la Cellule nationale de veille instituée par le Groupe PIN, de l’Association ARISTOTE, dont le CINES et la BnF, pour ne citer qu’eux, font partie.
[19] rédaction. (s. d.). Huma-Num Science Ouverte, un projet soutenu par le Fonds national pour la science ouverte (FNSO) [Billet]. Le blog d’Huma-Num et de ses consortiums. https://humanum.hypotheses.org/6407

SITOGRAPHIE : 

Données scientifiques | CINES. (s. d.).  https://www.cines.fr/archivage/typologies/donnees-scientifiques/

Galeazzi, Fulvio, Le Franc, Yann, van Wezel, Jos, Hönegger, Lisa, Beckmann, Volker, Carrillo, Rob, Van Nieuwerburgh, Inge, Tanlongo, Federica, Geistberger, Julia Sophie, Cazenave, Nicolas, Huynh, Frederic, & Hashibon, Adham. (2020). EOSC-Pillar First Annual Report. Zenodo. https://doi.org/10.5281/ZENODO.4288472

Gouvernement du Canada, T. publics et S. gouvernementaux C. (2009, octobre 8). DONNEES CHAUDES [1 fiche] – TERMIUM Plus® – Recherche – TERMIUM Plus®. https://www.btb.termiumplus.gc.ca/tpv2alpha/alpha-fra.html?lang=fra&i=&index=frt&srchtxt=DONNEES%20CHAUDES

Hébergement mutualisé—Documentation de la TGIR Huma-Num. (s. d.).  https://documentation.huma-num.fr/hebergement-web/ 

Https://eurhisfirm.eu/. (s. d.).  https://eurhisfirm.eu/ 

ISIDORE : Votre assistant de recherche en SHS | isidore.science. (s. d.).  https://isidore.science/about 

Les services par étapes. (s. d.). Huma-Numhttps://www.huma-num.fr/les-services-par-etapes/ 

OPERAS-P – OPERAS. (s. d.).  https://operas.hypotheses.org/category/projects/operas-p 

Portail d’authentification. (s. d.).  https://humanid.huma-num.fr/ 

Portail Web de l’European open science cloud (EOSC). (s. d.).  https://www.ouvrirlascience.fr/portail-web-de-leosc 

Présentation. (s. d.). Huma-Numhttps://www.huma-num.fr/presentation/ 

Présentation d’Omeka · Association des usagers francophones d’Omeka. (s. d.).  https://omeka.fr/presentation-omeka 

Projets. (s. d.). Huma-Numhttps://site2020.huma-num.fr/projets-internationaux/ 

Re3data.Org. (2016). NAKALA. https://doi.org/10.17616/R3JM1B 

rédaction. (s. d.). Huma-Num Science Ouverte, un projet soutenu par le Fonds national pour la science ouverte (FNSO) [Billet]. Le blog d’Huma-Num et de ses consortiumshttps://humanum.hypotheses.org/6407 

Réseau MAPS | Réseau thématique de modélisation multi-agents appliquée aux phénomènes spatialisés. (s. d.).  https://maps.hypotheses.org/ 

Une introduction à la gestion et au partage des données de la recherche—Le cycle de vie des données. (s. d.).  https://www.inist.fr/wp-content/uploads/donnees/co/module_Donnees_recherche_7.html