Des Données FAIR & des entrepôts de données TRUST : la combinaison parfaite pour la science ouverte

Trusted

Les technologies de l’information et de la communication étant devenues omniprésentes dans notre société, nous sommes de plus en plus dépendants des données numériques et des dispositifs techniques qui permettent d’accéder à ces ressources et de les utiliser. Les infrastructures de recherche doivent gagner la confiance des communautés qu’ils entendent servir et démontrer qu’elles sont fiables et capables de répondre aux critères d’excellence scientifique et technologique.

Dans le cadre de la science ouverte et de l’ouverture des publications et données de la recherche, la RDA (Research Data Alliance) a publié l’article The TRUST Principles for digital repositories dans lequel sont décrits les principes que doivent suivre les entrepôts de données pour maintenir leur fiabilité et pour lequel nous vous en proposons une note de lecture.  L’objectif de cet article est de rappeler aux responsables de la gestion des données de recherche – c’est-à-dire – les chercheurs, la nécessité d’adopter le modèle FAIR à savoir rendre les données faciles à trouver, accessibles, interopérables et réutilisables tout en ayant des entrepôts fiables, dotés d’une gouvernance et de cadres organisationnels durables via les principes TRUST.

Les principes TRUST, de quoi s’agit-il ?

Transparency (Transparence) : « Faire preuve de transparence en ce qui concerne les services d’entrepôt spécifiques et les collections de données, vérifiables par des preuves accessibles au public. »[1]

Pour se conformer à ce principe, les entrepôts de données doivent s’assurer que, au minimum, leur déclaration de mission et leur champ d’application soient clairement énoncés. En outre, les aspects tels que les conditions d’utilisation, le délai minimum de conservation numérique pour les fonds de données ou encore toute caractéristique ou service supplémentaire pertinent, par exemple la capacité à gérer de manière responsable les données sensibles doivent être déclarés de manière transparente.

La communication claire des politiques relatives aux dépôts et, en particulier, des conditions d’utilisation des fonds de données permet d’informer les utilisateurs de toute limite qui pourrait restreindre leur utilisation des données ou du dépôt. De même, le fait de pouvoir évaluer facilement si un dépôt peut traiter des données sensibles de manière responsable éclairerait également leur décision d’utiliser ou non les services de données disponibles.

Responsibility (Responsabilité) : « Être responsable de l’authenticité et de l’intégrité des données détenues, ainsi que de la fiabilité et de la pérennité de son service. »[2]

Les dépôts dignes de confiance assurent la responsabilité de la gestion de leurs fonds de données et du service de leur communauté d’utilisateurs. Cette responsabilité est démontrée par :

  • L’adhérence aux métadonnées et aux normes de conservation de la communauté désignée, tout en assurant la gestion des fonds de données, par exemple la validation technique, la documentation, le contrôle de la qualité, la protection de l’authenticité et la persistance à long terme ;
  • L’offre des services de données, par exemple des interfaces de portail et de machine, le téléchargement de données ;
  • La gestion des droits de propriété intellectuelle des producteurs de données, la protection des ressources d’information sensibles et la sécurité du système et de son contenu.

Les utilisateurs de l’infrastructure de recherche doivent avoir l’assurance que les déposants de données sont invités à fournir toutes les métadonnées conformes aux normes de la communauté. Le fait de savoir qu’un entrepôt de données vérifie l’intégrité des données et des métadonnées disponibles garantit aux utilisateurs potentiels que les fonds de données sont plus susceptibles d’être interopérables avec d’autres ensembles de données pertinents. Les déposants et les utilisateurs doivent avoir l’assurance que les données resteront accessibles au fil du temps et qu’elles pourront donc être citées et référencées dans des publications.

User focus (Orientation vers l’utilisateur) : « Veiller à ce que les normes de gestion des données et les attentes des communautés d’utilisateurs cibles soient respectées. »[3]

Les entrepôts de données ont un rôle essentiel dans l’application et le respect des normes et standards de la communauté d’utilisateurs cible, car la conformité facilite l’interopérabilité et la réutilisation des données. Les normes de données que les dépôts dignes de confiance doivent appliquer comprennent les schémas de métadonnées, les formats de fichiers de données, les vocabulaires contrôlés, les ontologies et d’autres sémantiques lorsqu’elles existent dans la communauté des utilisateurs.

 Un entrepôt de données peut démontrer son adhésion à ce principe en implantant des données métriques pertinentes et en les mettant à la disposition des utilisateurs, en contribuant à des catalogues communautaires pour faciliter la découverte de données et en surveillant l’évolution des attentes de la communauté afin de répondre, si nécessaire, à ces besoins nouveaux.

L’utilisation et la réutilisation des données de recherche font partie intégrante du processus scientifique et, par conséquent, ces entrepôts devraient permettre à leur communauté de trouver, d’explorer et de comprendre leurs fonds de données en ce qui concerne la (ré)utilisation potentielle. Les dépôts devraient encourager les utilisateurs à décrire pleinement les données au moment du dépôt et faciliter leur retour d’information sur tout problème lié aux données (par exemple, la qualité ou l’aptitude à l’emploi) qui pourrait apparaître après la mise à disposition des données.

Sustainability (Durabilité) : « Maintenir les services et préserver les collections de données à long terme. »[4]

Un dépôt digne de confiance peut démontrer la durabilité de ses fonds en :

  • Planifiant suffisamment l’atténuation des risques, la continuité des activités, la reprise après sinistre et la succession;
  • Fournissant des fonds pour permettre une utilisation continue et maintenir les propriétés souhaitables des ressources de données que le dépôt a été chargé de préserver et de diffuser;
  • Assurant une gouvernance pour la préservation à long terme des données, afin que les ressources de données restent accessibles et utilisables à l’avenir.

Assurer sa durabilité est nécessaire pour assurer un accès ininterrompu à ses précieux fonds de données pour les communautés d’utilisateurs actuelles et futures. L’accès continu aux données dépend de la capacité du dépôt à fournir des services au fil du temps et à répondre avec des services nouveaux ou améliorés pour répondre aux besoins changeants de la communauté des utilisateurs.

Technology (Technologie) : « Fournir l’infrastructure et les capacités nécessaires pour soutenir des services sécurisés, pérennes et fiables ».[5]

Une infrastructure de recherche dépend de l’interaction des personnes, des processus et des technologies pour prendre en charge des services sécurisés, persistants et fiables. Ses activités et fonctions sont soutenues par des logiciels, du matériel et des services techniques. Ensemble, ils fournissent les outils nécessaires à la mise en œuvre des principes TRUST.

Un entrepôt de données peut démontrer l’adéquation de ses capacités technologiques avec la mise en œuvre de normes, d’outils et de technologies pertinents et appropriés pour la gestion et la conservation des données ainsi que la mise en place de mécanismes pour prévenir, détecter et répondre aux menaces de sécurité cybernétique ou physique.

Le modèle FAIR & TRUST : des principes complémentaires

Les entrepôts FAIR sont des entrepôts qui favorisent la découverte, l’accès, l’interopérabilité et la réutilisation des données qu’ils hébergent et fonctionnent comme une ligne directrice pour faciliter la découverte et la réutilisation des connaissances scientifiques. Les entrepôts de données TRUST garantissent la conservation à long terme des données ouvertes et comportent au minimum les métadonnées FAIR, et leur gestion des données prend en compte de manière adéquate la vie privée, la sécurité et la propriété intellectuelle, notamment en ce qui concerne les données personnelles. Dans ce but, et pour contribuer à augmenter le nombre d’entrepôts de données certifiés TRUST, les académies des sciences recommandent leur utilisation et soutiennent le travail du World Data System (WDS) du Conseil international pour la science.

Les deux principes s’entrecoupent et se renforcent mutuellement de manière à favoriser l’élaboration de données FAIR et leur préservation dans les dépôts qui adoptent les principes TRUST.

Les scientifiques doivent être en mesure de trouver, de réutiliser, de déposer et de partager des données via des dépôts de données fiables qui mettent en œuvre les principes de données FAIR et qui garantissent la durabilité à long terme. Les entrepôts de données doivent être faciles à trouver et à identifier, et offrir aux utilisateurs une transparence totale sur leurs services. Ces dispositifs techniques doivent avoir des politiques transparentes, une organisation, des ressources financières et humaines adéquates pour assurer leurs missions de mise à disposition des données de manière durable et sécuritaire.

« L’adoption des principes FAIR et la mise en œuvre des principes TRUST donnent ainsi aux utilisateurs l’assurance qu’ils bénéficient d’entrepôts sûrs avec des moyens durables. Pour les auteurs, les principes TRUST constituent un moyen mnémotechnique de rappeler la nécessité de développer et d’entretenir les infrastructures afin de favoriser une gestion continue des données et de permettre l’utilisation future des collections de données. »[6]

Comment identifier un entrepôt de données TRUST ?

Avec la Certification coretrustseal

Le CoreTrustSeal[7] est une organisation de certification mise en place conjointement par le DSA (Data Seal of Approval)[8] et le ICSU WDS (the International Council for Science’s World Data System)[9]. Cette certification garantit aux déposants que leur données seront protégées et gérées de manière optimale.

La certification Core Trust Seal évalue des critères relatifs aux entrepôts de données selon plusieurs niveaux de conformité. Cette étape de certification est importante pour garantir la fiabilité et la durabilité des dépôts de données ainsi que l’archivage et le partage à long terme des données. La Research Data Alliance (RDA) fournit un cadre commun pour la mise en œuvre et la maintenance des dépôts numériques selon 16 critères organisés en 3 thèmes (Infrastructure organisationnelle, Gestion des objets numériques des données et des métadonnées et Technologie et Sécurité).

Les avantages qu’apporte la certification

La certification offre de nombreux avantages à une infrastructure de recherche et à ses parties prenantes. « La certification CoreTrustSeal est envisagée comme la première étape d’un cadre mondial pour la certification des référentiels qui comprend la certification de niveau étendu (nestor-Seal DIN 31644) et la certification de niveau formel (ISO 16363). En fin de compte, CoreTrustSeal s’efforcera également de fournir une certification de niveau de base à d’autres entités de recherche telles que les services de données et les logiciels »[10]. Par ailleurs, la certification implique un processus peu intensif par lequel les entrepôts de données fournissent la preuve qu’ils sont durables et dignes de confiance. Un entrepôt effectue d’abord une auto-évaluation interne, qui est ensuite examinée par des pairs de la communauté. Ces évaluations permettent d’améliorer la qualité et la transparence de leurs processus, et à mieux connaître et respecter les normes établies.

En plus des avantages externes, tels que le renforcement de la confiance des parties prenantes, l’amélioration de sa réputation et la démonstration que l’entrepôt de données suit de bonnes pratiques, la certification de base offre un point de référence pour la comparaison et aide à déterminer les forces et les faiblesses de l’infrastructure de recherche.

Enfin, le CoreTrustSeal donne aux producteurs de données l’assurance que les données soient préservées et restent réutilisables – à savoir FAIR– à l’avenir et donne aux organismes de financement l’assurance que les investissements sont optimisés. Les propriétaires veulent s’assurer que leurs données sont en lieu sûr et restent accessibles, utilisables et signifiants au fil du temps. Les utilisateurs veulent avoir la certitude que les données ont été préservées correctement et sont de haute qualité.

Les prérequis de la certification

Les entrepôts qui disposent d’une certification CoreTrustSeal permettent de garantir un bon niveau de compatibilité des données avec les principes FAIR, les prérequis de la certification étant compatibles avec les principes FAIR. Pour les entrepôts ne disposant pas de certification, les questions ci-dessous permettent d’évaluer leur niveau de compatibilité avec les principes FAIR.

  • Des identifiants uniques et pérennes (par exemple DOI) sont-ils attribués aux jeux de données et/ou aux fichiers composant les jeux de données ?
  • L’entrepôt permet-il de documenter les données avec des métadonnées (auteurs, description du contenu du jeu de données, publications associées, etc.) et des informations permettant de mieux comprendre et utiliser les données (définition des variables, logiciels associés, provenance, etc.) ? Les métadonnées (et idéalement les données) sont-elles indexées pour permettre leur recherche ?
  • L’entrepôt permet-il de mentionner clairement la licence (licence ouverte, CC BY, etc.) ou les conditions spécifiques sous lesquelles les données sont utilisables ?
  • L’entrepôt rend-il accessibles publiquement les citations et les métadonnées sont-elles toujours accessibles, même dans le cas de jeux de données dont les fichiers associés sont à accès restreint ?
  • L’entrepôt utilise-t-il des métadonnées compatibles avec des standards de métadonnées reconnus ?
  • L’entrepôt dispose-t-il d’un plan de préservation à long terme des données ?

Quels sont les Entrepôts de données « dignes de confiance »?TRUST : Transparency, Responsibility, User focus, Sustainability, Technology

Actuellement, 107 entrepôts de données[11] sont enregistrés dans le registre Re3Data et sont certifiés par le CoreTrustSeal, répondant aux 16 exigences reflétant les caractéristiques que l’on peut conférer à des entrepôts fiables.

En France, deux entrepôts de données adoptent les principes TRUST et sont considérés « dignes de confiance » : le Centre de Données astronomiques de Strasbourg[12], un centre de données voué à la collecte et à la distribution dans le monde entier de données astronomiques hébergeant la base de référence mondiale pour l’identification d’objets astronomiques et le IFREMER-SISMER Portail de données marines[13] contribuant à la gestion de données des programmes de l’Ifremer et en particulier au programme centre de données océanographiques de l’Ifremer et aux programmes d’océanographie opérationnelle.

« De nombreux entrepôts n’ont pas de certification mais sont cependant largement reconnus par la communauté scientifique et offrent des garanties de conservation à long terme. Ces entrepôts sont d’ailleurs souvent recommandés voire imposés par les éditeurs »[14]. Par exemple, NAKALA : entrepôt national français spécialisé en Sciences Humaines et Sociales ; SEANOE : entrepôt national français en sciences marines ; PANGAEA spécialisé en sciences de la Terre et de l’environnement; le Réseau Quetelet : entrepôt national français en sciences sociales ; ORTOLANG : entrepôt national français spécialisé en sciences du langage ; TreeBASE (phylogénétique): données sous-jacentes aux publications.

La majorité des exigences de CoreTrustSeal se réfèrent (indirectement) aux principes FAIR des infrastructures[15]. Nous devons partager nos données afin de rendre la science ouverte réelle. Les principes FAIR nous aident à définir une gestion des données de recherche de haute qualité et transparente dans la gestion des données de recherche. Les mécanismes de certification, comme CoreTrustSeal pour les entrepôts de données, nous aident à créer le principe TRUST dans l’infrastructure de données de recherche dont nous avons besoin pour faire de la science une réalité. Les infrastructures de données de recherche sont ce dont nous avons besoin pour sauvegarder l’accessibilité et la durabilité de nos données FAIR.

CORE TRUST SEAL

(c) www.coretrustseal.org

« Les données de recherche ne deviendront ni ne resteront FAIR par magie. Nous avons besoin de personnes compétentes, de processus transparents, de technologies interopérables et d’une collaboration pour construire, exploiter et maintenir des infrastructures de la recherche » Mari Kleemola, membre du RDA.

Pour aller plus loin :

Pour lire l’article « The TRUST Principles for digital repositories » . https://www.nature.com/articles/s41597-020-0486-7

Consulter le site : https://www.coretrustseal.org/

(c) www.rd-alliance.org

TRUST LIFE CYCLE
(c) www.rdc-drc.ca
 

Notes

[1] Ouvrir la Science. Les principes « TRUST » des entrepôts de données. https://www.ouvrirlascience.fr/les-principes-trust-des-entrepots-de-donnees/

[2] Ibid

[3] Ibid

[4] Ibid

[5] Ibid

[6] Ibid

[7] CoreTrustSeal. (s. d.). CoreTrustSeal.  https://www.coretrustseal.org/

[8] Leeuw, L. de (DANS) (2019). Data Seal of Approval (DSA). DANS. https://doi.org/10.17026/dans-28z-njxq

[9] World Data System (WDS). International Science Council. (s. d.).  https://council.science/what-we-do/affiliated-bodies/world-data-system-wds/

[10] CoreTrustSeal. (s. d.). CoreTrustSeal.  https://www.coretrustseal.org/about/

[11] Re3data.org. (s. d.).  https://www.re3data.org/

[12] CDS. Centre de données astronomiques de Strasbourg. (s. d.). https://cds.u-strasbg.fr/

[13] SISMER. Portail des données marines. (s. d.). http://data.ifremer.fr/SISMER

[14] La minute entrepôt. DoRANum. https://doranum.fr/depot-entrepots/minute/https://doi.org/10.1038/s41597-020-0486-7

[15] Pôle ODATIS. Généralités.  https://www.odatis-ocean.fr/donnees-et-services/principes-de-gestion-des-donnees/generalites

Bibliographie

CoreTrustSeal+FAIR : Statement of Cooperation & Support. (2020, octobre 27). CoreTrustSeal. https://www.coretrustseal.org/why-certification/coretrustsealfair-statement-of-cooperation-support/

CoreTrustSeal : Critères de conformité. (2019, septembre 7). RDA. https://www.rd-alliance.org/coretrustseal-criteres-de-conformite

CoreTrustSeal Trustworthy Data Repositories Requirements 2020–2022 | Zenodo.  https://zenodo.org/record/3638211#.YGDPN68zbIV

Datapartage—Les entrepôts FAIR. https://datapartage.inrae.fr/Produire-des-donnees-FAIR/Comment-FAIR-en-pratique/Les-entrepots-FAIR

Mini-symposium sur les principes TRUST : L’avenir des dépôts de données numériques | Research Data Canada. (2020, juillet 29). Research Data Canada | Avec Le Concours de Ses Intervenants, Données de Recherche Canada Veille à Ce Que Les Données Scientifiques Engendrent Des Innovations Dont Profitera Chaque Canadien. https://www.rdc-drc.ca/fr/mini-symposium-sur-les-principes-trust-lavenir-des-depots-de-donnees-numeriques/

Paillassard, P. Certification des entrepôts de données – DoRANum.  https://doranum.fr/2019/02/05/certification-des-entrepots-de-donnees/