Big Data et données de la recherche

Les données de la recherche (Source : http://www.helsinki.fi/kirjasto/en/get-help/management-research-data/)
Les données de la recherche (Source : http://www.helsinki.fi/kirjasto/en/get-help/management-research-data/)

Avec son volume vertigineux de données produites, le Big Data s’est largement imposé dans le débat public. Exploitation commerciale des données personnelles, nouveau gisement d’emplois, création de valeurs… Effet de mode ou nouvelle révolution ?

Caractérisé par la règle dite des «5V», pour volume (extension indéfinie des données à traiter et à stocker), vélocité (rapidité de production de ces données), variété (multiplicité des formats de ces données, structurées ou non), vitesse (actualisation des données en quasi temps réel) et valeur (pour les usages qu’elles produisent), le Big Data ouvre de nombreuses perspectives. Toutefois, les risques sont tous aussi nombreux, pour tous les domaines d’activités.

Dans le secteur public et notamment dans l’Enseignement supérieur, de la Recherche et de l’Innovation, l’idée d’une ouverture des données s’est progressivement imposée avec les mouvements de l’Open Access et de l’Open Data. Après la valorisation des résultats de la recherche, l’ouverture des données de la recherche (cf article L 112-1 du Code de la recherche), données utilisées ou produites lors du processus de recherche même, est une nouvelle étape. Récemment, la loi française «Pour une République numérique» entérine et encourage également le partage et l’exploitation des savoirs produits par la recherche, en accordant le libre accès aux données de recherche publique et l’accès sécurisé des chercheurs aux grandes bases de données publiques.

Quelles que soient les technologies développées par le Big Data pour l’utilisation des données, les questions se multiplient. Quelles données transmettre?  Comment les rendre accessibles mais aussi les protéger ? Comment faciliter le travail des chercheurs, aussi bien en tant qu’utilisateurs ou que producteurs ?

Pourquoi s’intéresser aux données de la recherche ?

Les données de la recherche constituent un matériau essentiel à la recherche, d’autant plus précieuses qu’elles sont produites dans le cadre d’expériences complexes et coûteuses (voir encadré 1). Invisibles pourtant, elles restent la part immergée de la recherche.

De nombreux enjeux

Un enjeu épistémologique

Garantir la diffusion des données de la recherche est le gage de la validation de la recherche par les pairs. Elle ouvre les portes du processus de recherche, assure l’exactitude des données, leur authenticité et leur fiabilité. La mise en œuvre d’une protection et d’une diffusion des données de la recherche protège la recherche elle-même en permettant de reconnaître la paternité de recherches et de résultats.

Un enjeu patrimonial

Conserver et transmettre les données de la recherche permet d’améliorer la sécurité des données et de réduire le risque de perte. Elle construit une mémoire des savoirs acquis et des savoir- faire et améliore la visibilité des chercheurs et de leurs résultats (augmentation du nombre de citations).  

Un enjeu économique

Communiquer les données de la recherche permet d’éviter les doubles emplois en reproduisant certaines données existantes mais non exploitables (confidentialité, problème de format). Produites grâce à des financements publics, elles appellent un retour sur investissement pour accroître l’efficacité de la recherche. D’ailleurs, certains programmes de financement comme certains pôles d’Horizon 2020 n’hésitent pas à imposer l’ouverture des données.   En outre, la connaissance des travaux menés par les laboratoires concurrents d’un même secteur permet d’écarter des pistes de recherche déjà engagées et de mesurer les intérêts portés sur certains secteurs d’étude. Elle induit un esprit de prospective et une meilleure compréhension des études menées par les autres chercheurs.

Un enjeu sociétal enfin en améliorant la confiance dans la science et la recherche.

Pour répondre à ces enjeux comme au volume exponentiel des données, le Big Data apporte des outils nouveaux.

Quels outils pour le Big Data ?

Research data management (source : https://www.elsevier.com/connect/managing-your-research-data-to-make-it-reusable)
Research data management (source : https://www.elsevier.com/connect/managing-your-research-data-to-make-it-reusable)

 De nouvelles méthodes de gestion et d’analyse d’importants volumes de données voient le jour. Calculées par des algorithmes, les données produisent des indices de notoriété (pour les réseaux sociaux), d’autorité (pour les moteurs de recherche) ou encore de popularité. De nouveaux outils s’écartent des calculs statistiques pour produire une « prédictivité » : c’est le rôle des Machines Learning, ces machines apprenantes.

Capables d’appréhender de nouvelles données et de tirer profit des résultats antérieurs, elles permettent la création de valeurs. La détection de l’information utile est facilitée grâce à la fouille de texte ou encore Data Mining (voir encadré 2), qui prend en charge la variété des données, structurées ou non (textes, images, contenus multimédia…) 

Afin d’offrir de nouveaux services, d’anticiper des comportements et des besoins, d’améliorer la prise de décision ou encore de réaliser des économies comme dans la gestion de l’énergie, les applications se développent. Au-delà des classiques rapports ou tableaux de bord, l’objectif est de produire des résultats directement exploitables. Secteur privé et secteur public sont concernés. Le traitement en temps réel, voire en streaming, permet de faire face à la vitesse de production et de mise à jour.

http://www.cpu.fr/actualite/recherche-la-fouille-de-donnees-desormais-accessible/

En dépit des promesses offertes par l’ouverture des données de la recherche, des freins persistent.  Ils concernent en premier lieu la protection des données et la crainte du mésusage de ces données. Les coûts humains (en temps et en compétences) et les coûts techniques (infrastructures matérielles lourdes) sont aussi régulièrement cités par les chercheurs. Enfin, la diffusion de données personnelles attise les craintes.

Dans ce contexte, il convient de faciliter l’ouverture aux données de la recherche en construisant un écosystème qui lève ces difficultés. Cela suppose de mettre en œuvre une stratégie pour maximiser les investissements humains et financiers et accroître le potentiel de la recherche.

Diffuser et protéger les données de la recherche ?

Nous l’avons vu. Le Big Data comme l’ouverture des données de la recherche soulèvent de nouvelles opportunités, mais aussi de nouvelles questions. En réponse, les actions gouvernementales se multiplient. Certains pays comme les États-Unis ou le Royaume Uni sont déjà très avancés dans la mise en œuvre de plans nationaux pour organiser la diffusion des données.

Ces plans ont pour but d’optimiser la valeur de la recherche et de répondre aux risques associés à une absence de gestion des données de la recherche (perte de temps, d’argent, absence de réemploi).  La mise en œuvre d’un plan de gestion (DMP) conjuguée à une évolution du droit impulse une politique de protection et de diffusion des données.

Qu’est que le DMP ?

Le DMP – Data Management Plan – est un outil conçu pour garantir la collecte, la protection et la diffusion des données de la recherche. Il permet de disposer, d’accéder et d’exploiter de données de qualité, accompagnées de leurs métadonnées. Il répond en outre aux objectifs des organismes de financement de la recherche publique.

Il s’agit d’un document rédigé au démarrage d’un projet de recherche. Il décrit le cycle de gestion de l’ensemble des données qui seront collectées ou produites, les conditions de conservation et les modalités de traitement, de préservation et de réutilisation. Un coup d’œil sur le site écossais Digital Curation Centre permet de prendre en compte les questions essentielles avant le démarrage du DMP.     

Processus de planification, il implique la mise en place de bonnes pratiques tout au long du cycle de vie des données. Il permet de contrôler la qualité des données. Sa mise à jour régulière en garantit la valeur.

Le DMP est un outil de pilotage qui implique l’ensemble des acteurs. Le chercheur détermine et prend en charge le cycle de vie des données. L’établissement décide du choix des données à ouvrir, du lieu du dépôt et des conditions d’usage. Il revient à l’établissement de décider de la protection et de l’exploitation des données.

Focus sur les bonnes pratiques en termes de gestion des données

Quelques points de vigilance essentiels :

De nombreux guides disponibles en ligne aident à la rédaction. Voici un nouvel outil DMP OPIDoR (OPIDoR = Optimisation du Partage et de l’Interopérabilité des Données de la Recherche). Mais rien ne remplace l’accompagnement des chercheurs par les établissements pour faciliter l’accélération de ce mouvement d’ouverture.  

Protéger juridiquement les données et les chercheurs

Pour amplifier ce mouvement tout en protégeant les données et les informations personnelles, directives européennes et loi française encadrent la communication des documents et des données publics. Elles limitent et spécifient les usages possibles.

Côté communication, elles prévoient des restrictions (secret défense, secret professionnel, informations personnelles ou présentant des risques pour la sécurité publique…). De plus, la collecte de données à caractère personnel doit faire l’objet d’un respect préalable des formalités prévues par la CNIL.  


Côté protection, les données sont aussi protégées par le droit de la propriété intellectuelle. Leur usage nécessite d’être en conformité avec le Code de la propriété intellectuelle. Certaines données comme les données géographiques ou les données environnementales sont au contraire obligatoires.  

 

En outre, le droit d’accès aux données ne vaut pas pour droit de réutilisation des données. Open access ne veut pas dire libre de droits !

 

La nouvelle loi « Pour une République numérique » créée un statut de « bien commun » pour les données. La lecture détaillée du texte par Lionel Maurel sur le site S.I.Lex montre une évolution majeure. En effet, «une fois les données de la recherche publiées, leur usage devient pleinement libre et donc « commun à tous » (sous réserve de protéger les données personnelles et les droits des tiers) ».

Pour préciser, l’article 30 de la loi introduit « un droit d’exploitation secondaire des publications scientifiques au profit des chercheurs. Mais outre la création d’un statut juridique pour les données de la recherche, la loi prévoit aussi leur protection grâce à la préconisation de licence de diffusion. Les licences Creative Commons (CC), Open Data base Licence (ODbL), Etalab (initiative gouvernementale) protègent les fournisseurs de données et les chercheurs (respect de l’intégrité des données et mention des sources).

Attention toutefois !

Les licences ne proposent pas toutes les mêmes niveaux de protection.

Comment protéger les données et favoriser les échanges ? Un exemple

Le CADS (Centre d’accès aux données sécurisées) est développé avec le soutien de la France. Il déploie un ambitieux projet à l’attention de la communauté scientifique française et étrangère. Le CASD a développe un pilote de centre d’accès sécurisé européen entre l’Italie, l’Allemagne et la France. « L’objectif est de construire à terme un réseau européen à l’échelle d’une vingtaine de pays. En 2014 aussi, les premières entreprises privées testent la technologie pour donner accès à leurs  propres données »

Tout est-il résolu ?

Pas vraiment ! Un récent rapport du Parlement Européen sur l’initiative européenne sur l’informatique en nuage pointe la nécessité d’une harmonisation commune à l’ensemble des membres de l’Union européenne. Les risques liés à l’ouverture des données doivent donner lieu à la mise en place d’opérations de pseudonymisation, d’anonymisation ou encore de cryptage. Disposer d’infrastructures sûres et sécurisées est un autre point souligner par le rapport. En conclusion, les auteurs du rapport invitent la Commission européenne à mettre en œuvre une stratégie en matière de cybersécurité pour protéger les travaux de la communauté scientifique européenne.

De plus, le tout récent document de travail rédigé par le CNRS et le projet ISTEX appellent eux aussi à des ajustements pour sécuriser les pratiques des chercheurs (réalisation de guide d’application, charte, sensibilisation). Il demande une clarification des termes et des notions (données de la recherche, écrits scientifiques…) afin de définir les droits afférents.

En conclusion, quels risques pour les données de la recherche ?

S’attacher à comprendre les risques permet d’apporter des solutions techniques, humaines et juridiques. Toutes les données sont concernées et les données de la recherche, précieuses et coûteuses, doivent faire l’objet d’une attention particulière. L’adoption de la loi « Pour une République numérique » ouvre le chemin en préconisant des outils de protection, en favorisant leur diffusion et l’utilisation des outils du Big Data. Ces avancées ont d’ailleurs été saluées par la conférence des présidents d’université, notamment par l’autorisation de la fouille de textes et de données alors que jusqu’ici,« au nom de la protection du droit d’auteur, la loi interdisait aux chercheurs de réutiliser des articles scientifiques et/ou des données publiés, alors même que ces résultats étaient le fruit de leur travail et financées par de l’argent public »

Pour autant, si la loi encourage et rend possible le recours à de nouvelles applications informatiques pour l’analyse des données massives, ce sont bien les hommes qui seuls, peuvent donner du sens aux données. L’ouverture des données de la recherche ne pourra dès lors réaliser ses promesses qu’avec l’adhésion des chercheurs, en tant que producteurs et utilisateurs.

 

 

Bibliographie sélective ——————————————

CARDON Dominique, A quoi rêvent les algorithmes ? Nos vies à l’heure des big data. Paris : Editions du Seuil, 2015

– CARTIER Aurore, MOYSAN Magalie, REYMONET Nathalie. Construire des outils pour la gestion des données de la recherche dans une communauté d’universités. (Consulté le 9 février 2017)

https://hal-descartes.archives-ouvertes.fr/hal-01138663/document

– Digital Curation Centre, Edimburg. (Consulté le 6 février 2017)

< http://www.dcc.ac.uk/>

– La directive INSPIRE pour les nuls (3ème édition). (Consulté le 15 février 2017) http://www.geopal.org/upload/gedit/1/file/Inspire_pour_les_neophytes_V3.pdf

– LEMBERGER Pirmin, BATTY Marc, MOREL Médéric [et al.]. Big Data et Machine Learning : Manuel du data scientist. Paris : Dunod, 2015

– MAUREL Lionel. Quel statut pour les données de la recherche après la loi numérique ? (Consulté le 17 février 2017)

https://scinfolex.com/2016/11/03/quel-statut-pour-les-donnees-de-la-recherche-apres-la-loi-numerique/

– MIT Libraries, Cambridge. Data Management. (Consulté le 10 février 2017). <https://libraries.mit.edu/data-management/plan/write/>

– Ouverture des données de recherche : Guide d’analyse du cadre juridique en France. (Consulté le 10 février 2017)

<http://www.bibliothequescientifiquenumerique.fr/wp-content/uploads/2017/01/Guide_analyse_Cadre_Juridique_Ouverture_donness_Recherche_V1.pdf>

Réaliser un plan de gestion des données. (Consulté le 10 février 2017)

<http://www.univ-paris-diderot.fr/DocumentsFCK/recherche/Realiser_un_DMP_V1.pdf>

– data.gouv.fr.

<http://www.data.gouv.fr/fr/>

– UNIVERSITE DE MONTREAL. Gestion des données de recherche. (Consulté le 6 février 2017)
http://guides.bib.umontreal.ca/disciplines/500-Gestion-des-donnees-de-recherche?tab=2304

– URFIST, Strasbourg. Gestion et diffusion des données de la recherche. (Consulté le 12 février 2017)

<http://www.inist.fr/IMG/pdf/support_formation_urfist_strasbourg_20161125.pdf.>

Soyez le premier à commenter

Poster un Commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.