L’archivage du web : une approche Big Data

Troisième étape : Conservation / stockage / préservation

La BNF a créé le système SPAR pour la conservation mais surtout pour la préservation des données. Comme indiqué sur son site, « SPAR (Système de Préservation et d’Archivage Réparti) cherche à garantir la préservation des documents numériques : à faire en sorte que l’information reste lisible, compréhensible et réutilisable sur le long terme, même si l’environnement technique et humain dans lequel ces documents ont été produits change. Comme il est souvent difficile de réparer des documents numériques après dégradation ou de les relire après disparition des matériels et logiciels d’époque, l’effort porte sur les opérations préventives de veille et de migration ». SPAR est construit avec des briques logicielles ouvertes et est évolutif. L’objectif est de pouvoir adapter le système aux évolutions technologiques en facilitant la restitution et le traitement.

Schéma fonctionnel de SPAR dans le contexte de fonctionnement de la BNF
Schéma fonctionnel de SPAR dans le contexte de fonctionnement de la BNF
Source : http://www.bnf.fr/fr/professionnels/spar_systeme_preservation_numerique/a.spar_presentation.html (consulté le 301/03/2017)

Actuellement, l’INA s’engage dans une démarche de stockage des données orientée Big data. En effet, il est question de fondre tous les systèmes documentaires au sein d’un lac de données dans le but de rassembler toutes les données que l’institution conserve (ce qui inclue les « métadonnées documentaires, commerciales, juridiques et d’usage » d’après Gautier Poupeau interviewé par Bruno Texier d’Archimag[8]). Un lac de données (Data Lake en anglais) est défini par l’absorption de flux de données bruts rendus utilisables pour analyse. Des données disparates sont collectées puis stockées en continu dans un espace que l’on pourrait qualifier de « réservoir ».

Quatrième étape : Communication / restitution

Les archives du web ne sont pas en accès libre en France. Toutefois, la BNF, l’INA et certains pôles associés permettent un accès aux archives dans leurs locaux. La Bibliothèque Nationale Universitaire de Strasbourg, sous l’égide de la BNF, a mis en ligne un tutoriel[9] qui permet de comprendre ce qu’est le dépôt légal du web, ce qu’on y trouve et comment le consulter. L’INA donne accès à la consultation des archives du web dans 27 lieux répartis sur le territoire français[10] via une interface de restitution des sites web développée en interne. Cette interface met à disposition un accès temporel aux sites archivés tout en restituant le contenu dynamique. D’autres outils complémentaires viennent enrichir ces interfaces tels des outils d’analyse qui permettent d’élargir la recherche aux sites, aux URLs, aux dates. La BNF utilise une interface de restitution similaire à la Wayback Machine[11] d’Internet Archive mais ne peut la proposer en dehors de ses locaux pour des raisons de respect des droits d’auteur.

Aperçu du site de l'Université Montpellier 3 le 19 décembre 1996 avec la Wayback Machine
Aperçu du site de l’Université Montpellier 3 le 19 décembre 1996 avec la Wayback Machine
Source : https://web.archive.org/web/19961219014151/http://www.univ-montp3.fr/ (consulté le 01/04/217)

 

Challenges et enjeux

Le premier enjeu de l’archivage du web est de préserver la mémoire des 20ème et 21ème siècles dans un environnement de grands changements technologiques. Il faut assurer la pérennité de l’archivage tout en trouvant des solutions concernant les difficultés de collecte notamment la collecte des sites sur abonnement (par exemple sites de journaux ou de vidéo à la demande), les applications de musique en ligne ou les sites proposant des livres numériques avec dispositif anti-copie.

Le second enjeu est la restitution des éléments collectés ainsi que leur ouverture à la recherche. Il convient de réfléchir aux usages possibles. Comme le signale Claude Mussou[12] « l’archive web se construit « au fil de l’eau », par la collecte automatique de contenus qui n’ont, pour partie, pas perdu leur valeur d’usage et, à la différence de la radio ou de la télévision, ne proviennent pas d’un flux temporel linéaire. C’est pourquoi, coller au plus près à la fréquence de mise à jour des pages, ajuster à la taille des sites les profondeurs de collecte par les robots, assurer une veille permanente pour suivre l’apparition des contenus, leur évolution, ou même anticiper leur disparition, et travailler en relation étroite avec la communauté académique sont des priorités pour la constitution de collections qui, à défaut d’être exhaustives, s’efforcent de répondre le mieux possible aux exigences de recherche. »

La BNF a lancé un projet : Préfiguration d’un service de fourniture de corpus numériques à destination de la recherche qui couvre la période 2016-2019. Ce projet « doit permettre aux chercheurs d’utiliser les outils d’analyse qui permettent d’aller au-delà de ce que l’œil humain peut lire, pour établir de nouvelles connaissances. La fouille de textes et de données (ou TDM pour text & data mining) offre justement l’opportunité de voir émerger de nouvelles pistes de recherche : il ne s’agit plus de consulter un document pour son seul contenu, mais d’interroger la place qu’il occupe dans un corpus, questionner ses métadonnées, ses occurrences internes et externes.
A l’heure du « big data », de nouveaux cas d’utilisation émergent dans le monde de la recherche et plus spécifiquement des humanités numériques. »[13]. Les technologies Big data font leur entrée à la BNF pour exploiter plus encore les données issues de l’archivage du web !

D’après le rapport de Gail Truman[14], daté de mars 2016, 23 institutions de par le monde ont un programme d’archivage du web. Les institutions analysées sont des institutions publiques qui ont pour mission de rendre accessibles les ressources aux chercheurs et aux historiens (bibliothèques, archives et musées). Les organisations faisant un usage commercial des données archivées ont été écartées de ce rapport. Les archives du web sont dotées d’une valeur patrimoniale et scientifique. Les technologies du Big data viennent apporter un nouvel éclairage sur ces corpus encore très peu exploités du fait de leur volumétrie, de leur variété et de leurs aspects dynamiques.

Pour aller plus loin

Workflow de l’archivage du web à la BNF : http://netpreserve.org/sites/default/files/resources/Putting{b23bcbc6564704ae5314c50cf6e55ef99bc09de32ef3fcb54190da321a083ca4}20it{b23bcbc6564704ae5314c50cf6e55ef99bc09de32ef3fcb54190da321a083ca4}20all{b23bcbc6564704ae5314c50cf6e55ef99bc09de32ef3fcb54190da321a083ca4}20together.pdf

Exemples de valorisation des archives du web 

NOTES ————————————-

[8] Bruno Texier, « Big data : l’Ina se plonge dans un « lac de données » « , [en ligne] http://www.archimag.com/univers-data/2015/11/26/big-data-ina-plonge-lac-donn{b23bcbc6564704ae5314c50cf6e55ef99bc09de32ef3fcb54190da321a083ca4}C3{b23bcbc6564704ae5314c50cf6e55ef99bc09de32ef3fcb54190da321a083ca4}A9es  (consulté le 30/03/2017)

[9] Lien vers le tutoriel : http://dai.ly/x5bmq3j (consulté le 30/03/2017)

[10] Lien vers les lieux de consultation des archives web collectées par l’INA : http://www.inatheque.fr/consultation.html (consulté le 30/03/2017)

[11] Lien vers la Wayback Machine d’Internet Archive : https://archive.org/web/

[12] Claude Mussou, « Et le Web devint archive : enjeux et défis », Le Temps des médias 2012/2 (n° 19), p. 259-266. DOI 10.3917/tdm.019.0259

[13] Bibliothèque Nationale de France http://actions-recherche.bnf.fr/BnF/anirw3.nsf/IX01/A2016000032_prefiguration-d-un-service-de-fourniture-de-corpus-numeriques-a-destination-de-la-recherche (consulté le 30/03/2017)

[14] Gail Truman, Web Archiving Environmental Scan. Harvard Library Report. 2016 https://dash.harvard.edu/handle/1/25658314 (consulté le 31/03/2017)

Soyez le premier à commenter

Poster un Commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.