Projet PROMISE

Une stratégie fédérale pour la préservation du web belge

Lancé le 1er juin 2017, le projet de recherche en réseau Preserving Online Multiple Information : towards a Belgian strategy (PROMISE) avait pour objectif de créer une stratégie fédérale pour la préservation du web belge.

D’où vient ce projet ?

Le web, devenu le moyen de communication de référence de notre quotidien, constitue aujourd’hui un moyen de publication à part entière. Avec l’arrivée du numérique et du développement des publications en ligne, la notion d’édition s’est intégralement élargie au monde digital et à celui du web. Tout comme l’édition imprimée dont la préservation est garantie par le dépôt légal, cette partie importante du web doit faire l’objet d’une politique de préservation à long terme.

Pour répondre à cette nécessité de sauvegarde, pour les générations futures, du web belge qui représente une importante part de l’histoire et de l’édition belge, un projet de recherche a été lancé.

Par ailleurs, l’édition numérique étant liée naturellement au web dans ses technologies de création et de diffusion, KBR peut aujourd’hui collecter et inventorier des sites web en lien avec ses missions. L’arrêté royal définissant ses missions a, en effet, été adapté en ce sens le 25 décembre 2016. Ce nouveau mandat couplé à l’avant-projet de loi, en préparation, relatif à l’extension du dépôt légal aux publications numériques permettront de répondre au besoin pressant de préservation de l’édition numérique belge.

Étapes du projet

  1. Identifier les bonnes pratiques en matière d’archivage du web
  2. Mettre en place un projet pilote d’archivage du web belge
  3. Identifier des cas d’utilisation pour l’étude scientifique du web belge
  4. Donner des recommandations pour l’implémentation d’un service de web archiving viable

Pendant les deux années du projet, plusieurs chercheurs ont travaillé à établir une politique de sélection des sites à archiver, à l’étude des cadres légaux actuels afin de définir les compétences propres aux missions des Archives de l’Etat et KBR ainsi qu’ à développer un prototype de collecte qui a été testé et évalué par un panel d’utilisateurs.

Les résultats de ce projet sont actuellement utilisés pour développer et mettre en place une archive web au sein de KBR. De plus, le projet de recherche BESOCIAL (2020-2022) est un complément intéressant au projet PROMISE car il traite de l’archivage des médias sociaux.

Collaboratrice scientifique : Friedel Geeraert

Documentation

Partenaires

Financé par le SPP Politique scientifique (Belspo) dans le cadre du programme BRAIN-be, ce projet, coordonné par KBR, réunit les Archives de l’Etat, les universités de Gand (Research Group for Media, Innovation and Communication Technologies ; Ghent Centre for Digital Humanities) et Namur (Research Centre in Information, Law and Society) ainsi que la Haute Ecole Bruxelles-Brabant (Unité de Recherche et de Formation en Sciences de l’Information et de la Documentation).

Promisebot

Promisebot est un web crawler ou robot utilisé dans ce projet.

Le processus d’exploration de Promisebot commence par une liste de pages Web. Lorsque Promisebot visite chacun de ces sites Web, il détecte des liens (SRC et HREF) sur chaque page et les ajoute à sa liste de pages à parcourir.

Promisebot s’identifie comme suit : « Mozilla/5.0 (compatible ; promisebot/1.0+https://www.kbr.be/en/promise-project) » dans l’en-tête de requête HTTP User-Agent. Promisebot utilise ces adresses IP et noms d’hôtes :

  • 91.121.67.124 – ns301053.ip-91-121-67.eu
  • 172.18.16.11 – ea06c202.private.ugent.be
  • 193.191.148.229 – promise.ilabt.imec.be

Si vous détectez un comportement inattendu, veuillez nous contacter en indiquant l’User-Agent complet et si possible l’adresse IP.

Promisebot ne devrait pas accéder à votre site plus d’une fois toutes les quelques secondes en moyenne pour éviter de surcharger les serveurs web. Toutefois, en raison des retards du réseau, il est possible que le taux semble légèrement plus élevé sur de courtes périodes.

Promisebot respecte le fichier robots.txt que vous pouvez utiliser pour autoriser ou refuser l’accès à (certaines parties de) votre site, ou pour modifier la fréquence des requêtes.