Project PROMISE

Federale strategie voor het bewaren van het Belgische web

Het project Preserving Online Multiple Information : towards a Belgian strategy (PROMISE) ging op 1 juni 2017 van start en had tot doel een federale strategie voor het bewaren van het Belgische web uit te werken.

Doel van het project

Het web, dat in het dagelijkse leven het communicatiemiddel bij uitstek is geworden, vormt de dag van vandaag een publicatiekanaal op zichzelf. Met het aanbreken van het digitale tijdperk en de opkomst van online publicaties is het begrip ‘uitgave’ breder geworden en heeft het ook in de digitale wereld en de wereld van het web een vaste plaats gekregen. Net zoals voor de gedrukte publicaties, waarvan de bewaring wordt gegarandeerd door het wettelijk depot, moet voor dit belangrijke deel van het web ook een bewaringsbeleid voor de lange termijn worden uitgewerkt.

Dit onderzoeksproject werd opgestart om een antwoord te formuleren op de dringende vraag rond het bewaren van het Belgische web, wat een belangrijk deel van de Belgische uitgaves en geschiedenis vormt voor toekomstige generaties.

Omdat digitale uitgaves van nature uit gelinkt zijn aan het web (door de technologieën die worden gebruikt om deze te creëren en te verspreiden), mag KBR websites die in verband staan met haar missies verzamelen en inventariseren. Het koninklijk besluit dat de missies van de Koninklijke Bibliotheek bepaalde werd daartoe aangepast op 25 december 2016. Dit nieuwe mandaat is gekoppeld aan een wetsvoorstel dat momenteel wordt voorbereid rond het uitbreiden van het wettelijk depot met digitale publicaties. Dit zal toelaten om de dringende nood rond het bewaren van de Belgische digitale publicaties het hoofd te bieden.

Fases van dit project

  1. De goede praktijken in het kader van webarchivering identificeren
  2. Een pilootproject voor het archiveren van het Belgische web op poten zetten
  3. Gebruikstoepassingen voor de wetenschappelijke studie van het Belgische web identificeren
  4. Aanbevelingen geven voor de implementatie van een duurzame webarchiveringsdienst

Gedurende de twee jaar dat het project liep, bogen meerdere onderzoekers zich over het selectiebeleid van de te archiveren websites, het wettelijk kader om de competenties eigen aan het Rijksarchief en KBR te bepalen en het ontwikkelen van een verzamelingsprototype dat werd getest en geëvalueerd door een panel van gebruikers.

De onderzoeksresultaten van dit project worden momenteel gebruikt om binnen KBR een webarchief te ontwikkelen en te implementeren. Bovendien vormt het onderzoeksproject BESOCIAL (2020-2022) een interessante aanvulling op het PROMISE onderzoeksproject aangezien het zich buigt over het archiveren van sociale media.

Projectmedewerker: Friedel Geeraert

Documentatie

Partners

Bij het project dat wordt gefinancierd door de programmatorische federale Overheidsdienst Wetenschapsbeleid (Belspo) in het kader van het BRAIN-be programma en wordt gecoördineerd door KBR, zijn zowel het Rijksarchief, de universiteiten van Gent (Research Group for Media, Innovation and Communication Technologies ; Ghent Centre for Digital Humanities) en Namen (Research Centre in Information, Law and Society) als de hogeschool Bruxelles-Brabant (Unité de Recherche et de Formation en Sciences de l’Information et de la Documentation) betrokken.

Promisebot

Promisebot is de webcrawler of spider die gebruikt wordt in dit project.

De crawler start het verzamelen van websites met een lijst URL’s van webpagina’s. Bij het bezoeken van deze pagina’s detecteert Promisebot links (SRC en HREF) en voegt deze toe aan de lijst met te verzamelen pagina’s.

Promisebot is herkenbaar aan het User-Agent veld in het HTTP request dat volgende waarde heeft: “Mozilla/5.0(compatible; promisebot/1.0 +https://www.kbr.be/en/promise-project)”. Promisebot gebruikt volgende IP adressen en host names:

  • 91.121.67.124 – ns301053.ip-91-121-67.eu
  • 172.18.16.11 – ea06c202.private.ugent.be
  • 193.191.148.229 – promise.ilabt.imec.be

Gelieve ons te contacteren bij onverwacht gedrag en de volledige User-Agent en indien mogelijk het IP adres te vermelden.

Om te voorkomen dat Promisebot webservers te zwaar zou belasten, zou een server slechts bezocht worden in tijdsintervallen van een paar seconden. Door netwerkvertragingen zou dit tijdelijk wat kunnen afwijken.

Promisebot houdt zich aan robots.txt, waardoor u dit kan gebruiken om toegang te geven of ontnemen voor (delen van) uw website, of om de requestsnelheid aan te passen.