DATA-KBR-BE

Verbeterde toegang op dataniveau tot de gedigitaliseerde en born-digital collecties van KBR voor onderzoek in de digital humanities

 

Het project

DATA-KBR-BE is een interdisciplinaire samenwerking tussen experten in cultureel erfgoed, digital humanities-onderzoekers en datawetenschappers. Het is de bedoeling om toegang op dataniveau aan te bieden tot de gedigitaliseerde en born-digital collecties van KBR, in het kader van Open Science. Het project loopt 24 maanden (2020-2022) en wordt gefinancierd door het Federaal Wetenschapsbeleid (BELSPO) in het kader van het Belgische BRAIN 2.0-programma.

DATA-KBR-BE zal de bestaande ICT-infrastructuur van KBR optimaliseren. Zo stimuleert het project een duurzame toegang op dataniveau tot de gedigitaliseerde collecties, specifiek voor onderzoek in de digital humanities. Voor dit project werken onderzoeksteams van de universiteiten van Gent (GhentCDH en IDLab) en Antwerpen (ACDC) nauw samen met de digitaliserings-, collectie- en ICT-experts van KBR. Samen werken ze drie interdisciplinaire onderzoeksscenario’s uit die relevante thematische datasets halen uit BelgicaPress, de gedigitaliseerde historische krantencollectie van KBR. Het is de bedoeling dat deze data gebruikt worden in onderzoek binnen de digital humanities.

 

Belangrijkste doelen van dit project:

  1. een duurzame workflow voor gegevensextractie opmaken
  2. een Open Data Platform ontwerpen voor KBR en implementeren (data.kbr.be)
  3. een inventaris opmaken van de digitale collecties van KBR
  4. de DATA-KBR-BE-datasets publiceren
  5. een hackathon organiseren rond de DATA-KBR-BE-datasets

 

Collecties als data

Toegang verlenen op dataniveau tot digitale collecties is een belangrijke uitdaging om onderzoek te kunnen doen in de digital humanities. In de Verenigde Staten zijn er initiatieven als ‘Always Already Computational: Collections as Dataen Collections as Data: Part to Whole. Zij definiëren het concept als volgt: “conceptual orientation to collections that renders them as ordered information, stored digitally, so that they are inherently amenable to computation”. Hun initiatief is opgezet om te kunnen documenteren, ervaringen uit te wisselen en kennis te delen, om zo instellingen met cultureel erfgoed aan te moedigen zelf ook ‘collecties als data’ te implementeren. DATA-KBR-BE is het startschot voor de implementatie van ‘collecties als data’ in België.

 

Toegang tot de collecties op dataniveau

Toegang geven tot de digitale collecties op dataniveau betekent toegang geven tot de onderliggende databestanden van het gedigitaliseerde erfgoed.

Die gedetailleerde toegang maakt het eenvoudiger om gegevens te analyseren met instrumenten en methodes die ontwikkeld zijn binnen het onderzoeksveld van de digital humanities.

Zo zou er toegang gegeven kunnen worden tot de METS (Metadata Encoding and Transmission Standard) en ALTO (Analysed Layout and Text Object) bestanden (bv. in XML or JSON). Verder kan het gaan om pdf’s van gescande krantenpagina’s of om afbeeldingen in een lagere resolutie (bv. JPEG) of hogere resolutie (bv. TIFF).

 

 

Onderzoek in de digital humanities

Het team van het DATA-KBR-BE project zal drie interdisciplinaire onderzoeksscenario’s uitwerken om relevante thematische datasets te halen uit BelgicaPress, de gedigitaliseerde historische krantencollectie van KBR. Deze data kunnen dan gebruikt worden in onderzoek binnen de digital humanities.

Het digital humanities-onderzoek dat in het kader van dit project wordt uitgevoerd, zal plaatsvinden in nauwe samenwerking met het KBR Digital Research Lab. De onderzoeksscenario’s zijn casestudy’s om het wetenschappelijk potentieel te tonen dat er is voor toegang op dataniveau tot de collecties van de KBR.

Dit zijn de onderzoeksscenario’s:

  • Collective Action Belgium, onder leiding van GhentCDH, gericht op de sociale geschiedenis tijdens het interbellum en de Tweede Wereldoorlog. Het tracht de dynamiek te achterhalen van geschillen, stakingen, betogingen en andere vakbondsacties in België zoals gerapporteerd in Belgische kranten.
  • The feuilleton in Belgium, onder leiding van ACDC, richt zich op literatuurwetenschap in de periode 1830-1930 en wil de publicatie van literatuur in Belgische kranten tijdens de eerste eeuw van de Belgische natiestaat in kaart brengen.
  • History of Belgian Journalismonder leiding van de ULB en KBR, focust op de mediageschiedenis van 1886 tot nu. Het tracht de geschiedenis van de Belgische journalistiek te traceren, vanuit het perspectief van kritische betogen over journalistiek in de Belgische kranten.

 

Aan de slag met expertise uit de datawetenschap

De datawetenschappers van het IDLab van de Universiteit Gent die deel uitmaken van het DATA-KBR-BE team, zullen document lay-out analysis uitvoeren op het BelgicaPress-corpus om de interdisciplinaire onderzoeksscenario’s te ondersteunen.

Dit omvat onder meer de automatische detectie van foto’s, bijschriften bij foto’s, tekstblokken en titels in het gedigitaliseerde krantencorpus.

Ze gebruiken hiervoor verschillende onderdelen:

  • lay-outkenmerken (regels, spaties, versieringen);
  • tekstkenmerken (lettertypes, hoofdletters);
  • inhoudelijke overeenkomsten (tekst/tekst, tekst/beeld, beeld/beeld);
  • coördinaten van de tekstblokken.

In een tweede fase worden meer geavanceerde analyses uitgevoerd om automatisch artikelen per soort te classificeren (bv. feuilletons) of voor tekstherkenning in beelden, bv. slogans detecteren in krantenadvertenties, affiches, reclame enzovoort.

 

BelgicaPress sample structures for document layout analysis
Layoutanalyse in BelgicaPress

 

 

Een grondslag leggen

In deze eerste fase zal het DATA-KBR-BE-project toegang op dataniveau bieden tot de gedigitaliseerde collecties van KBR, met een focus op de gedigitaliseerde kranten. Dit project is echter vooral bedoeld om een solide basis te leggen voor toegang tot een breder scala aan gedigitaliseerde collecties en born-digital collecties zoals gearchiveerde websites en sociale media.

 

Internationale samenwerking

Naast het initiatief Collections as Data initiative is DATA-KBR-BE ook geïnspireerd door dataplatforms bij andere culturele erfgoedinstellingen zoals de nationale bibliotheken van Luxemburg, Nederland en de British Library.

Het DATA-KBR-BE projectteam neemt actief deel aan de internationale GLAM Labs Community (‘Galleries, Libraries, Archives and Museums’) en schrijft mee aan het Open Access-boek ‘Open a GLAM Lab.

illustration showing how GLAM labs work

Het team is nauw verbonden met internationale initiatieven zoals DARIAH, de ‘Digital Research Infrastructure for the Arts and Humanities’, CLARIN, de European Research Infrastructure for Language Resources and Technology en de European Open Science Cloud (EOSC), inclusief het initiatief Social Sciences and Humanities Open Cloud (SSHOC). DATA-KBR-BE onderzoekt ook de mogelijkheden voor samenwerking met het Heritage Data Reuse Charter, de Europeana Research Community en andere initiatieven voor gedigitaliseerde kranten, zoals NewsEye en Impresso.

 

Partners

Dit project wordt gefinancierd via het Belgische BRAIN 2.0-programma, onder leiding van de dienst Digitalisering van KBR, in een nauwe samenwerking met het Digital Research Lab. Het is het resultaat van een interdisciplinaire samenwerking tussen KBR en de digital humanities-onderzoekers van het Ghent Centre for Digital Humanities, het Antwerp Centre for Digital Humanities and Literary Criticism en de datawetenschappers van het Internet Technology and Data Science Lab (IDLab) van de Universiteit Gent.

 

Contact