- Dit evenement is voorbij.
Digital Heritage Seminar: Reliable Semantic Indexing of Historical Newspapers at Scale
Online evenementDigital Heritage Seminar: Historical Newspapers in the Digital Age
Historische kranten vormen een enorme bron van kennis over het verleden. Ze bevatten rijke documentatie in tekst en beeld over gebeurtenissen, personen, plaatsen, organisaties en zijn daarom al lang een veelgebruikte bron voor onderzoekers in de menswetenschappen. De afgelopen twee decennia heeft grootschalige digitalisering van deze historische kranten nieuwe manieren waarop onderzoekers deze bronnen kunnen gebruiken. Vroeger moesten ze fysieke of gemicrofilmde kranten manueel doorbladeren, een tijdrovend en arbeidsintensief karwei.
Vandaag situeert de uitdaging zich veeleer op het vlak van een te grote hoeveelheid aan data. Door de toenemende digitalisering en de terbeschikkingstelling van de inhoud in full tekst dankzij OCR-technieken (Optical Character Recongition), maar ook door gesegmenteerde afbeeldingen van historische kranten, beschikken onderzoekers nu over nieuwe instrumenten en mogelijkheden om het verleden te bestuderen.
In deze reeks stellen we drie onderzoeksprojecten voor waarbij zulke digitale instrumenten werden gebruikt bij onderzoek in corpora van gedigitaliseerde historische kranten.
Programma
15 juni 2023 om 14.00 uur
Maud Ehrmann – Reliable Semantic Indexing of Historical Newspapers at Scale: Are We There Yet?
Abstract
Following the decisive efforts led by libraries to digitise newspaper collections, research initiatives to apply computational methods to historical newspapers at scale have recently multiplied. In this context, the interdisciplinary project ‘impresso – Media Monitoring of the Past’ brought together a team of computational linguists, designers and historians to collaborate on the datafication of a multilingual corpus of historical newspapers. The main objectives of the project were to improve text mining tools for historical text, to enrich historical newspapers with automatically generated data, and to integrate such data into historical research workflows by means of a newly developed user interface. Beyond the challenges specific to the different research areas underpinning each of these goals, the question of how best to adapt text mining tools and their use by humanities scholars was at the heart of the impresso enterprise.
In this talk, I will present the challenges of processing and mining large-scale collections of digitised newspapers, discuss our efforts to overcome them, introduce the co-designed impresso interface and, finally, reflect on the lessons learned and outline key priorities for future developments around accurate, useful and sustainable semantic indexing of historical newspaper collections.
Praktisch
Alle lezingen zijn in het Engels. Vragen kunt u stellen in het Frans, Nederlands of Engels.
Registratie is verplicht. De ochtend van het evenement ontvangt u de link naar het webinar en de etiquette die moet worden gevolgd.
Duur: 1,5 uur
Nog vragen? Stuur dan een e-mail naar oerpug.qrfrher@xoe.or.
Inschrijven
Over de spreker
Maud Ehrmann is een onderzoekswetenschapper en docent in het labo voor digital humanities van de École Polytechnique Fédérale te Lausanne. Ze behaalde een diploma van doctor in computationele taalkunde aan de universiteit Diderot in Parijs en was betrokken bij een groot aantal wetenschappelijke projecten in verband met de extractie van informatie en tekstanalyse, voor zowel hedendaagse als historische documenten.
Organisatie
Deze reeks wordt georganiseerd door de Digital Heritage-werkgroep van KBR, in samenwerking met de ULB. De werkgroep bestaat uit onderzoekers van deze door BELSPO gefinancierde projecten:
- CAMille (ULB-KBR)
- the Data Science Lab (VUB-KBR)
- the Digital Research Lab (UGent – KBR)
- LabEL (UCLouvain-KBR)
- Pop-up Heritage (KU Leuven-KBR)
- BELTRANS
- DATA-KBR-BE