fbpx
Chargement Évènements
  • Cet évènement est passé
persoon bewerkt documenten op pc

Digital Heritage Seminar: Reliable Semantic Indexing of Historical Newspapers at Scale

Evénement en ligne

15 juin 2023
14:00 - 15:30

Cet événement est passé.

Horaires

15 juin 2023
14:00 - 15:30

Type d'événement

Evénement en ligne

Prix

Free

Tags

Digital Heritage Seminar: Historical Newspapers in the Digital Age

Les journaux constituent un vaste ensemble de connaissances sur le passé. Compte tenu de la riche documentation textuelle et visuelle qu’ils contiennent sur les événements, les personnes, les lieux ou les organisations, ils sont depuis longtemps une source de prédilection pour les chercheurs et chercheuses en sciences humaines. La numérisation des journaux historiques au cours des deux dernières décennies a radicalement changé la façon dont les chercheurs peuvent utiliser ces sources.

Traditionnellement, ils étaient confrontés au défi de lire manuellement les copies physiques ou microfilmées des journaux, ce qui demandait beaucoup de temps et de travail. Aujourd’hui, le défi est plutôt l’excès de données. La numérisation croissante et la mise à disposition de textes intégraux et d’images segmentées de journaux historiques avec reconnaissance optique de caractères (OCR) offrent de nouveaux outils et de nouvelles possibilités pour étudier le passé.

Dans cette série, trois projets de recherche qui ont mis en œuvre des outils numériques pour étudier différents phénomènes dans des corpus de journaux historiques numérisés seront présentés.

 

 

Au programme

15 juin 2023 à 14h00

Maud Ehrmann – Reliable Semantic Indexing of Historical Newspapers at Scale: Are We There Yet?

 

Abstract

Following the decisive efforts led by libraries to digitise newspaper collections, research initiatives to apply computational methods to historical newspapers at scale have recently multiplied. In this context, the interdisciplinary project ‘impresso – Media Monitoring of the Past’ brought together a team of computational linguists, designers and historians to collaborate on the datafication of a multilingual corpus of historical newspapers. The main objectives of the project were to improve text mining tools for historical text, to enrich historical newspapers with automatically generated data, and to integrate such data into historical research workflows by means of a newly developed user interface. Beyond the challenges specific to the different research areas underpinning each of these goals, the question of how best to adapt text mining tools and their use by humanities scholars was at the heart of the impresso enterprise.

In this talk, I will present the challenges of processing and mining large-scale collections of digitised newspapers, discuss our efforts to overcome them, introduce the co-designed impresso interface and, finally, reflect on the lessons learned and outline key priorities for future developments around accurate, useful and sustainable semantic indexing of historical newspaper collections.

 

Infos pratiques

L’inscription est gratuite mais obligatoire. Le matin du jour de l’évènement, vous recevrez un lien vers la vidéoconférence.

Durée : 1h30

Si vous avez la moindre question, n’hésitez pas à envoyer un e-mail à oerpug.qrfrher@xoe.or.

S’inscrire

 

 

L’oratrice

Maud Ehrmann est chercheuse et chargée de cours au laboratoire d’humanités numériques de l’École Polytechnique Fédérale de Lausanne. Elle est titulaire d’un doctorat en linguistique informatique de l’Université de Diderot à Paris et a participé à un grand nombre de projets scientifiques liés à l’extraction d’informations et à l’analyse de textes, tant pour des documents contemporains qu’historiques.

 

Organisation

Cette série est organisée par le groupe de travail Digital Heritage de KBR, en collaboration avec l’ULB. Le groupe de travail est composé de chercheurs de ces projets financés par BELSPO :