fbpx
Chargement Évènements
  • Cet évènement est passé

Digital Heritage Seminar: Layout Analysis and OCR with Deep Learning and Heuristics

Evénement en ligne

11 avril 2022
14:00 - 15:30

Cet événement est passé.

Horaires

11 avril 2022
14:00 - 15:30

Type d'événement

Evénement en ligne

Prix

Free

Tags

Digital Heritage Seminar: Image Processing

 

KBR vous invite à participer à une nouvelle série de séminaires dédiés au patrimoine culturel numérique : le KBR Digital Heritage Seminar. Ces conférences sont organisées par le Digital Research Lab de KBR en collaboration avec l’Université libre de Bruxelles, la Vrije Universiteit Brussel, l’Université catholique de Louvain et l’Université de Gand.

Entre février et juin 2022, nous accueillerons virtuellement trois chercheurs qui présenteront leurs recherches relatives au patrimoine culturel et plus particulièrement au traitement des images.

Toutes les conférences se feront en anglais. Les questions-réponses se dérouleront en anglais, français et néerlandais.

 

Patrimoine et traitement des images

Selon l’expression, « le diable se cache dans les détails ». Quand on parle de patrimoine culturel numérique, on pourrait dire que « le diable se cache dans les images ». D’importants efforts ont déjà permis de numériser les collections du patrimoine culturel afin de les promouvoir et d’en faciliter leur accès au grand public (les images sont publiées sur des sites web comme, par exemple, dans notre bibliothèque numérique, Belgica). Cependant, les technologies doivent encore être développées afin de pouvoir utiliser pleinement les informations (les textes par exemple) qui se cachent derrière ces images numérisées.

Les intervenants ont une grande expertise dans l’analyse des images et plus particulièrement dans l’extraction d’informations à partir des collections numérisées.

 

Programme

Clemens Neudecker, Staatsbibliothek zu Berlin

 

“New Tools for Old Documents – Layout Analysis and OCR with Deep Learning and Heuristics”

This talk will discuss the main achievements and experiences of the QURATOR project at the Berlin State Library (SBB) for document layout analysis. Historical documents that are being digitized in large quantities by libraries and archives frequently exhibit a wide array of features that disturb layout analysis, such as complex layouts with multiple columns, drop capitals and illustrations, skewed or curved text lines, noise, annotations, etc.

In order to deal with these challenges and defects, a robust document layout analysis was developed that is implemented by pixel-wise segmentation using convolutional neural networks. In addition, heuristic methods are applied to detect columns or marginalia, and to determine the reading order of text regions. A key objective lies in feeding the resulting outputs to subsequent processes like a text recognition (OCR) engine or an image similarity search.

Voir les slides

 

 

Inscriptions

L’inscription est gratuite mais obligatoire. Le matin du jour de l’évènement, vous recevrez un lien vers la vidéoconférence. Si vous avez la moindre question, n’hésitez pas à envoyer un e-mail à gna.yh@xoe.or.

Durée : 1h30

Inscriptions

 

 

À propos du conférencier

Clemens Neudecker a étudié la philosophie, l’informatique et les sciences politiques à l’Université Ludwig Maximilian (LMU) de Munich. Pendant plus de 15 ans, il a travaillé dans la recherche et le développement (R&D) pour diverses bibliothèques numériques dont la Bayerische Staatsbibliothek et la Koninklijke Bibliotheek van Nederland. Aujourd’hui, Clemens Neudecker est chercheur et coordinateur de projet à la Staatsbibliothek zu Berlin. Il est également membre du conseil d’administration d’Europeana, la plateforme numérique du patrimoine culturel de l’Union européenne.